这两天刚在OpenAI的首届开发者大会上看到萨姆.奥特曼演示openai_tts文本转语音功能,今天我就在github上看见有一个大神做出了一个在线版本的openai_tts文本转语音的应用,并且加入了AI变声的功能。为了分享这个发现,我特地撰写了这篇文章。这个应用结合了OpenAI TTS技术和AI语音克隆功能,可以模拟出用户自己的声音。听起来非常令人兴奋对吧?让我们一起来体验一下它的魅力吧。在此之前,大家请先观阅下面的视频,以此初步了解项目Bark-Voice-Cloning的使用效果!
请大家观阅以下视频
刚刚观看了视频,大家有什么感受呢?就我个人而言,我认为这个项目的朗读效果已经相当出色。它不仅融入了一些情感元素,而且听起来非常自然,特别是在英文朗读方面,其效果似乎比中文更为出色。英文人声几乎听不出是由AI合成的。视频中还展示了对乔布斯语音的模拟,效果令人印象深刻。但是,当应用处理中文时,就显得稍微不那么流畅,仍有待改进。我个人认为效果已经不错,但仍有提升的空间。
那么这个应用怎么安装呢?
首先,在你的浏览器中打开这个链接"https://github.com/KevinWang676/Bark-Voice-Cloning",
找到Notebook目录。在Notebook目录中,您将找到一个指向Colab文件的链接。
点击该链接,您将被引导至Google Colab页面。
在Google Colab中,
按照上图步骤操作:5.连接→6.更改运行类型→选择下图所示的T4GPU,
设定好后了,保存即可,
接下来,请参考图6,即:7.连接→8.代码执行程序→9.全部运行
在程序运行一段时间后,你将得到如下所示的网页:
将图中红圈内的链接复制出来,然后在浏览器中打开,
请注意,您需要在红圈标记的位置填写您的OpenAI密钥。如果您尚未拥有一个密钥,可以参考这篇文章(https://www.doudianpu.com/openai/obtain-openai-api-key/) 获取OpenAI API密钥的教程,其中提供了详细的获取方法。另外,您也可以选择使用Edge TTS来进行语音合成。接下来的步骤已经在上述视频中展示,因此这里不再赘述。如果您按照视频教程操作后仍然无法启动该项目,可以尝试使用在线版本的Bark-Voice-Cloning。这个在线项目链接地址为:https://huggingface.co/spaces/kevinwang676/Bark-with-Voice-Cloning,大家不妨尝试一下!