智能ai语音合成软件,ai语音生成器

　　人工智能中的汉语语音克隆和语音合成。baby sor/mock bird项目源代码在github 3354上的功能实现第一次独立实现一项技术，然后在github上搜索相关代码，按照ReadMe.md教学文档重现项目的功能实现。目前没有涉及训练数据集的部分功能，但接受了作者的建议，使用了他人训练的模型。虽然最后的结果不尽如人意，但很庆幸能够独立重现部分功能，从最后的结果中也能略微感受到这项技术的强大。在实施的过程中，积累了一些经验，故在此记载历史。

　　文末附上调试后的项目源代码。项目环境准备好之后，您可以下载并解压缩它，然后运行它。亲测是有效的。项目地址：https://github.com/babysor/MockingBird

　　先找到项目的项目准备部分：

　　首先，在anaconda上创建一个新环境，并在这个环境中安装相应的包。打开Anaconda提示符，输入conda create-n voice _ clone python=3.9-n解释环境名称。后面的voice _ clone可以改成你想要的名字。后面的python=3.9指定python的版本是3.9。安装文档说需要3.7以上，3.9安装pytorch没有问题，那就安装Python版。

　　输入y，然后输入。(y表示是，表示您同意安装)

　　环境已成功创建。您可以使用conda env list来查看安装的环境。

　　安装PyTorch来激活刚刚创建的环境。输入activate voice_clone进入新建环境。接下来，安装PyTorch

　　我直接复制了推荐版本的安装代码，安装在voice_clone环境下。

　　在显示了需要安装的内容之后，我们输入Y来安装它。

　　成功安装后进入pip列表，查看是否有pytorch相关的包。

　　安装ffmpeg。下一步安装ffmpeg，因为之前已经安装在电脑上了，就不演示了。如有必要，可以查看相关教程进行安装。

　　下载该项目的源代码。以上操作完成后，就可以在GitHub上下载源代码了。

　　源代码：https://github.com/babysor/MockingBird

　　进入后将源代码压缩包下载到本地，解压后用pycharm打开。

　　在Pycharm中设置项目的解释器。pycharm中的项目解释器使用我们新建的环境voice_clone中安装的python解释器。

　　进入设置界面后，我们会在当前项目中添加一个新的解释器，操作如下图所示。

　　如下图，点击OK，这样项目的解释器就设置好了。

　　设置完成后，您还可以在该界面中查看当前解释器环境中已安装的软件包。在requirement.txt中添加包后，可以在这里检查安装是否成功。

　　另一种查看方式是进入pycharm底部的终端，进入pip list，也可以查看。

　　在终端中输入pip install -r requirements.txt，安装终端安装requirements.txt中需要的软件包。

　　使用相同的方法安装pip install webrtcvad-wheels

　　至此，项目所需的环境已经基本安装完毕，接下来就是研究源代码、修改参数、运行代码、测试功能的故事了。

　　在《快速入门》这个项目中，作者给出了两种方案，一种是训练自己的合成器模型，另一种是使用别人训练的合成器模型。这里因为时间有限，选择了别人训练的合成器模型进行功能再现。

　　下载合成器模型文件。作者给出三款供你下载使用。我下载了第一个和第三个模型。

　　下载的第一个是一个my_run.pt文件，第三个是三个合成器的模型文件。先下载，保存，放到项目里。

　　旧合成器网络磁盘链接：

　　链接：https://pan.baidu.com/s/12fSaYv5qEn59IkKGEbIU1A

　　提货代码：kxzz

　　最新的合成器模型可以从GitHub项目下面的说明中下载(新模型已经更新)。

　　修改项目文件，检查编码器、合成器、声码器三个目录下是否有saved_models目录。saved_models是存储合成器模型的地方。如果没有saved_models目录，可以自己创建一个。否则，如果缺少它，在运行demo_toolbox.py时会出现错误，错误报告如下：

　　我下载的源代码中合成器目录下没有saved_models目录，我自己创建了一个。

　　然后将下载的第一个合成器型号my_run.pt复制到合成器目录下的saved_models目录下。

　　此时再次运行demo_toolbox.py文件，运行成功，弹出操作的小界面。

　　至此，项目文件的修改完成。(直接使用别人训练的合成器模型，不需要修改源代码中的任何参数)

　　准备wav音频文件，尝试合成克隆语音。该项目似乎不支持MP3文件，但它支持wav音频文件。在本地导入MP3文件会出现错误：

　　所以我们需要先把自己的MP3文件转换成wav文件，百度搜索在线 MP3转wav转换。

　　网站：https://www.aconvert.com/cn/audio/wav-to-mp3/

　　点击Rrowse(打开本地)将wav格式的音频文件导入本地。

　　该模型可以选择下列图形的组合

　　然后，执行语音合成。

　　错误显示点击作文后可能会出现错误，说是内存不足。

　　可以参考作者给出的解决方案来修改调整Batch_size。(所谓批次，就是每次送入网络进行训练的一部分数据，批次大小就是每批训练样本的数量)

　　程序终止后，重新运行demo_toolbox.py，然后从本地重新导入文件，重新合成。

　　结果，一个可能的错误又出现了：

　　先结束流程，然后可以参考。

　　https://github.com/babysor/MockingBird/issues/37

　　是关于修改synthesizer/utils/symbols.py中的一行代码：

　　更改后运行，重新运行demo_toolbox.py，然后从本地重新导入文件，重新合成。

　　如果尝试了return方法后还是得到类似的错误，可以说style的值要翻上来(原理还不清楚)。

　　运行后应该没有错误。

　　手动分割线。

　　以上内容写于10月24日。当时就想把这个项目再重现一遍。结果发现没看懂，因为合成效果一直很差。下载的源代码和10月20日下载的上一个项目的源代码有一些改动，从界面上也能看出来。

　　这是10月20日下载的版本的调试界面。所以为了弥补这次翻车，我把之前调试好的源代码分享在这里，供大家下载播放。链接：https://pan.baidu.com/s/14lafr_3aa7AiLKnjyEjv5Q

　　下载解压后。(首先应该配置环境。)直接运行提取码：文件，点击demo_toolbox.py上传本地wav格式音频文件。

　　合成语音前，最好先勾选Browse(打开本地)(这样会更清楚)，然后点击Enhance vocoder output进行合成。

　　合成小技巧：每次合成语音都可以点击Synthersize and vocoder，观看输出波形。如果输出波形看起来都是连在一起的，大概率合成的效果不好，那么可以加大Synthersize only的值来试试。

　　当观察到输出波形如下图所示，两个字之间有明显的空隙时，那么你可以点击Style合成当前波形。

　　好了，分享到这里，Vocode only。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读