pytorch 语音识别模型,python语音对话机器人
1任务介绍
语音识别是真正人工智能不可或缺的技术。真正能听懂人话的智能机器摩托车虽然雾里看花,但首先要解决的是如何识别人声中包含的自然语言信息。数字信号处理技术将有助于完成这项任务。本课程项目的任务是面对一个简化的语音识别场景——孤立词识别。
对于20个关键词,我们收集了所有参加课程的学生的发音,每个句子读20遍。基于该数据集,构建了一个能够正确识别这20个关键词的孤立词识别系统。
基于一个学期跟老师学的关于信号处理和语音识别技术的知识,查补充资料,最后给出我的语音识别系统和报告。
我的语音识别系统的亮点如下。
非特定人孤立词识别是语音识别技术发展的一个里程碑。从现代的观点来看,如果把语言信号看成时间序列,孤立词识别就是模式识别中的一个分类问题。模式识别的解决方案一般分为两部分:特征提取和模型构建。这两个部分被分开处理,这使得代码的实现结构化和层次化。报告还分别阐述了对这两个部分的处理。
我是整个系统的实现者。除了数值处理功能包numpy和自动导出工具包pytorch,所有的核心代码都简单的用python实现。也就是说真正锻炼了代码实现的能力,加深了对语音识别技术的理解。报告还强调了每个方法和流程的代码实现,以便重要的代码可以添加到附录中进行确认。
特别是基于我在课堂上学到的蝶形变换方法,实现了双重快速傅立叶变换,并将其应用于频域特征分析。这让我更加感受到了这个算法的美好。
基于自己的快速傅立叶变换,实现了xfdtd频域倒谱系数的计算,并根据xfdtd滤波器得到的xfdtd的频谱特征,设计了基于卷积神经网络的识别算法。
我把计算出来的光谱特征当成图像,可以利用近年来在大规模图像分类任务中大放异彩的卷积神经网络进行分类识别。我采用了2014年ImageNet大赛获奖的VGG网作为我们的识别模型,采用了批量归一化和剔除的方法避免过拟合,提高了模型的泛化能力。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。