语音信号处理简答题,信号与系统知识点梳理
另一方面,VUI(Voice User Interface)指的是人与人之间或者人与设备之间通过自然语音进行信息传递的过程。
1.语音交互的优势(1)输入法效率高)与键盘输入相比,语音输入速度是传统输入法的3倍以上(有权威统计分析数据)。语音检索效率高;跨空间,又称远程语音交互,可以组合至少一米的命令。比如面对智能机顶盒,“周星驰的电影,http://www。Sina.com/http://www.Sina.com/http://www.Sina.com
)2)手和眼睛分开,更安全。)不能和车载系统的语音请求和语音导航场景一样。)正常用手开车,用手求音乐。比如在医疗场景中,医生可以一边操作一边用口语记录病例数据。
)3)对于无法使用低门槛)文字沟通的qcdys(老人/孩子/盲人/国家)来说,语音沟通非常方便。
)4)言语可以传达更多的信息,如声纹、年龄、性别、情感等。(这些信息都可以通过一定的算法提取出来)。
2.语音交互的缺点(1)信息接收效率低。从输出的效果和观点来看,输出是线性的。比如说,说话人讲完你才能理解意思,或者大部分发音,但是用词不一样,用词能猜出上下文。比如在某些信息的传递中,人们喜欢读单词,提取关键词,而不是逐字逐句地读。微信推出的语音转文字功能正是考虑到了这一痛点。至于长音,如果转换成文字,几秒钟就能知道点什么,但我觉得听声音需要一两分钟。
2)复杂的声音环境)环境中有不想要的声音,但也有你想听到的声音。
3)心理负担)用户的心理负担(此时文字输入相对占优势),比如搜索一些敏感信息。
3.人机语音交互历史(1)2011年,iPhone4s和Siri问世。
)近几年智能音箱市场的崛起(哭白云、小爱、天猫精灵)。
2)智能AI机器人。
4.人机语音交互过程
求解过程:
1)用户)唤醒指令(语音)智能硬件设备)语音)ASR)自动语音识别系统)文本)NLP)自然语言理解系统)分析用户意图,调用相应的接口代码使其具有相应的功能——回复和反馈文本——文本——TTS(文本阅读系统——语音——语音)
2)完整的交互过程包括文语转换和语音转文本,核心是文本分析(NLP),而前端语音信号处理是重要基础,因此需要提取纯净、高质量的前端语音数据。
5.语音交互应用场景下图为相关统计。包括积极因素和消极因素,按三个阶段(0/1/2)划分。
数据分析结果显示,家庭场景下语音交互需求和用户意愿较高,其次是车载,最后是移动场景(耳机)。
二。复杂声学环境1。因素1)定向干扰(人声干扰
2)环境噪声(散射噪声,可能出现在各个方向)。
3)远程讲座产生的混响
4)声学回声(评分)。
人和机器都无法理解。
2.针对前端语音信号处理的缺点,如噪声、干扰、回声、混响等。信号处理、机器学习等手段,提高目标语音的信噪比或主观听觉感知,增强语音交互后续环节的鲁棒性。
1)人能听清楚)信噪比更高,主观听觉感受和理解更好,处理延迟更低。
2)让机器听得清楚(ASR):提高声学模型的适应性,提高语音识别的性能。
p
3.前端语音信号处理1。场景示例1:音频和视频通话/会议
在远端的人所说的话(由设备本身产生的回声)被他们自己的麦克风拾取。所以有一个回声消除模块用于一般的音视频通话系统,如智能音箱、智能会议系统、会议音箱等。否则远端的人又会听到自己的声音。
举例:苹果手机多了几个麦克风?4或更多
目的:保证通话质量并主动降低噪音(与at
2.场景细分根据不同的干扰因素采用不同的信号处理算法。
1)声学回声消除模块(AEC)。
该模块一般位于人机交互系统的最前端,与唤醒系统密切相关。
2)去混响模块(去混响)
解决了远距离说话造成的混响效果。
3)盲源分离模块
对于单/多通道的盲分离,干扰因素一般为方向性干扰,即人声干扰。主要是把干扰人声的信号分离出来,提取出目标人声信号(比如A在给说话人下达指令的同时,哔哩哔哩在旁边说了些无关紧要的话)。
4)波束形成模块
需要多个通道,多个麦克风,也就是一般用麦克风阵列来实现。
5)噪声抑制模块(NS)
尽可能消除周围环境的背景噪音。
6)振幅控制模块的AGC
包括从小到大的上拉和从大到小的压缩。场景通常是远距离、远场的语音交互,所以当语音到达拾音模块时,能量已经丢失,所以大部分情况下需要进行幅度拉伸放大,然后发送给ASR系统进行识别。
2.1回声消除消除了设备本身产生的干扰。因为回声指的是设备本身。
2.2混响
2.3语音分离(盲分离)
2.4波束形成用于多声道语音增强、信号分离、混响去除和声源定位。主要是:多渠道语音增强和声源定位。
2.5噪声抑制消除或抑制环境噪声,还有一点就是增强语音信号。
2.6振幅控制
4.前端信号处理技术路线在深度学习出现之前,语音信号处理采用的是传统的处理技术。
1.传统前端信号处理方案1.1基于“规则”(1)客观物理模型,即声音传播的物理规律。
(2)语音信号的特征:时域特征、频域特征、空域特征。
根据不同的干扰因素,采用不同的信号处理算法来解决。
1.2优化目标,抑制干扰信号,提取目标信号。
1.3优化准则最小均方误差准则,MSE(Meam平方误差)。
2.信号处理与深度学习的结合2.1处理的基础是“规则学习”1)客观物理模型
2)语音信号的特征:时域特征、频域特征、空域特征。
3)海量音频数据的先验信息
即保留了声音传播的物理规律和信号本身的特性,引入了先验数据的统计建模方法。
2.2优化准则也是MSE准则。
3.基于深度学习的前端联合优化方案。3.1处理基础是“端对端联合建模”。1)输入多声道麦克风信号并输出语音识别结果。
2)利用近场数据,通过仿真得到大量各种干扰的训练数据。
前端信号处理和后端ASR声学模型联合建模,使用一套深度学习模型完成语音增强和语音识别的任务。
3.2优化标准的识别精度。
动词(verb的缩写)参考书
不及物动词开源项目和学习代码(1)Athena-signal
链接:https://github.com/athena-team/athena-signal
(2)用于信号处理的Python
链接:https://github.com/unpingco/Python-for-Signal-Processing
055-79000对应源代码,包含信号处理12大类(采样定理,傅立叶变换,滤波等。)和15类随机过程(高斯马尔可夫、最大似然等。)
(3)Speex
链接:https://www.speex.org
(4)Google WebRTC
链接:https://webrtc.org
(5)voice box:MATLAB的语音处理工具箱
链接:http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。