主页 > 网站日报 >机器人:什幺?大声点我听不见! >

机器人:什幺?大声点我听不见!

发布时间:2020-07-17   浏览量:145   

 

機器人:什麼?大聲點我聽不見! 人类有个与生俱来的能力:能在吵杂的环境中,分辨出哪句话是哪个人说的,并将不想关注的部份自动「消音」,降低讯息接收的错误率。现在,电脑也将具备这样的能力。Google 新发表的音讯分离技术,藉由分析说话者口部动作影像与声音特徵,辨别声音是从谁的口中发出,进而将画面中每个人物所说的话分离为独立音轨。如此一来,智能助理也能在吵杂环境中,分辨出自己的使用者所下的指令。

鸡尾酒会效应

音讯分离(Speech Separation)一直是语音辨识技术亟待克服的一大问题。在过去,研究人员利用监督式机器学习,增加AI对环境噪音的鉴别度,并提升目标语音的音讯品质,进而达到降低背景杂音、分离不同讲者语音的目的[2];或者,利用深度学习,训练AI藉由语音特徵(频谱上不同时频区块间的对比),将音讯分群(clustering)。当看到过去训练集中不曾出现的音讯时,藉K-means分群法将其中的组成归类。这样的方法在仅有二至三人同时说话的情境下,已取得不错的音讯分离效果[3]。然而这些研究多着重在如何将目标语音抽离出来并优化,至于如何将不同来源的语音对应到说话者身上,仍有改善空间。

另一方面,人脑与生俱来这样的听觉选择能力:在吵杂环境(例如:鸡尾酒会)中,若我们将注意力集中在特定声音来源,例如注视说话者的脸部,便能自动忽略其他不相干的声音,听见对方的说话内容,称作「鸡尾酒会效应」(The Cocktail Party Effect)。其中的一大关键,在于影像与语音的结合。

音讯结合影像

以此为出发点,Google开发出新的音讯分离技术便是由影片着手,首先在一帧帧影格中进行人脸与口部动作辨识,多了视觉资讯后,再将分离的语音与人物影像作连结。一个需要克服的困难,也是近年来许多视音讯(Audio-visual, AV)分离技术共有的缺陷─他们是「speaker-dependent」,意即:辨识对象必须曾经出现在训练资料中,系统方可识别。而这往往取决于训练资料集的规模与内容多样性。

研究人员于是蒐集了近三十万部短讲影片(例如:TED Talks),包含不同语言、不同年龄层的讲者,并撷取其中音讯单纯、人像清晰的片段,汇整为「AVSpeech」资料集,用以训练AI针对不同说话者分离出独立音轨。在「很多人同时讲话」与「环境吵杂」等情况下,视需要强化特定音轨,以达到消除杂音(包含他人对话与背景噪音)的目的。

机器人:什幺?大声点我听不见!

将影片中的影像与音讯分离后再配对(来源:A. Ephrat et al, 2018.)

模型架构

机器人:什幺?大声点我听不见!

Google新语音辨识AI背后的神经网路架构(来源:I. Mosseri et al, 2018. )

输入:影像+音讯

输入的资讯包含影片的影格与对应的音轨,影片中可能有超过一个人同时说话,或有其他噪音形成干扰。首先藉由预先训练好的脸部辨识模型,为每帧影格中的人脸,依据特徵赋予一向量表示。音轨则是进行短时距傅立叶转换(Short-time Fourier Transform,STFT),以複数形式表示。

模型:神经网路架构

将不同人物脸部辨识的结果输入多层卷积神经网路(Convolutional Neural Networks, CNN),得到视讯特徵。接着融合视讯与音讯特徵,通过双向长短期记忆(Bidirectional LSTM)类神经网路与全连接层(Fully connected layers),产生可用于音讯分离的输出。

输出:频谱遮罩

模型针对影片中的每个人物以及背景杂音,输出对应的频谱遮罩。将遮罩与输入端充满噪音的频谱相乘,再进行逆傅立叶转换后,便可得到该人物乾净的音讯。从每个人独立的音轨,我们可以重组一段影片,加强特定角色的话语,并降低其他干扰,使得重要对话更加清晰。

应用

观看YouTube影片时,画面下方往往有系统自动生成的字幕可搭配使用,然而在互动较热烈的节目中,系统容易将不同说话者的话语混杂在一起,产生难以理解,甚至错误百出的字幕。而良好的音讯分离,可望帮助系统在多人对话的情境下,清楚分辨每位对话者的语音,提升字幕正确率。除此之外,也可应用于视讯会议,让与会者能更清晰地听见发言者的声音。当然,也是最重要的目的,智能助理得以在吵杂环境中,更轻易地接收使用者所下的指令。

参考资料

上一篇: 下一篇: