1. 首页 >人工智能 > 正文

脑记录产生的合成语音

导读 加州大学旧金山分校的神经科学家创建的最先进的脑机界面可以通过使用大脑活动来控制虚拟声道来生成听起来自然的合成语音-解剖学上详细的计

加州大学旧金山分校的神经科学家创建的最先进的脑机界面可以通过使用大脑活动来控制虚拟声道来生成听起来自然的合成语音-解剖学上详细的计算机模拟,包括嘴唇,下巴,舌头和喉头。这项研究是在研究参与者的完整讲话中进行的,但是这项技术有一天可以恢复由于瘫痪和其他形式的神经损伤而丧失发言能力的人们的声音。

中风,外伤性脑损伤和神经退行性疾病(例如帕金森氏病,多发性硬化症和肌萎缩性侧索硬化症(ALS或Lou Gehrig病))通常会导致语言能力不可逆转地丧失。一些患有严重语言障碍的人会学会使用跟踪很小的眼睛或面部肌肉运动的辅助设备逐字逐句地阐明自己的想法。但是,用这种设备产生文本或合成语音很费力,容易出错且痛苦地缓慢,与自然语音每分钟100到150个单词相比,通常每分钟最多10个单词。

在马里兰州爱德华·张(Edward Chang)实验室正在开发的新系统 (在《自然》中有描述) 证明,可以创建一个人的声音的合成版本,该声音可以通过其大脑的语音中心的活动来控制。作者说,在将来,这种方法不仅可以恢复与严重言语障碍者的流畅交流,而且还可以再现人的声音的音乐性,传达出说话者的情感和个性。

UCSF威尔神经科学研究所成员,神经外科教授Chang表示:“这项研究首次证明我们可以根据个人的大脑活动生成完整的口头表达 。” “这是令人振奋的原则证明,借助已经可以实现的技术,我们应该能够制造出一种在语言障碍患者中具有临床可行性的设备。”

该研究由语音科学家Gopala Anumanchipalli博士和Chang实验室的生物工程研究生Josh Chartier 领导 。它建立在最近的一项研究的基础上 ,该对研究首次描述了人脑的言语中心如何编排嘴唇,下巴,舌头和其他声道成分的运动以产生流畅的言语。

从这项工作中,Anumanchipalli和Chartier意识到,以前直接从大脑活动中解码语音的尝试可能取得了有限的成功,因为这些大脑区域并不直接代表语音的声学特性,而是协调声音运动的指令。讲话时的嘴巴和喉咙。

“声道的运动与所产生的语音之间的关系是一个复杂的关系,” Anumanchipalli说。“我们认为,如果大脑中的这些语音中心是在编码运动而不是声音,那么我们应该在解码这些信号时尝试这样做。”

在他们的新研究中,Anumancipali和Chartier要求五名在UCSF癫痫中心接受治疗的志愿者 -说话完好无缺的患者,他们的脑中临时植入了电极,以绘制癫痫发作的来源,为神经外科手术做准备-朗读数百句话。研究人员记录了已知参与语言产生的大脑区域的活动。

根据参与者声音的音频记录,研究人员使用语言学原理对产生这些声音所需的声道运动进行逆向工程:在此处将嘴唇压在一起,在此处收紧声带,将舌尖移到顶部嘴,然后放松一下,依此类推。

声音到解剖结构的详细映射使科学家能够为每个参与者创建一个可以由其大脑活动控制的逼真的虚拟声道。这包括两种“神经网络”机器学习算法:将语音过程中产生的大脑活动模式转换为虚拟声道运动的解码器,以及将这些声道运动转换为参与者语音的合成近似值的合成器。

研究人员发现,通过这些算法产生的合成语音明显优于直接从参与者的大脑活动中解码的合成语音,而没有包括说话人的声道模拟。该算法产生的句子在Amazon Mechanical Turk平台上进行的众包转录测试中为数百名听众所理解。

就像自然语言一样,当向转录者提供较短的单词列表供他们选择时,转录者会更成功,对于照料者来说,这些词素或词组要求患者可能会说出话来。记录员从25个替代词的列表中准确地识别出69%的合成词,并以完美的准确性转录了43%的句子。尽管可以选择更具挑战性的50个单词,但尽管他们仍然能够完美地理解21%的合成句子,但他们的整体准确性下降到47%。

查蒂尔承认:“我们仍然有一种方法可以完美地模仿口头语言。” “我们非常擅长合成“ sh”和“ z”等较慢的语音,并保持语音的节奏和语调以及说话者的性别和身份,但有些更突然的声音如“ b”和“ p”有点模糊。不过,与目前可用的水平相比,我们在此处产生的准确性水平将是实时通信方面的惊人改进。”

人工智能,语言学和神经科学推动了进步

研究人员目前正在尝试使用更高密度的电极阵列和更高级的机器学习算法,他们希望这些算法可以进一步改善合成语音。该技术的下一个主要测试是确定不会说话的人是否可以在不使用自己的语音训练的情况下学会使用该系统,并将其推广到他们想说的任何事情。

研究人员还发现,参与者的声带运动神经代码部分重叠,并且一个研究对象的声道模拟可以适应其他参与者大脑记录的神经指令。总之,这些发现表明,由于神经功能缺损而导致言语丧失的人可能能够学习控制以完整言语者的声音为模型的言语假体。

查蒂尔说:“无法动动手臂和腿的人们已经学会了用大脑来控制机器人肢体。” “我们希望有一天语言障碍者能够使用这种大脑控制的人工声道再次学习说话。”

Anumanchipalli补充说:“我很荣幸我们能够汇集神经科学,语言学和机器学习方面的专业知识,这是帮助神经失能患者这一重要里程碑的一部分。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!