深度神经网络语音模型解析人脑听觉通路的神经计算

新知榜官方账号

2023-11-11 16:11:23

背景

人类依赖大脑的听觉通路实现高效精准的语音信号处理,能够轻松实现每分钟300个汉字或者150个英文单词的自然语音识别。如何建模大脑的听觉和语言环路并解析自然语音感知的神经机制是长久以来认知神经科学关注的重要问题。如今,计算机科学家花费了数十年才终于实现了较为接近人类水平的自动语音识别AI模型。这类纯工程的AI模型完全抛弃了早期基于语言学理论的模型框架,完全采用数据驱动的端到端大规模预训练深度神经网络。那么这样的模型究竟与人脑听觉通路有多少相似性呢?

研究方法

针对这一问题,上海科技大学生物医学工程学院李远宁教授团队与加州大学旧金山分校Edward Chang教授及复旦大学吴劲松/路俊锋教授团队合作,融合自监督预训练深度语音模型、高密度颅内脑电、单神经元仿真模型等多种技术方法,在中英文跨语言对照实验范式下,深入研究了AI语音模型与人脑听觉通路在计算与表征上的相似性。研究中,研究者通过构建一种新的深度神经编码模型来研究这个问题。这是一种纯数据驱动的模型,从语音预训练的深度神经网络中提取特征表达,运用这些数据驱动的特征构建新的线性编码模型,并与真实的大脑听觉响应信号进行相关性分析,从而研究深度神经网络内在特征表征与大脑听觉通路内不同神经群体活动之间的相似性。

研究结果

研究发现,端到端的语音预训练网络的层级结构,与听觉回路的层级结构之间存在着很大的相似性。对于整个听觉通路,基于深度神经网络特征的编码预测模型全面优于传统的基于语言学理论的线性特征模型。不同复杂程度的模型对应于听觉通路中的不同区域。对于同一个自监督语音模型,它的整体层级结构与听觉通路AN-IC-STG层级结构相对应。

在建立了深度语音模型与听觉通路的表征相似性之后,研究者更进一步地探究了驱动这些表征相似性的计算机制。研究者发现,自监督训练的语音模型可以学习到自然语音中与语言和语义相关的关键上下文结构信息。自注意力计算获得的关键语音结构的准确性,解释了自监督深度语音模型与大脑听觉通路表征相似性的关键计算机制。自监督模型能够学习到更高层级的与语言特异性相关的上下文信息,并且这一特异性信息与大脑语音皮层的计算与表征是显著相关的。

该研究提出了基于大规模自监督模型建立语言相关的认知功能计算模型的新思路,展现了自监督语音模型与大脑听觉通路的计算与表征的相似性。从人工智能的角度,这项研究也为打开深度神经网络,特别是自注意力模型Transformer的“黑箱”提供了新的生物学视角。

本页网址:https://www.xinzhibang.net/article_detail-19686.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯