近日,天津大学神经工程团队发表基于非侵入式脑电技术的中文普通话语音感知的最新研究成果。该工作设计了全新的实验范式,针对普通话语音感知中脑电(EEG)响应的时域-频域-空域特征进行了研究,发现普通话的音节感知主要依赖于语音时域包络,而语音时域精细结构在普通话的声调感知之中扮演重要角色。该工作为开发适用于普通话人群的助听设备(尤其是声调感知)语音编解码新策略提供了理论依据。

图1:文章在线发表于Cerebral Cortex
正常人可以从复杂的声学场景中清晰辨识出普通话的音节和声调,而听力障碍患者很难或无法做到这点。目前助听设备最新的语音编码策略主要基于语音时域包络和低频段的时域精细结构,其目的是提高患者的音乐感知能力。该编码策略是针对于非声调语言(例如英语)人群所开发的,当应用于普通话的听障人群时,其语音感知效果不佳,尤其是在噪声环境下效果更差。因此,亟需研究普通话人群在语音感知中时域包络和时域精细结构的贡献程度。
本研究在团队以往利用脑电技术实现普通话人群听觉注意解码模型的基础上,基于两个声音互换成分的“声嵌合”技术,设计了十二个普通话语音素材在三种声学条件(原始语音、语音时域包络、语音时域精细结构)下的感知实验范式,通过EEG信息的时域特征、功率谱密度和微状态,探究普通话感知的脑响应在时间域、频率域、大脑皮层空间域的分布特征。

图2:音节、声调感知实验范式

图3:行为学结果。Ori:原始语音,
Env:语音时域包络,Tfs:语音时域精细结构
研究结果如下:(1)实验范式的行为学结果证明通过“声嵌合”技术获取的三种声学条件语音素材是有效的;(2)EEG的时域特征表明不同普通话语音素材引起的脑电信号N1-P2潜伏期具有统计学差异;(3)不同声学条件下语音素材引起的脑电节律具有统计学差异;(4)普通话语音感知的微状态具有特异性,即不同的语音素材可能产生特定的EEG时空变化特征。

图4:音节、声调时域结果。普通话音节、声调结果表明不同刺激所引起的脑电信号潜伏期具有统计学差异

图5:音节感知的微状态结果。音节“yao”在原始语音、语音时域包络和语音时域精细结构声学条件下的脑电信号分析结果

图6 声调感知微状态结果。三声调在原始语音、语音时域包络和语音时域精细结构声学条件下的脑电信号分析结果
研究成果以《EEG-based assessment of temporal fine structure and envelope effect in Mandarin syllable and tone perception》为题发表于《Cerebral Cortex》,该刊物是国际脑机接口领域权威期刊之一,中科院SCI期刊神经科学领域top期刊。研究团队将在现有成果基础上进一步开展短语、句子和音乐在三种声学条件下的脑响应特征,探索适用于声调语言人群的最佳助听设备编解码策略开发研究。
原文链接:
https://doi.org/10.1093/cercor/bhad366