您当前的位置: 首页 >> 热点 > >> 正文

看点:奇富科技机器人团队语音论文入选INTERSPEECH 2023

来源:手机网易网 2023-06-01 17:50:39发布


(资料图片仅供参考)

6月1日消息,近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球语音与声学顶级会议INTERSPEECH 2023接收。

据悉,INTERSPEECH是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。

奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。

对业务提效而言,这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。

根据进行的多人MOS评测,该方法的MOS分值达到了4.32分(满分为5分),合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。

此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。

奇富科技在对话机器人领域一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。

“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。(一橙)

上一篇 下一篇
x
推荐阅读 更多

看点:奇富科技机器人团队语音论文入选INTERSPEECH 2023

2023-06-01

焦点信息:港股异动 | 澳能建设(01183)盘中涨超7% 与GSS Energy成立合资 拓展东南亚电动车业务

2023-06-01

环球速递!林小宅淘宝店为什么停店_林小宅的淘宝店

2023-06-01

全球动态:迅游科技6月1日盘中涨幅达5%

2023-06-01

天天视点!调整城乡低保标准及特困人员基本生活供养标准

2023-06-01

征信花了可以下款的平台,精选了10个易通过、好下款的借款平台-全球快看

2023-06-01

【全球报资讯】泉州泉港:关注海漂垃圾治理 守护生态环境

2023-06-01

刘震云:思考成熟后,会写不“躺平”的都市年轻人-热讯

2023-06-01

毅昌科技定增募不超8.57亿获深交所通过 兴业证券建功-今日关注

2023-06-01

2023年全民禁毒宣传月活动启动 传播禁毒正能量 世界观热点

2023-06-01