您的位置:永利手机网站 > 科技中心 > 拥有高质量的人机交互体验,离不开『定制化』

拥有高质量的人机交互体验,离不开『定制化』

2019-04-27 15:48

图片 1

在语音识别方面最后值得一提的是,腾讯 AI Lab 还在《Frontiers of Information Technology & Electronic Engineering》(FITEE)上发表了一篇关于「鸡尾酒会问题」的综述论文《鸡尾酒会问题的过去回顾、当前进展和未来难题(Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem)》,对针对这一问题的技术思路和方法做了全面的总结。

极限元的语音合成技术采用国际先进的数据驱动技术,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力,媲美真人发声。

首先,我们先了解一下音箱语音交互技术链条。

在人机交互中,语音交互已经成为必不可少的交互形式。自然、清晰、流畅的语音是交互体验中重要的一个环节,这就离不开语音合成技术。

同样入选 Interspeech 2018 的论文《从单通道混合语音中还原目标说话人的深度提取网络(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一种深度提取网络(如下图所示),可在规范的高维嵌入空间中通过嵌入式特征计算为目标说话人创建一个锚点,并将对应于目标说话人的时间频率点提取出来。

责任编辑:

雷锋网AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。

让声音富有情感和表现力,一直是语音合成技术的一大难点。而极限元在情感语音合成领域,与国际接轨,其创始团队源自中科院自动化研究所并成立“智能交互联合实验室”,号称语音合成界的“黄埔军校”;在人工智能领域有近20年技术积累,在国际会议和期刊上发表论文400余篇,申请语音及音频领域专利100余项;作为负责人、科研骨干参与多项国家自然基金项目、国家863项目和国家重点研发计划等项目,获得音视频情感竞赛第二名、北京市科学进步二等奖、中国专利奖优秀奖、Eurospeech大会奖等多种奖项。

2)声纹识别

原标题:拥有高质量的人机交互体验,离不开『定制化』语音合成

支持隐式注册的声纹模型的性能随用户使用时长增长而提升

图片 2

智能语音被广泛认为是「下一代人机交互入口」,同时也能和腾讯公司广泛的应用生态相结合,为用户提供更加方便快捷的服务。腾讯 AI Lab 的技术已能为更多产品提供更高效更智能的解决方案。

极限元的定制化语音合成服务能够满足丰富的个性化声音设定,如林志玲的嗲气十足,郭德纲幽默逗趣,稚气呆萌的童声、游戏动漫角色声、各类方言等。极限元的定制化语音合成服务支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用于多种平台,可应用于多个领域。全方位地为有需要的企业和用户提供专属声音,满足用户在不同应用场景下的个性化音色需求。只需要提供少量发音人样本,通过快速自适应训练,即可合成出高自然度的个性化语音,极大的增强了用户的体验感。

另外,在今年 4 月举办的 IEEE ICASSP 2018 上,腾讯 AI Lab 有 3 篇自动语音识别方面的论文和 1 篇语音合成方面的论文(随后将介绍)入选。

极限元致力于为呼叫中心、智能机器人、智能家居、车载导航、有声读物等相关应用场景提供更加优质的语音合成服务,为用户提供高质量的智能交互体验。返回搜狐,查看更多

语音识别技术已经经历过长足的发展,现在已大体能应对人们的日常使用场景了,但在噪声环境、多说话人场景、「鸡尾酒会问题」、多语言混杂等方面仍还存在一些有待解决的难题。

而随着人机交互市场需求的不断变化,定制化语音合成成为发展趋势。以人机交互中家庭生活场景为例,智能音箱算是一个典型应用,市场上的智能音箱同质化严重,销售情况并不乐观,抓住用户痛点,调动用户使用频次,或许也是提高销售的一种有效手段。试想,拥有同样功能的智能音箱,如果声音是嗲气的小姐姐,或者是呆萌可爱的童声,又或者是喜欢的偶像声音,无论是哪一种,这样真实丰满的人设声音,是不是更容易打动用户,从而调动用户的使用频次。

图片 3

极限元语音合成技术专业MOS分可达4.0,拥有标配版女声和男声,女声包括标准型甜美型、萝莉型;男声包括标准型、浑厚型、清爽型。极限元已与百度、腾讯、搜狗、奇虎360、语文出版社等众多客户建立了长期稳定的合作关系。

在语音唤醒方面,腾讯 AI Lab 的 Interspeech 2018 研究《基于文本相关语音增强的小型高鲁棒性的关键词检测(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》针对语音唤醒的误唤醒、噪声环境中唤醒、快语速唤醒和儿童唤醒等问题提出了一种新的语音唤醒模型——使用 LSTM RNN 的文本相关语音增强(TDSE)技术,能显著提升关键词检测的质量,并且在有噪声环境下也表现突出,同时还能显著降低前端和关键词检测模块的功耗需求。

腾讯 AI Lab 的研究范围涵盖了上图中总结的音箱语音交互技术链条的所有 5 个步骤,接下来将依此链条介绍腾讯 AI Lab 近期的语音研究进展。

9 月 2 到 6 日,Interspeech 会议在印度海得拉巴举办,腾讯 AI Lab 首次参加,有 8 篇论文入选,位居国内企业前列。该年度会议由国际语音通信协会 ISCA(International Speech Communication Association)组织,是全球最大的综合性语音信号处理领域的科技盛会。

对智能音箱而言,语音答复是用户对音箱能力的最直观感知。最好的合成语音必定要清晰、流畅、准确、自然,个性化的音色还能提供进一步的加成。

在研究方面,腾讯 AI Lab 提出了一些新的方法和改进,在语音增强、语音分离、语音识别、语音合成等技术方向都取得了一些不错的进展。在落地应用上,语音识别中心为多个腾讯产品提供技术支持,比如「腾讯听听音箱」、「腾讯极光电视盒子」,并融合内外部合作伙伴的先进技术,在语音控制、语义解析、语音合成(TTS)等方面都达到了业内领先水平。

图片 4

腾讯 AI Lab 在 ICASSP 2018 上也有一篇关于风格适应的论文《基于特征的说话风格合成适应(Feature Based Adaptation For Speaking Style Synthesis)》。这项研究对传统的基于模型的风格适应(如下左图)进行了改进,提出了基于特征的说话风格适应(如下右图)。实验结果证明了这种方法的有效性,并且表明这种方法能在保证合成语音质量的同时提升其疑问语气风格的表现力。

另外,腾讯 AI Lab 还创新地提出了多类单元集合融合建模方案,这是一种实现了不同程度单元共享、参数共享、多任务的中英混合建模方案。这种方案能在基本不影响汉语识别准确度的情况下提升英语的识别水平。

腾讯 AI Lab 也在业界分享语音方面的研究成果,今年已在多个国际顶级会议和期刊上发表了系列研究成果,涵盖从语音前端处理到后端识别及合成等整个技术流程。比如今年 4 月举办的 IEEE 声学、语音与信号处理国际会议(ICASSP 2018),是由 IEEE 主办、全球最大、最全面的信号处理及其应用方面的顶级学术会议,腾讯 AI Lab 也入选论文 4 篇,介绍了其在多说话人语音识别、神经网络语言模型建模和说话风格合成自适应方面的研究进展。

采集到声音之后,首先需要做的是消除噪声和分离人声,并对唤醒词做出快速响应。

智能音箱的最典型应用场景是家庭,在这种场景中用户与音箱设备的距离通常比用户在智能手机上使用语音应用的距离远很多,因此会引入较明显的室内混响、回声,音乐、电视等环境噪声,也会出现多说话人同时说话,有较强背景人声的问题。要在这样的场景中获取、增强、分离得到质量较好的语音信号并准确识别是智能音箱达到好的用户体验所要攻克的第一道难关。

之后,基于对说话内容的理解执行任务操作,并通过语音合成系统合成相应语音来进行回答响应。如何合成高质量、更自然、更有特色的语音也一直是语音领域的一大重点研究方向。

深度提取网络示意图

图片 5

原标题:腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018

在论文《提升基于注意机制的端到端英语会话语音识别(Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition)》中,研究者提出了两项用于端到端语音识别系统的基于注意的序列到序列模型改进方法。第一项改进是使用一种输入馈送架构——其不仅会馈送语境向量,而且还会馈送之前解码器的隐藏状态信息,并将它们作为解码器的输入。第二项改进基于一种用于序列到序列模型的序列最小贝叶斯风险(MBR)训练的更好的假设集合生成方法,其中在 MBR 训练阶段为 N-best 生成引入了 softmax 平滑。实验表明这两项改进能为模型带来显著的增益。下表展示了实验结果,可以看到在不使用外部语言模型的条件下,新提出的系统达到了比其它使用外部模型的最新端到端系统显著低的字错误率。

1)前端

腾讯 AI Lab 有多篇 Interspeech 2018 论文都针对的是这个阶段的问题。

腾讯 AI Lab 未来还将继续探索语音方面的前沿技术,创造能与人类更自然交流的语音应用。也许未来的「腾讯听听音箱」也能以轻松的语调回答这个问题:

图片 6

其中论文《用于单声道多说话人语音识别的使用辅助信息的自适应置换不变训练(Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition)》基于腾讯 AI Lab 之前在置换不变训练(PIT)方面的研究提出使用音高(pitch)和 i-vector 等辅助特征来适应 PIT 模型,以及使用联合优化语音识别和说话人对预测的多任务学习来利用性别信息。研究结果表明 PIT 技术能与其它先进技术结合起来提升多说话人语音识别的性能。

「9420,生命、宇宙以及一切的答案是什么?」

雷锋网AI科技评论返回搜狐,查看更多

麦克风采集到声音之后,就需要对这些声音进行处理,对多麦克风采集到的声音信号进行处理,得到清晰的人声以便进一步识别。这里涉及的技术包括语音端点检测、回声消除、声源定位和去混响、语音增强等。另外,对于通常处于待机状态的智能音箱,通常都会配备语音唤醒功能。为了保证用户体验,语音唤醒必须要足够灵敏和快速地做出响应,同时尽量减少非唤醒语音误触发引起的误唤醒。

麦克风阵列是这一步最常用的解决方案之一,比如腾讯听听就采用了由 6 个麦克风组成的环形阵列,能够很好地捕捉来自各个方位的声音。

图片 7

图片 8

本文由永利手机网站发布于科技中心,转载请注明出处:拥有高质量的人机交互体验,离不开『定制化』

关键词: