让AI成为更懂你的知音——云从科技语音技术刷新多项权威纪录

2021-04-15
back

让AI听得出、听得清,听得懂,成为每个人的真正“知音”,是云从人机协同战略让机器从知音到知心迈出的重要一步。 

近日,云从科技语音技术取得多项重大突破,在语音识别、语义纠错、深度学习降噪等领域刷新多项国际、国内语音识别权威纪录,超越亚马逊、搜狗等企业创下的此前最好成绩,夯实业界领先的技术地位。 

此次云从创新提出的新模型,对应语音技术不同角度的突破,包含巨大的应用价值,推动技术朝更智能地“听”迈进了一大步: 

1

语义纠错技术

在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上,将字错率(Character Error Rate,CER)第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。

这意味着让AI“听得懂”:字错率降低代表使语音更准确地转换文字,纠正语义的错误。

语音识别技术

刷新Aishell纪录,将字错率降低到4.34%,较过去最好成绩降低了8%;云从团队提出的新模型,巧妙融合了语音识别和说话人识别,提高识别率的同时,极大提升了在不同说话人场景下的鲁棒性。

这意味着让AI“听得出”:将每个人同“指纹”一样独有的“声纹”识别出来,指标提升意味着更精准识别出说话者。 

2

3

深度学习降噪模型

在国际顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果。

这意味着让AI“听得清”:针对在嘈杂环境去除噪声,使语音更清晰。 

这是云从持续耕耘原创技术的成果,也是云从对人机协同战略付诸实践的有力行动:让AI能够更清晰理解人们的需求,听懂“声音”,更听懂“心声”,让AI真正成为人们的“知音”伙伴。 

在语音技术高度发展的基础上,每提升1个百分点的准确率,都如同征服一座高山。此次云从一举在三项语音技术上取得新突破、新模型,不仅展现出深厚的科研基础与强大创新能力,同时也彰显出云从技术实力的全面性与综合性。

近年来语音技术已经广泛应用于人们的生活,但大多是依托智能语音设备在室内安静环境下的单人交互,云从团队提出的多个创新模型,对于突破业界瓶颈,攻克嘈杂环境、多人对话等复杂应用难题,具有重大意义。 

在人工智能第二浪背景下,全链技术形成行业价值闭环、AI工程学的重要性日益突显。云从科技在视觉、语音等技术频频突破,再次夯实核心技术闭环实力,为行业打造更全面、更有价值的智能化方案,为每个人构筑更流程灵活的交互体验。 

01

创新研究模型 直击技术难点


此前云从的语音技术已取得刷新全球最大开源语音识别数据集Librispeech纪录、发表多篇顶会论文、发表多篇新型发明专利等成绩。

尽管近年来整个人工智能语音领域有了快速发展,但目前常见语音交互场景多是在安静环境下的单人交互,在日常应用仍有诸多问题亟待突破:

例如在多人场景的语音、噪声混合中,如何追踪并识别至少一个声音、正常在嘈杂环境下正常交流,也就是“鸡尾酒会问题”,仍是研究者们致力解决的难题。

针对这些技术难点,云从在语音识别、语义纠错、深度学习降噪等多个方向上,创新性提出新模型,并在多个数据集上刷新最优成绩。  

语义纠错:

针对常见的语法纠错、拼写纠错与语音识别系统转写的错误分布差异较大、传统模型不适合直接使用等问题,云从科技提出一种基于BART预训练模型的语义纠错技术方案,不仅可以对数据中常见的拼写错误进行纠正,还可以对一些常识错误、语法错误,甚至一些需要推理的错误进行纠正。

在云从科研团队一万小时语音数据的实验中,纠错模型可以将基于3gram WFST解码结果的错字率相对降低21.7%,取得与RNN重打分相近的效果。在RNN重打分的基础上使用纠错,可以进一步取得10.3%的CER相对降低。 

Table.3 CER of LM rescored output with SC model

Rescore

ASR output

+SC_BART

3gram

7.78

6.08

+ 4gram

7.43

5.86

+ RNN

5.66

4.92

部分纠错示例如下: 

ASR输出文本

纠正后结果

今早有一位非常特别的加币

今早有一位非常特别的嘉宾

这可能是因为汤米不正确的地方

这可能是因为汤米不正确的地方

这种办法往往使创立越多的银行留成比例相对越小亏损越多银行留成比例相对越大

这种办法往往使创利越多的银行留成比例相对越小亏损越多银行留成比例相对越大

语音识别:

云从科研团队结合声纹识别x-vector embedding以及自研multi-stream TDNNF结构的XmasNet,刷新Aishell的纪录,在测试集Aishell-test上CER指标提高到4.34%,相比于SOTA,提升了8%。这种方法结合了最新的说话人识别技术,进一步提高了语音识别在口音环境下的识别率。

值得一提的是,本次云从团队提出新模型结构,在训练数据固定(原始178小时音频)的情况下,仅通过优化模型结构,取得识别率的提升。

该结构巧妙融合了语音识别和说话人识别,提高识别率的同时,极大提升了在不同说话人场景下的鲁棒性。 

图:x-vector embedding

图:XmasNet网络结构

深度学习降噪: 

云从科研团队提出一种基于U-Net和注意力机制attention的深度学习神经网络模型CARN模型,在DNS Challenge比赛数据集上取得了目前最好的结果。

model

no_reverb

reverb

real_recordings

average

CARN

4.07

3.48

3.71

3.72

PoCoNet

4.07

3.19

3.40

3.52

DCCRN

3.90

2.96

3.34

3.38

该数据集中,亚马逊PoCoNet模型、西北工业大学和搜狗合作的DCCRN模型等在具有混响的仿真场景和真实场景下,只能得到中等品质的音频;相比之下,云从CARN模型在各类场景下均有优秀表现,无论是没有混响的仿真场景(no_reverb)、还是具有混响的仿真场景和真实场景下,都能大幅减少音频中的噪音,处理取得清晰的优质音频,提升音频的清晰度。 

02

坚持以人为核心 共创人机协同温暖未来

在AI领域,能够在单项技术上领先已属不易,而云从科技不满足于此。通过自研语音、视觉、NLP等多项技术领跑业界,以更坚实的技术闭环为人机协同构筑基底,不仅是云从基于人工智能大势的选择,也是云从面向人们的需求、推进人机协同时代的坚持。 

从人工智能产业发展角度来看,经历了对计算机视觉等单点技术的狂热追捧,客户逐渐发现自身的复杂需求难以得到快速响应。

在云从看来市场需求带来了AI的第二浪:客户转向寻求获取人工智能综合解决方案,以实现对全业务链条的 AI 赋能,形成行业价值闭环。云从将人工智能技术整合为端到端的综合解决方案,在了解客户业务流程的基础上,将算法平台、AIoT设备和专家知识服务整合为场景化解决方案,定义和打造客户智慧化蓝图。 

云从创新性提出了AI工程学的概念,首先提升人工智能技术自身的生产效率,实现算法模型的批量化产出,将AI产业带入工业化大生产时代。在此阶段,云从提供的不再是计算机视觉等单点技术,而是综合了听说读写等感知能力的全链人工智能技术,基于多项技术构建全面解决方案。

例如,云从的智慧网点解决方案,综合视觉、语音、自然语言处理等多项技术,应用于智慧迎宾、用户身份核验、AI双录等多个场景。目前云从已携手多家银行落地方案,共同为用户带来流畅、完整的智能体验。

正因技术闭环的重要性,云从坚持技术与应用双轮驱动:在技术上精益求精,领跑业界;同时深耕场景应用,基于视觉、语音等全面技术的核心技术闭环,构建人机协同操作系统与行业解决方案,赋能智慧金融、智慧治理、智慧出行、智慧商业等各行业。 

多来年,让技术真正帮助每一个人、让技术真正“有用”是云从始终坚持的理念。人工智能驱动社会转型的浪潮正在开启,云从将不断突破自我,以人机协同的力量助力社会转型,让AI向善,真正实现理解人、帮助人、提升人,帮助每个人创造幸福生活。

语义纠错论文链接:

https://arxiv.org/abs/2104.05507

语音降噪论文链接:

http://arxiv.org/abs/2104.05267


您可能感兴趣

全国热线电话

400-151-5992

周一到周五9:30-18:00(北京时间)

  • 商务合作:business@cloudwalk.com

  • 媒体合作:Media@cloudwalk.com

  • 渠道合作:business_partner@cloudwalk.com

Copyright© 2021 粤公网安备 44011502000477号

粤ICP备15087156号 云从科技集团股份有限公司 CloudWalk Technology Co., Ltd.

AI开放平台/云从logo/使用条款/法律声明/防诈骗声明
关注我们

扫描二维码,关注云从科技
精彩一手掌握

留言咨询

请填写以下表格,我们的销售代表会尽快与您联系

  • 姓名 *
  • 工作邮箱 *
  • 电话 *
  • 城市 *
  • 公司名称 *
  • 行业 *
  • 职位
  • 产品/解决方案
    AI定义设备
    场景定义设备
    机场专用产品
    刷脸支付终端
    活体模组
    智慧金融
    智慧治理
    智慧交通
    智慧商业
  • 预算
  • 请输入需求描述 *

提交成功

我们的销售代表会尽快与您联系