科大讯飞听见智能谈话系统 江苏代理免费上门演示
点击次数:2019-11-05 23:44:13【打印】【关闭】
2019年马上就要结束了,随着信息量越来越大,会议是传播内容最重要的方式,但开完会后,会议内容如何快速变成文稿呢?如何一边讲话,一边把声音转换成文字,显示给现场的听众呢?
听见智能谈话系统是讯飞核心语音技术的集大成者,系统集成科大讯飞最新版本的中文语音识别转写引擎,采用13000小时以上的连续语流数据训练而成的声学模型及先进的二遍解码技术,另外独有文本顺滑、标点识别、英文数字后处理等自然语言处理能力,能够让识别结果更加准确、规范。本系统采用的核心语音技术成果,已成功获得Winograd Schema Challenge 2016评测大赛(新型认知智能国际评测任务)的第一名,在该领域的专业性全球领先。
科大讯飞听见智能谈话系统 江苏代理免费上门演示
系统的核心指标参数如下:
系统响应指标
系统应保证实时性,提供多用户、多任务操作,对用户的查询请求、语音识别等操作有较快响应。
响应时间:常规页面操作的响应时间≤5秒。
普通话转写指标
检索速度:亿级数据量,检索为秒级。
效果:安静环境下的标准普通话转写正确率达到95%。
信息处理标准
音频转写的采样率为16K*16Bit。
依据VAD技术(有效语音检测)及转写字数监控,实现转写结果自动分段。
1) 听见智能谈话系统主要实现谈话双方语音实时转写;全程录音与文字记录,保存原始内容; 文字快速检索,一键定位重要信息,从而有助于提高记录谈话笔录的速度和效率,记录保存谈话音频,快速精准定位和回溯谈话全程,有效解决在谈话过程中人工记录时常发生的记录不全、描述不准、遗漏细节和关键内容等问题。通过文字定位语音片段即时播放,达到快捷记录、精准回溯目的,提高工作质效,助力谈话工作的快速规范办理。
科大讯飞听见智能谈话系统 江苏代理免费上门演示
其核心语音识别引擎的主要功能特性如下:
1. 端点检测
端点检测是对输入的音频流进行分析,确定音频的起始和终止的处理过程。一旦检测到用户开始说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。
2. 篇章级处理技术和口语风格处理技术
解决人人对话转写问题的难点在于其场景的复杂性与影响因素的多样性,不仅需要海量的人人交谈数据,更核心的是需要在海量数据基础上进行建模,讯飞独家推出的这两项技术对此技术难点有极大的突破。
3. 混响降噪
混响降噪一直是语音转写的一大难点,实际应用中,背景噪声对于语音识别应用是一个现实的挑战,即便说话人处于安静的办公室环境,在谈话过程中也难以避免会有一定的噪声。对于为了听感而录制的有损失的语音,讯飞综合利用DNN加混响技术和DNN去混响技术,解决远场录音的混响问题,以适应用户在千差万别的环境中应用的要求。
4. 双向RNN技术以及CTC建模技术
讯飞核心技术采用最近两年才应用到语音识别技术中的最新的双向RNN技术和当下比较火的CTC建模技术,使得识别率比DNN技术和双向RNN技术分别相对提升了25%和10%。
5. 关键词优化
关键词优化是提前将热词、专业术语、同音易错词等置入系统中,在说话者发言的时候,如有类似的语音内容,系统会自动进行检测、并识别为该特定词语。
6. 转写后处理
即使在语音转写正确率非常高的情况下,转写文本的可读性仍存在较大问题,所以文本后处理的作用就显得尤为重要。文本的后处理主要包括分句与分段、内容顺滑,不仅实现按上下文语义进行句子划分、为句子加标点,还可实现自动提出转写结果中的停顿词、语气词、重复词等,使得顺滑后的文本变得易读。
科大讯飞听见智能谈话系统 江苏代理免费上门演示
7. 智能调整识别策略
系统能够自动根据系统运行情况动态调整语音识别策略,在系统较忙时(CPU占用较高),采用计算量较小但具有足够精度的策略以保证系统的响应速度;在系统不忙时(CPU占用较低),采用精度更高的策略以达到更优的识别效果。该功能在保障稳定运行的基础上,充分利用系统的计算资源,有利于保护客户的设备投资。
系统的核心硬件形态为一款定制超极本,具备便携可移动的特点。
类别
描述
数量
单位
硬件
便携式智能谈话主机
听见定制,带听见LOGO;联想P51,i7-7700HQ,256GB SSD+1TB HDD,64G内存;windows 10,64位;
1
台
盘型麦克风阵列
(1) 能够同步采集的语音通道数8个;
(2) 采集音频格式为16k Hz采样率,16位量化精度;
(3) 支持语音播输入的音量调节,根据音量大小自动进行增益调节;
(4)麦克风的有效采集距离1-2米,
(5) 拾音器的信噪比达到25dB以上;
(6) 具有噪声抑制和消除混响功能。
1
台