实时语音识别-科大讯飞

服务商

科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。

科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家火炬计划重点高新技术企业”、“国家高技术产业化示范工程”，并被信息产业部确定为中文语音交互技术标准工作组组长单位，牵头制定中文语音技术标准。

产品介绍

产品优势

应用场景

常见问题

1、“已录制音频转写”和“实时音频流转写”的区别是？

已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时；

实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现。

2、实时语音转写支持什么语言？

答：默认支持中文（包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话）、英文、中英混合识别；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：英语、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

3、购买翻译套餐后，支持哪些语种相互翻译？

开通翻译功能后，可实现中文与日语、韩语、俄语、韩语、法语、西班牙语、越南语之间的互译，同时支持中文普通话与粤语方言互译

4、实时语音转写支持的音频时长有什么限制？

实时语音转写可以实时识别持续的音频流，结果是实时返回，音频流长度理论上不做限制，典型的应用场景是要求展示实时字幕的会议或直播。

5、实时语音转写的分片时长40ms是什么意思？

可以理解为上传的间隔为40ms，建议音频流每40ms向服务器发送1280字节，发送过快可能导致引擎出错，音频发送间隔超时时间为15s，超时服务端报错并主动断开连接。

相关导航

新东方AI开放平台

新东方AI开放平台依托新东方在教育行业的海量数据积累,把教育数据优势转化成教育行业的人工智能算法优势,为中国教育提供行业领先的OCR文字识别,语音智能,视觉智能,人脸关键点检测,人体姿态手势检测,NLP自然语言理解,英语口语评测打分等人工智能算法服务和智慧教育解决方案,助力教育智能化发展. 在智慧教室,双师AI课,AI督课,AI课程视频导演,智能批改,英语口语练习等方面形成了独特的创新解决方案,并公开了大量的智慧教育发明专利,积极引领教育行业的技术创新。新东方人工智能开放平台助力中国教育行业发展普惠,廉价,智能的,自适应的,智能教学工具和教学算法服务,积极应用人工智能技术创造社会价值,为中国的智慧教育和教育+AI产业做出应有贡献. 在图片识别,图片扫描识别,OCR证件识别,试卷手写笔迹擦除,试卷识别,试卷录入,人机会话,中英文翻译,小学口算批改,拼音检测识别,公式检测识别,英文拼写检查,人脸关键点检测,人脸表情识别,英文作文批改打分,语音合成,儿童英语口语测评打分,单词发音测评打分，托福口语测评打分,人脸考勤打卡机,AI数据标注系统,AI模型工厂,AI Devops运维发布体系,算法服务器弹性扩容与监控等各个方面为行业做出了重要贡献.