录音文件识别-科大讯飞

服务商

科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。

科大讯飞是我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”、“国家规划布局内重点软件企业”、“国家火炬计划重点高新技术企业”、“国家高技术产业化示范工程”，并被信息产业部确定为中文语音交互技术标准工作组组长单位，牵头制定中文语音技术标准。

1、 “语音转写 ”与 “语音听写 ”的区别是？

2、 “已录制音频转写”和“实时音频流转写”的区别是？

已录制音频转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时；

实时音频流转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现。

3、语音转写支持什么语言？

答：默认支持中文、英文、中英混合识别；中文包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：中文、英文、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

4、目前语音转写支持的音频格式为：

已录制音频（5小时内），wav,flac,opus,m4a,mp3，单声道&多声道；采样率：8KHz,16KHz

5、语音转写支不支持并发？

答：支持，要保证同一个appid每秒请求接口次数最大值在20次以下。

只需一句话，让你的文字变成画作

你的AI写作助手

思必驰提供语音识别，语音合成，语义理解，智能对话，声纹识别服务，开放平台。

海康威视AI开放平台是面向行业用户与生态合作伙伴打造的一站式AI模型开发和应用平台。提供数据集管理、数据标注、模型训练、模型管理、应用集成的全流程AI服务，致力于打造AI视觉应用生态。

将短音频（≤60秒）精准识别成文字，除中文普通话和英文外，支持51个语种、24种方言和1个民族语言，实时返回结果，达到边说边返回的效果，可提供公有云接口及私有化部署方案。

基于字节跳动服务数亿用户沉淀的技术能力，为金融机构提供从底层技术架构到数据、AI等技术中台，再到内容、算法、营销、体验、运营等智能应用套件，助力金融机构实现用户增长、资产提升和管理提效