语音交互服务 SIS
语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
立即联系
可定制化
前沿技术
多模型多音频格式

提供对话、银行、保险等多种领域模型,支持8种以上音频格式的转写,适配场景广泛

支持热词
高识别率

基于深度学习技术,对特定领域场景和语料进行优化,语音识别率达到业界领先

针对专业词汇,支持上传至热词表,增加专业词汇的语音识别准确率

产品特性
支持质检参数分析

针对8k采样率模型,支持话者分离、情绪检测、语速检测等功能

针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确

使用工业界成熟的算法,结合语音识别学术界最新研究成果,为企业提供独特竞争力优势

语音合成
一句话识别
录音文件识别

支持情绪识别、语速识别、热词定 制、静默检测、话者分离、支持垂 域模型定制。

语音交互服务内容

支持多种音色,自定义语速,音量。

多种模式(连续、流式一句话、单 句)、支 持 打 断、智 能 断 句、热 词 定制、支持垂域模型定制。

实时语音转写

多种模式(连续、流式一句话、单 句)、静默检测、智能断句、热词 定制。

        • 语音客服质检

          识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。

  • 会议记录

    对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。

  • 语音短消息

    通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。

  • 游戏娱乐

    将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。

  • 有声读物

    将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。

  • 电话回访

    在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。

  • 智能教育

    集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。

  • 直播实时字幕

    将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。

  • 会议实时记录

    将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。

  • 即时文本录入

    手机App上实时录音并即时提供转写的文本,例如语音输入法等。

  • 人机交互

    通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。

  • 智能客服

    借助语音合成,联络中心可以用自然的声音与客户互动。

应用场景