内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • HarmonyOS之AI能力·语音识别技术

    支持开发具有语音识别需求的第三方应用,如语音输入法、语音搜索、实时字幕、游戏娱乐、社交聊天、人机交互(如驾驶模式)等场景。语音输入法:将需要输入的文字,直接用语音的方式输入。即用户说话的时候语音识别引擎返回识别的汉字序列,让输入更加便捷,解放双手。语音搜索:搜索内容直接以语音的方式输

    作者: Serendipity·y
    发表时间: 2022-02-16 16:05:13
    848
    0
  • 启动实时语音识别

    启动实时语音识别 您可以根据自己的业务逻辑进行优化、修改rasr.xml前端界面和RasrCsActivity.class代码,执行RasrCsActivity.class代码效果如下。 父主题: Android端调用语音交互服务

  • 语音合成 - 代码示例

    语音合成,调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等,可自定义音频格式,为企业和个人提供个性化的发音服务。

  • 语音合成 - 代码示例

    语音合成,调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等,可自定义音频格式,为企业和个人提供个性化的发音服务。

  • Ubuntu20.04 使用Python实现全过程离线语音识别(包含语音唤醒,语音转文字,指令识别,文字转语音)-转载

    com/ 1 四、语音转文字 获取语音 想要实现语音转文字,首先,我们得获取用户的语音输入。这里使用Python的speech_recognition包来进行语音获取,使用这个的好处是,他会在用户说话结束时,自动停止语音获取,这里我们就不用自己去写该什么停止语音获取的逻辑了,这点

    作者: 泽宇-Li
    303
    2
  • 调用实时语音识别

    选择连接模式,目前实时语音识别提供三种接口,流式一句话、实时语音识别连续模式、实时语音识别单句模式 // 选择1 流式一句话连接 // rasrClient.shortStreamConnect(request); // 选择2,实时语音识别单句模式

  • 调用实时语音识别

    sentence_stream_connect(request) # 实时语音识别单句模式 rasr_client.continue_stream_connect(request) # 实时语音识别连续模式 # step4 发送音频 rasr_client

  • 文本插件教程

    主要介绍了如何利用文本插件设置锚点

    播放量  1471
  • 基于SIS语音交互服务API合成语音 - 模板

    使用本模板可快速生成一个基于华为云SIS语音交互服务的Demo应用工程,开发者可根据SIS服务提供的API,完成一个文字合成音频的应用程序。

  • 语音

    语音来源发音器官分喉下、喉头、喉上三个部分。喉下部分是由气管到肺。从肺呼出的气流成为语音的声源。喉头部分主要是声门和声带。声带是两条韧带,起着喉的阀门作用,它的闭拢和打开成为声门。声门大开时气流畅通,声门闭合,气流冲出使声带作周期性的颤动就产生声音。喉上部分包括咽腔、口腔和鼻腔

    作者: G-washington
    1961
    1
  • 语音识别

    首先我们回顾一下端到端语音识别方法的定义,它是指能够使用一个单一的神经网络直接将输入的语音特征(如果更严格的话是wav)转化为输出文本的网络,它能够将声学模型,语言模型和发音模型融合在一起,简化传统语音识别中的复杂过程。尽管如此,端到端模型还是会依赖语言模型的,因为通常带有文本语音数据的数据

    作者: xql
    发表时间: 2021-08-25 07:06:17
    2180
    0
  • 5分钟玩转AI语音合成

    Explorer页面,选择【语音交互服务--语音合成接口--RunTts】 在Body体的text输入想要转换的内容,再点击调试按钮。(注意红色*为必填项) 调试成功后,会提示提示成功或者失败。 失败的话,请仔细查看对应的错误码信息,按照下方链接,找到对应的解决方法 错误码_语音交互服务 SIS_API参考_附录_华为云

    作者: 加油O幸福
    发表时间: 2022-05-29 13:43:26
    1043
    0
  • 语音识别与语音控制的原理介绍

    向右转”、“向前走”、“向后退”命令词,语音算法sdk经过智能处理后输出识别结果,log显示如下 ​ 识别到语音命令词“向前走”、“向左转”、“向右转&rd

    作者: 二哈侠
    发表时间: 2024-09-19 23:20:30
    145
    0
  • 语音识别模型

    OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型,Whisper 具有高度的智能化和准确性,能够有效地转换语音输入为文本,并在多种语言之间进行翻译。通过不断的优化和更新,Whisper 致力于提供更加优质和高效的语音处理解决方案,以满足不同场景和需求下的语音交互应用。

    作者: 霍格沃兹测试开发
    发表时间: 2024-10-29 17:30:40
    122
    0
  • 基于200I DK A2的--实时语音字幕生成器,视频文本摘录器

    但是需要在原有视频中花较大时间去复原记忆点的位置 2.亦或是,实时网络会议过程,需要整理相应的文本摘要,或者是回顾老师,领导讲述的重点内容。 那么由于是实时视频,没有回放,没有录屏。无从下手 3.这个算是这个设计后续的升级版本,直接对英文进行在线翻译,解决全英语课堂的语言问题 问:怎么设计呢?设计思路是什么?

    作者: yd_286753431
    发表时间: 2023-12-19 04:48:44
    231
    0
  • ListTtsaData 获取语音驱动数据 - API

    该API属于MetaStudio服务,描述: 该接口用于获取生成的数字人驱动数据,包括语音、表情、动作等。接口URL: "/v1/{project_id}/ttsa-jobs/{job_id}"

  • LTE语音是什么

    上使用为控制层面(Control plane)和语音服务的媒体层面(Media plane)特制的配置文件(由 GSM 协会在 PRD IR.92 中定义),这使语音服务(控制和媒体层面)作为数据流在 LTE 数据承载网络中传输,而不再需维护和依赖传统的电路交换语音网络。VoLTE 的语音和数据容量超过 3G

    作者: 旧时光里的温柔
    1151
    0
  • CreateTrainingMiddleJob 创建进阶版语音训练任务 - API

    该API属于MetaStudio服务,描述: 用户创建语音训练进阶版任务,该接口会返回一个obs上传地址,用于上传语音文件。 支持2种方式上传语音文件: * 语音文件和文本文件打包成zip上传:语音文件已经切分成100个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则:0.wav~99

  • CreateTrainingBasicJob 创建基础版语音训练任务 - API

    该API属于MetaStudio服务,描述: 用户创建语音训练基础版任务,该接口会返回一个obs上传地址,用于上传语音文件。 支持2种方式上传语音文件: * 语音文件和文本文件打包成zip上传:语音文件已经切分成20个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则:0.wav~19

  • 在线文本去空行工具

    在线文本去空行工具 在线文本去空行工具 本工具可以去除文本中所有的空行,粘贴后自动去除,一键复制,方便快捷!,本工具可以去除文本中所有的空行,粘贴后自动去除,一键复制,方便快捷! https://tooltt.com/nl-trim/

    作者: 入门小站
    发表时间: 2021-11-09 13:31:28
    307
    0