检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认在线录音结果 功能介绍 确认在线录音结果。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
服务支持的字体 MetaStudio制作视频添加的字幕,视频画面中的文本信息都涉及字体。目前MetaStudio服务支持的字体及语言类型如表1所示。 表1 服务支持的字体说明 字体名称 支持的语言类型 Adelle_Sans_Global Adelle_Sans_Global_Bold
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
speechRecognized的流式返回是覆盖式返回。后一条通知中的text字段值包含前一条通知的内容。例如:第一条通知的text值为“你吃”,第二条新识别了“饭了么”,则第二条text值为“你吃饭了么”。 semanticRecognized的流式返回是分段式返回。后一条通知中的text字段
PPT如何转为PDF文件? 支持在视频制作界面,导入本地PPT作为视频素材使用。有时PPT的字体不支持在MetaStudio控制台展示,建议将PPT转存为PDF文件后,在导入本地PPT的位置,重新导入PDF文件,进行视频制作。 PPT转PDF的操作方法,如下所示: 本地打开PPT文件,在左上方的导航栏中,选择“文件
fo 参数 类型 描述 text string 识别结果文本。 questionText string 问题文本。 resultId number 识别流式响应时返回的各包顺序序号。 isLast boolean 是否是最后一条识别结果。 chatId string 对话ID,每轮问答的ID值唯一。
提交语音训练任务 查询语音训练任务详情 删除语音训练任务 查询任务操作日志 获取语音文件上传地址 获取语音训练任务审核结果 设置任务批次 确认在线录音结果 获取在线录音确认结果
获取账号ID 直播控制HTTP Command命令说明 直播控制RTSA Command命令说明 文本驱动SSML定义 系统资产标签定义 服务支持的字体 资源类型 使用Java代码生成文件内容的MD5值 预置音色ID列表 查询音色ID
结果返回操作。 将视频图片输入至算法模型中,将视频图像分割为面部、手部和身体三个区域。 使用深度学习算法,识别面部区域转化为面部表情,识别手部区域转化为手部骨骼驱动数据,识别身体转化为人体骨骼驱动数据。 对算法输出系数进行平滑处理及异常数据过滤,返回结果。 算法应用场景 数字人视
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选
font_name 否 String 参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,
所示。租户的项目ID必须与SP用户申请成为SP用户时,提供的项目ID所在Region保持一致。 租户名称:输入自定义租户名称,方便SP用户识别租户身份。 图2 关联租户 单击“创建”,租户创建完成,如图3所示。 图3 租户列表 如需取消关联,可单击右侧的“取消关联”,在弹出的“取
font_name 否 String 参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,
font_name String 参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实
font_name String 参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实
图4所示。 输入如下参数的值: 技能名称:技能名称。必须与科大讯飞创建的技能一一对应,如在科大讯飞创建同名技能后,导入技能文件所示。为方便识别和记忆,两边的技能名称可以设置成一样的。 技能标识:技能标识。必须与科大讯飞创建的技能标识,保持一致,如在科大讯飞创建同名技能后,导入技能
单击“应用配置”界面右上方的“保存修改”。 界面提示“保存成功”,说明应用配置页面的修改已生效。 配置热词。 展开“语音识别”下方的“高级设置”,如图9所示。 图9 应用配置 在“识别热词”区域,单击“下载热词模板”,将模板下载至本地。 本地打开模板文件,按照模板提示,输入需要添加的热词,示例如下所示:
系统会对用户的提问音频进行检测,如果一句话末尾的静音时长超过500ms,会结束语音识别。 建议取值大于500ms。 热词 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。 单击热词后面的问号图标,在提示框中单击“查看教程”,可以查看配置视频。