检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Markup Language)标记语言。 需要使用的标签,如下所示: <speak>:此标签为所有文本的根节点。一切需要调用SSML标签的文本,都要包含在<speak> </speak>标记对中。 <emotion>:情感标签,对指定的一或多句话生效。标签开始在句子起始位置,标签结束在句子结尾。用法为:<emotion
该声音是否支持SSML的say-as标签。 约束限制: 不涉及 取值范围: true: 支持SSML的say-as标签 false: 不支持SSML的say-as标签 默认取值: false is_support_ssml_sub 否 Boolean 参数解释: 该声音是否支持SSML的sub标签。
如何实时切换智能交互的语言和声音? 在展厅等智能交互场景中,会有切换智能交互界面,数字人说话语言和声音的需求。 请参考下述步骤操作: 登录MetaStudio控制台。 如果是展厅场景,需要切换到“华北-北京四”区域。因为展厅的配置,均在“华北-北京四”区域。 在左侧导航栏中,选择“我的创作”。
频,并获取不到视频分辨率等参数。 在Chrome浏览器中输入“chrome://gpu”后,搜索“coding”。可以检查当前PC的浏览器是否支持H265(HEVC)视频解码。 图2 查看浏览器配置 用ffmpeg检查视频的编码是否是H265(HEVC),输入命令:ffmpeg -i
登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“声音”页签,单击界面右侧的“特殊词表”,进入如图1所示的界面。 图1 特殊词表 单击“新建词表”,界面新增一行自定义读法,如图2所示。 在“原始词”列输入原始内容。 在“新建读法”列,输入拼音后,从下拉框中选择正确的读音。如有多个字,
双击webm2mov.exe,弹出如图1所示的界面。 图1 工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。 等待视频格式转换完成。请注意,视频格式转换过程中,一定不能关闭如图2所示的2个窗口。 图2 工具运行界面 视频转换过程中,工具的同级目录下面会出现一些过程文件,请勿
"content": "长江是中国的一条主要河流,也是世界上最长的河流之一。长江的源头在青藏高原的唐古拉山,全长约6300公里,流经中国的11个省份,最终在上海注入东海。" //第一轮答案 }, { "content": "请列举5个途径的省份" //第二轮问题
分身数字人视频直播 如果已开通按需,需检查直播并发路数是否超出套餐。 如果已开通按需,且直播并发路数超出套餐,那么超出套餐的路数自动走按需结算,费用从当前账户余额中扣除结算费用。 须知:按需计费开通后,目前不支持关闭,请谨慎确认后再开通使用。 父主题: 计费咨询
bsocket接口驱动数字人的方案,是不支持websdk内置语音唤醒能力的)。预制的唤醒能力支持使用“你好云笙”、“稍等一下”、“谢谢再见”三个唤醒词,进行数字人唤醒、打断和退出。 可以通过调用create接口,设置接口参数param中config里的enableLocalWakeup参数来开启Web语音唤醒能力。
意图1:从下拉框中选择意图,这里展示的意图是服务预置的,不支持从当前界面增加新的意图名称。用户也可以在提交工单时,同步补充需要的意图列表,让服务进行预置。仅支持选择已有意图,且每个意图仅能新增设置一次。 添加回复话术:单击“添加回复话术”,可以自定义添加当前意图的安抚话术。最多支持添加5个。
音频制作完成后,可单击音量图标,调整音频的音量。 上述操作全部完成后,第一个场景的视频内容已制作完成。 如果还需要制作更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。 图3 场景区域 所有场景设置完成后,单击界面右上角的“合成视频”,弹出“合成设置”对话框。
机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。
用于生成WHOLE_MODEL的模型file_id 约束限制: 如果当前记录的信息与MAIN文件的file_id一致,那就认为已经生成过,无需再进行全模型导出 取值范围: 字符长度0-64位。 默认取值: 不涉及。 load_model_file_id String 参数解释: 当前用于渲染加载的模型file_id
如果shoot_scripts中shoot_script.script_type为"TEXT",则台词以shoot_scripts中的文本为准; 如果shoot_scripts中shoot_script.script_type为"AUDIO",则台词以script_id对应剧本中的音频为准。 human_image
字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。
参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。
dio服务进行结算。 资源有效期 套餐包从订单付款成功后的生效时间开始计费,请在有效期内使用套餐包中的资源。按需付费则按照资源的实际使用情况进行计费,无有效期的限制。 资源包的“到期时间”可以在MetaStudio控制台的服务概览页面查看,如图1所示。 图1 资源列表 续费 数字内容生产线续费说明,如下所示:
字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size 否 Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。
PREPROCESSING:MetaStudio直播服务启动加载形象模型的状态。 PLAY_READY:形象模型加载完成的状态。此时数字人处于静默状态,等待开始播放剧本的指令。 PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。 PLAY_PAUSE:数字人直播
因如下所示: 视频中使用的素材未上传成功,需重新上传后使用。 视频中的素材已被删除,多数情况下为PPT素材。需要在“我的创作 > 回收站”界面,找到素材并恢复。 视频中的素材可能涉及敏感内容,在“我的创作 > 资源 > 已冻结”界面,查看已冻结的资产。如需解冻,需要提交工单申请人工复审。