检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"shoot_script" : { "text_config" : { "text" : "大家好,我是云笙" }, "animation_config" : [ { "animation" : "7aff
rar下载至本地。 下载过程大约耗时3~5分钟,请耐心等待。 如果用户需要自定义工具,可以获取其源码。 本地解压工具包,得到ffmpeg目录和运行文件webm2mov.exe。 双击webm2mov.exe,弹出如图1所示的界面。 图1 工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。
获取项目ID的接口为“GET https://{Endpoint}/v3/projects/”,其中{Endpoint}为IAM的终端节点可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects":
交互第三方LLM回调接口。然后由MetaStudio服务调用此接口,实现智能交互能力。 流式响应 MetaStudio智能交互提供流式问答和非流式问答能力,其中流式问答响应更快。开启后使用流式问答能力, 关闭则使用非流式问答能力。 多轮语境理解能力 配置数值越高,问答请求携带的历史对话个数越多,语境理解能力更强。
app_id String 第三方应用ID。 app_type Integer 对接第三方应用厂商类型。 说明: 0:科大讯飞AIUI;1:华为云CBS;2:科大讯飞星火交互认知大模型;5:第三方驱动;6:第三方语言模型;8:奇妙问 取值范围: 0-32 app_key String 应用的AccessKey或帐号。
app_id String 第三方应用ID。 app_type Integer 对接第三方应用厂商类型。 说明: 0:科大讯飞AIUI;1:华为云CBS;2:科大讯飞星火交互认知大模型;5:第三方驱动;6:第三方语言模型;8:奇妙问 取值范围: 0-32 app_key String 应用的AccessKey或帐号。
查看应用信息:在MetaStudio服务创建“科大讯飞AIUI通用语义模型”智能交互对话项目时,需要使用这里的应用信息,包括:应用名称、APPID、APPKEY和APISECRET。 (可选)开启闲聊功能:闲聊功能可以丰富数字人问答内容,如:天气、旅游、假期等日常闲聊信息。 需要在应用中,依次完成下述配置
k time="停顿时长"/>。time的单位为毫秒,最小值为200毫秒。 <phoneme>:多音字标签,可指定单个汉字的读音。标签起始和结束中间只能有1个汉字。属性可取值为汉语拼音,声调用1、2、3、4来表示。用法为:<phoneme ph="拼音"/>字</phoneme>。
URI /v1/{project_id}/digital-human-chat/chat-command/{job_id} 表2、表3和表4是WebSocket建连时携带的参数。 表2 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参考获取项目ID。
该字段无需填写。 取值范围: 字符长度0-1024位。 默认取值: 不涉及。 dh_id 否 String 参数解释: 数字人ID。对应形象和音色组合。 约束限制: 该字段暂未启用,无需填写。 取值范围: 字符长度0-64位。 默认取值: 不涉及。 model_asset_id 否
用户可以单击“查看制作任务列表”,查看声音制作任务审核进展。 当状态变更为“系统审核完成”,自动启动算法训练。如果系统存在多个算法训练任务,可能会存在排队和延迟的现象,请耐心等待。 确认声音制作任务已训练完成后,在左侧导航栏中,单击“我的创作”。 选择“声音”,找到已生成的声音,单击声音卡片中的头像,即可试听声音效果。
d4e5f6。 注意:robotId和taskUrl必须至少设置一个参数。 taskUrl 否 - string 在MetaStudio控制台创建生成的数字人互动任务页面URL。URL获取方式,请参见创建智能交互数字人。 注意:robotId和taskUrl必须至少设置一个参数。
启字幕展示功能。 音频驱动:从本地上传音频文件,作为视频的语音。音频驱动方式,仅支持中文普通话的场景下能开启字幕。 还可以设置音频的音量,和调整画布的横竖屏展示。 4 视频场景区域 如果一个视频包含多场景,可以新增场景依次制作,顺序播放。 5 文件设置区域 从左往右依次为: 单击
如果还需要制作多场景,可以单击直播画面预览窗口右侧“场景1”小窗口下方的“+”图标,新增场景,并参考前一个场景,设置生成下一个场景的画面布局和剧本内容。 图9 直播间界面 所有场景的画面布局和剧本设置完成后,单击界面右侧的“互动设置”页签,如图10所示。 图10 互动设置 单击“导入”,弹出“导入互动”对话框。
默认取值: 不涉及。 表12 TextConfig 参数 参数类型 描述 text String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。
<speak></speak>:SSML文本的根节点。 语法 1 <speak>这里输入SSML标签的文本</speak> 属性 无 标签关系 <speak>可以包含文本和标签,包括<break>、<phoneme>、<say-as>、<sub>标签。 break标签 描述 <break/>:在任意位置插入静音停顿。
约束限制: 该字段无需填写。 取值范围: 字符长度0-1024位。 默认取值: 不涉及。 dh_id String 参数解释: 数字人ID。对应形象和音色组合。 约束限制: 该字段暂未启用,无需填写。 取值范围: 字符长度0-64位。 默认取值: 不涉及。 model_asset_id String
TEMP:临时直播间,直播任务结束后自动清理直播间。 TEMPLATE:直播间模板。 template_own_type 否 String 按照自己拥有的和别人分享以及公共的模板进行查询 OWNED 自己拥有且暂未共享的 SHARED_TO_OHTERS 分享给别人的 SHARED_FROM_OHTERS
音频文件信息。 表12 TextConfig 参数 参数类型 描述 text String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。
音频文件信息。 表8 TextConfig 参数 是否必选 参数类型 描述 text 是 String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。