检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建TTS异步任务 功能介绍 该接口用于对外生成音频文件 使用本接口前,需要在MetaStudio控制台服务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,在弹出的“开通按需计费服务提示”对话框中,勾选同意协议。单击“确定”,开通按需计费。
MetaStudio服务对接第三方语言模型LLM时,需要按照MetaStudio服务定义的接口参数格式开发LLM接口,详见智能交互第三方LLM回调接口。然后由MetaStudio服务调用此接口,实现智能交互能力。 流式响应 MetaStudio智能交互提供流式问答和非流式问答能力,
创建高级版语音训练任务 功能介绍 用户创建语音训练高级版任务,该接口会返回一个obs上传地址,用于上传语音文件。 语音文件为一段WAV格式的长音频文件,仅支持将语音文件打包成zip压缩格式上传。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。 URI
链接的域名,需提交工单添加至白名单。 表1 问答知识库 序号 标准问题 问题答案 1 如何领券? <img src="https:///test.example.com.com/AI-POC/3/领券二维码.jpg" /> 富媒体展示效果(SDK默认展示方式) 用户与数字人进行智
参数类型 描述 text String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。
用户上传的用于制作数字人名片的图片。 introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中
用户上传的用于制作数字人名片的图片。 introduction_type 否 String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中
真人声音录制 客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。 声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:整段录制生成一个WAV或MP3格式音频,总时长3~10分钟,建议5分钟。
startChat新增入参,参考表16,用来设置交互模式(语音问答/文本问答)。 新增接口activeInteractionMode、interactionModeSwitch、sendTextQuestion,用来获取和设置当前交互模式(语音问答或文本问答),以及发送问题文本。 2024-10-08 本次变更如下:
接口参考 主入口(HwICSUiSdk) 事件通知(EventMap) 错误码(ICSError) 授权浏览器麦克风的访问权限 Web语音唤醒 父主题: Web SDK
参数类型 描述 text 是 String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。
thumbnail_url String 缩略图路径。 表8 ProductTextInfo 参数 参数类型 描述 title String 文本标题 text String 文本 表9 ProductMediaDetailInfo 参数 参数类型 描述 asset_id String 资产ID asset_type
请参考图例,按录制人自身动作习惯,保证动作、表情自然。 录制范例 做动作时可以选择静默或者同步读相关文本。根据我们的经验,边说边做会使动作更加自然,文本内容参考如下所示。 表2 录制范例 步骤 1 2 3 文本和动作 (动作由“<>”标注,与同一行的文字一起,边说边做) <静默10秒,保持静默动作>
参数类型 描述 text 是 String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。
docx格式说明:可以没有标题和分级标题, 如需添加标题和分级标题,请使用word标准格式,如图1和图2所示。 txt格式说明:文档内容当前仅支持纯文本,一行对应一条知识。 星火大模型会理解文档库文档的内容,重新组织语言来回答问题,不会完全按照问答对提供的答案去答复。 图1 标题 图2 分级标题
支持如下两种模式: 纯文本模式 使用纯文本,示例:大家好,我是人工智能小A,是位虚拟主播。 标签模式 标签模式使用SSML(Speech Synthesis Markup Language)标记语言。 需要使用的标签,如下所示: <speak>:此标签为所有文本的根节点。一切需要调
服务支持的字体 MetaStudio制作视频添加的字幕,视频画面中的文本信息都涉及字体。目前MetaStudio服务支持的字体及语言类型如表1所示。 表1 服务支持的字体说明 字体名称 支持的语言类型 Adelle_Sans_Global Adelle_Sans_Global_Bold
参数类型 描述 text String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。
第三方用户ID。不允许输入中文。 表3 请求Body参数 参数 是否必选 参数类型 描述 text 是 String 待合成文本。 tts_text 否 String 发送给tts的待合成文本。 emotion 是 String 音色ID,获取方式详见获取音色ID。 speed 否 Integer
参数类型 描述 text 是 String 参数解释: 台词脚本。支持两种模式,纯文本模式和标签模式。 纯文本模式:使用方法,如“大家好,我是人工智大家,是个虚拟主播”。 标签模式:SSML标签的详细定义请参考文本驱动SSML定义。 约束限制: 不含SSML标签字符数最长10000个字符。