检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
传语音文件。 支持2种方式上传语音文件: 语音文件和文本文件打包成zip上传:语音文件已经切分成20个wav文件,每个语音文件对应一个txt文本文件,所有文件打包成zip文件。语音文件命名规则:0.wav~19.wav;文本文件命名规则:0.txt~19.txt。 语音文件和文本
20000-20063 配置SparkRTC域名的防火墙白名单,如表2所示。 表2 防火墙域名白名单 序号 域名 1 *.dbankcdn.com 2 *.dbankcdn.cn 3 *.dbankcloud.ru 4 *.dbankcloud.cn 5 *.dbankcloud.com 6
第三方用户ID。不允许输入中文。 表3 FormData参数 参数 是否必选 参数类型 描述 file 是 File 照片文件。 说明: 只能上传jpg/jpeg/png格式文件, 最大分辨率为3840*2160 style_id 是 String 数字人风格ID。 system_male_001:男性风格01
1之后的websdk包里面有如下两个资源文件,如果不使用语音唤醒,可忽略这两个文件。 wasmData.js:语音唤醒的算法资源文件。 modelData.js:语音唤醒的模型资源文件。 SDK内置默认唤醒模型,支持定制唤醒词,并更新本地模型,详见Web语音唤醒。 【请求参数】 表8
标准版数字人可以用实景拍摄吗? 分身数字人定制任务提交后,审核未通过怎么办? 模型审核和制作可以加快吗? 部分浏览器提交H265训练视频失败如何处理? 声音和形象模型支持在其他平台使用吗? 声音和形象模型和音视频内容的关系? Flexus数字人在走动录制时需要注意什么?
形象制作和声音制作支持退订吗? 形象制作和声音制作均为一次性计费产品,不支持退订,用户购买前需谨慎评估。 如果是软件问题导致模型效果不理想,可提交工单申请退订产品。产品经理会对实际情况进行核实,对满足条件的发起特殊退订操作。 父主题: 计费咨询
支持在奇妙问平台创建角色,并配置已上传的外部知识库和问答库给大模型学习使用,让角色的问答信息更丰富。 创建智能交互数字人中的“第三方应用”选择“奇妙问”时,才需要执行本节操作。 用户使用奇妙问前,需要联系奇妙问的客户经理注册开通服务。 客户经理的联系方式,可以在云商店语音合成商品页面查看,如图1所示。
创建高级版语音训练任务 功能介绍 用户创建语音训练高级版任务,该接口会返回一个obs上传地址,用于上传语音文件。 语音文件为一段WAV格式的长音频文件,仅支持将语音文件打包成zip压缩格式上传。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。 URI
选择“第三方语言模型”。 应用名称 输入自定义的应用名称。 APPID MetaStudio对接第三方语言模型LLM时,需要LLM提供的APPID信息。 APPKEY MetaStudio对接第三方语言模型LLM时,需要LLM提供的APPKEY信息。 第三方语言模型地址 MetaS
开播后的效果,如图3所示。如需进行互动,可单击图标,切换到助播声音。输入并发送互动内容,主播暂停播报,并使用助播声音插播发送成功的互动内容。 导入 支持从本地导入文本文件,解析生成段落内容。 导入文件需满足: 支持txt格式,且字数不低于200字。 文本内容根据换行,自动解析为段落。 试听 单击“试听”,可以试听当前直播间剧本。
不是数字人的能力。 智能交互的主要功能是通过数字人与用户进行交互问答,也就是用户提问,数字人说出知识库返回的答案。数字人回答的内容,是由大模型或知识库返回的答案决定的。 父主题: 数字人
的说明,按照说明操作,就可以详细了解了。 音频:从本地上传一个音频文件,支持MP4、WAV和M4A格式。当命中此规则后,使用此音频进行回复。 智能交互:通过智能交互的方式回复用户问题,相当于提供了一个第三方语言模型去答复用户问题。 素材绑定(可选) 从本地选择图片或视频上传。当直
asset_state String 资产状态。 CREATING:资产创建中,主文件尚未上传 FAILED:主文件上传失败 UNACTIVED:主文件上传成功,资产未激活,资产不可用于其他业务(用户可更新状态) ACTIVED:主文件上传成功,资产激活,资产可用于其他业务(用户可更新状态) DEL
总体流程 调用创建资产接口创建资产ID。 调用创建文件并获取上传URL接口创建文件ID,并生成文件上传的URL地址。 使用Postman工具,参考OBS的PUT上传接口,将资产文件上传至URL地址中。 调用确认文件已上传接口,确认文件已上传成功。 操作步骤 单击创建资产,进入MetaStudio服务的API
音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。 可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的图标,可试听音频效果。如果音频效果不佳,可以单击“导入”,覆盖更新音频。 图2 音频驱动 音频
数字人支持添加动作吗? 需要数字人模型训练时使用的形象采集视频包含动作编排,才可以添加动作,详见动作编排定制采集指南。 目前仅视频制作支持数字人插入动作,如图1所示。在数字人卡片上有标识,说明当前数字人支持添加动作。 添加动作时需要注意,动作生效需要有足够的音频时间,如果音频太短,数字人可能来不及做动作。
将人像照片输入至算法模型中,通过特征提取、人脸重建、素材特征匹配等进行人头重建,生成3D人头模型。 生成的人头模型通过配上默认身体素材配件,形成完整的3D数字人模型,并返回结果。 算法应用场景 数字人照片建模算法可应用于影视制作、仿真形象生成、虚拟现实等领域,能加速数字人模型产业的生产效率。
单击“添加文件”,从本地选择文件,单击“确定”。 等待文件导入成功后,可以看到增加成功的问题类别及其全量语料对,示例如图6所示。 图6 批量导入语料 全量导入完成后,单击界面右上方的“对话体验”,输入前面导入的语料对问题。 验证下语料对导入是否成功,示例如图7所示。 图7 对话体验 父主题:
图片:JPG、PNG、BMP、GIF、SVG。 视频:MP4。 导入富媒体操作 支持通过问答库导入富媒体,示例如表1所示。以奇妙问知识库为例,可以通过新增知识库来补充富媒体知识。 如果使用服务提供SDK默认样式,受限于浏览器的CSP策略,导入图片、视频链接的域名,需提交工单添加至白名单。 表1
实现数字人形象的验收操作。 图2 数字人定制任务 服务管理员会根据用户反馈的问题,重新优化数字人形象。 数字人定制任务,会重新进行模型训练。等待模型训练完成后,用户可以二次审验,继续4的操作,直至生成符合要求的分身数字人形象。 此时,在“我的创作 > 分身形象”页面,可以看到新增