检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
闲聊功能可以丰富数字人可问答的内容,如:天气、旅游、假期等日常闲聊信息。 闲聊为可选功能,如需开启,可参考下述步骤进行操作: 在界面上方的主菜单中,单击“我的应用”。 进入“我的应用”页面,如图12所示。 图12 我的应用页面 单击应用所在行的图标,进入当前应用的“应用配置”页面。 开启应用的闲聊功能
大客户可以提交工单,或者联系大客户经理,并提供已获取的项目ID,申请开通SP模式。 获取项目ID 登录MetaStudio控制台。 将鼠标移至界面右上方的用户名称位置,在弹出的下拉框中选择“我的凭证”。 进入“我的凭证 > API凭证”页面,如图1所示。 图1 项目列表 父主题: SP用户
仅支持数字人平台配置或内置ASR(语音转文本)能力的方案。不支持WebSocket接口驱动数字人方案,即文本驱动方案。 在调用create接口之前,必须要有用户点击集成WebSDK的页面的行为。 浏览器通过有上述点击的行为,才能获得采集声音的权限。否则无法采集声音,无法正常使用语音唤醒能力。
音频制作完成后,可单击音量图标,调整音频的音量。 上述操作全部完成后,第一个场景的视频内容已制作完成。 如果还需要制作更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。 图3 场景区域 所有场景设置完成后,单击界面右上角的“合成视频”,弹出“合成设置”对话框。
数字内容生产线Metastudio通过AI学习真人形象和声音,来生成数字人模型,相应功能为形象制作、声音制作和Flexus分身数字人。再将模型用于音视频内容的创作,相应功能为视频制作、视频直播和智能交互,主要是生成画面内容。也可以直接通过静态的人脸照片生成视频,对应功能为照片数字人。 父主题: 产品咨询
登录MetaStudio控制台。 在左侧导航栏中,选择“我的创作”。 选择“资源”页签,单击“声音”页签。 单击需要使用的声音卡片,进入“声音详情”界面。 这里的“资产编号”即语音同步合成WebSocket接口需要使用的音色ID。 图1 声音详情界面 在控制台查询音色ID(方式二)
用户也可以使用批量导入的方式,一次性添加完成问题类别及其所有问答对。操作方式如下所示: 在左侧导航栏中,选择“知识库 > 问答管理”。 单击界面右侧的“导入”,弹出“导入训练语料”对话框。 图7 导入训练语料 单击“下载模板”,将语料模板下载至本地。 请按照模板文件的格式,填充完成所有问题分类及其全量语料对,保存文件。
质量。通过减少对人力的依赖,使教育机构可以将更多精力投入到创新和教学内容的优化上,从而实现更高效的教育体系。 医疗健康 医学科普是近年来政策倡导的一大方向。通过医学科普,对改善已患病人群的术后身心健康等问题起着关键作用。以视频形式为患者提供诊前、诊中、诊后的医学科普服务,加强患者
机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。
照片数字人视频制作 按需计费 按需套餐包 分身数字人名片制作 按需计费 按需套餐包 操作步骤 使用SP用户登录华为云控制台,单击界面左上角的图标,在弹出的服务列表界面中,搜索并单击“数字内容生产线 MetaStudio”服务,进入MetaStudio服务概览页面,如图1所示。 图1 服务概览页面
支持通过视频来源的维度,筛选展示下方的视频。 视频列表 默认展示全量视频。 查看视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,可查看视频。 插入视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 插入的视频播放的时候默认无声音,仅有画面。 在视频直播画面预览区域,如
右侧界面的预览效果就是数字人名片的实际生成效果,请输入适量的字符,以确保正常的展示效果。 公司 必填项,数字人公司。 内容较多时,最多支持在名片中分2行展示,超出2行后,默认不展示。为保证名片的效果展示,请保持合理的输入长度。 联系电话 必填项,数字人联系电话,请输入有效的联系方式。 公司地址
在左侧导航栏中,单击“我的创作”。 选择“智能交互 > 技能管理”页签,如图3所示。 技能是一组智能问答对的组合,用户需要先创建技能,再添加所有与当前技能相关的问答对。 图3 智能交互页面 单击右上方的“创建技能”,进入“创建技能”页面,如图4所示。 输入如下参数的值: 技能名称:技能
一个视频草稿的场景数量不能超过50个。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。 视频格式 插入的视频素材支
每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每个单场景上传音频的时长需大于1分钟,大小不超过100M。
推荐使用48kHz采样率录制音频。 安卓手机的超级录音机的采样率默认为高清 44100Hz,无需修改。 采样位 推荐使用48bit采样位录制音频。 安卓手机的超级录音机的采集位默认为16bit,无需修改。 声道 推荐使用单声道录制音频。 安卓手机的超级录音机默认为单声道录制,无需修改。
照片建模任务出现异常问题怎么办? 风格化照片建模的照片有什么要求? 肢体驱动数据格式如何定义? 更多 智能客服 您好!我是有问必答知识渊博的的智能问答机器人,有问题欢迎随时求助哦! 社区求助 华为云社区是华为云用户的聚集地。这里有来自容器服务的技术牛人,为您解决技术难题。
使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。 Token认证 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。
单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”
视频直播 提示模板不可用怎么办? 直播业务媒体流如何应对防火墙限制? 第三方平台的直播画面不清晰怎么办? 第三方平台的直播画面突然中断是怎么回事? 第三方平台的直播画面没有声音怎么办?