云服务器内容精选

  • 制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(华为模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。 高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、 视频直播 或智能交互等场景中。 通过MetaStudio的API调用自定义声音。
  • 开始录音 必须录制单人高质量、无噪音或背景音的人声语音,生成音频。支持使用苹果或者安卓手机录制视频,操作请参考手机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。 音频格式 推荐使用无损音质格式保存音频文件,如WAV格式。 原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。 录制风格 录制全程保持语境风格一致,避免多种情绪混杂。如直播场景时,录制风格需接近日常直播效果。 发音吐字 发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。 语速节奏 语速自然、平稳,切忌过快过慢、忽快忽慢。 音量适中 音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值 RMS 在-9左右,无削波。 停顿断句 在标点或适当断句处自然停顿,需轻声换气。 当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。
  • 录音准备 表1 录音准备 声音类型 录制设备和软件 录音环境 录音文案 基础版 优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。 如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。 同一批录音必须使用同一套录制设备和环境。 建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。 支持自定义文案,单句文案长短需和样例相当。 不建议临场即兴发挥录制,避免出现较多嗯、啊等语气词,影响连贯性。 进阶版 高品质 专业录音棚+高保真MIC录制。
  • 获取第三方声音使用凭证 下面以 语音合成 套餐为例,进行操作说明。其他声音套餐的操作均相同。 查看用户已购语音合成套餐,获取“用户账号”和“登录密码”,作为在MetaStudio控制台激活第三方声音的使用凭证。 访问云商店买家中心,进入“已购买服务”界面。 可以看到已购买的语音合成套餐信息。 图5 已购买的服务 单击已购买套餐右侧的“资源详情”,进入资源详情界面。 需要记录“用户账号”和“登录密码”,如图6所示。 用途如激活第三方声音使用凭证所示,分别作为accessKey和secretKey,在MetaStudio新增或更新凭证,用于激活第三方声音。 图6 资源详情
  • 续购套餐 下面以语音合成套餐为例,进行操作说明。其他声音套餐的操作均相同。 已购语音合成套餐用尽后,须知: 如果使用相同的华为云账号再次购买套餐,则accessKey和secretKey不变。 如果使用其他华为云账号再次购买套餐,则需更新accessKey和secretKey后使用,操作请参考续购套餐。 访问我的声音凭证页面,可以看到已激活的accessKey和secretKey信息。 图12 声音凭证 单击右侧的“编辑”,在弹出“修改序列号”对话框中,输入使用其他华为云账号购买的语音合成套餐用户凭证,如图13所示。 用户凭证的查询方式,如获取第三方声音使用凭证所示。 图13 更新凭证 单击“确认修改”,界面提示“修改成功”。 修改成功后,自动生效,无需重新激活第三方声音。
  • 购买语音合成操作流程 如需使用系统预置的第三方声音,需要购买出门问问语音合成套餐包,详细的操作流程如下所示。第三方声音支持的语言类型,如第三方声音支持的语言类型所示。 购买出门问问语音合成套餐包:在云商店购买语音合成套餐包,用于激活和使用出门问问提供的第三方声音。 获取第三方声音使用凭证:查看已购套餐包的“用户账号”和“登录密码”,作为MetaStudio控制台第三方声音使用凭证。 激活第三方声音使用凭证:在MetaStudio控制台新增凭证,输入已购套餐包的“用户账号”和“登录密码”作为使用凭证。 在MetaStudio控制台查看消费明细:支持在MetaStudio控制台查看已购套餐包的消费明细。 续购套餐:如果已购套餐包的用量已耗尽或者套餐包到期,可再次购买套餐包使用。
  • 购买出门问问语音合成套餐包 在云商店购买语音合成套餐包,用于激活和使用出门问问提供的第三方声音。 访问云商店语音合成商品页面,进入云商店商品“语音合成”的购买页面。 用户可以在界面下方查看商品详情,确定要购买的商品规格。 支持购买下述套餐: 语音合成体验套餐 语音合成小型套餐 语音合成中型套餐 语音合成大型套餐 上述套餐购买完成后,所有预置的第三方声音均可使用。每个第三方声音的费用均不同,详见语音合成界面下方的声音价格表。如魔郎朗声音的价格为30元/百万字符,那么使用魔郎朗声音进行视频制作合成时,生成音频的费用会从上面购买的套餐包中扣除。 图1 云商店 选择“语音合成体验套餐”,单击“立即购买”,进入购买页面。 下面以购买“语音合成体验套餐”为例,进行操作说明。 图2 订单确认页面 阅读并勾选所有协议和相关授权,单击“去支付”,进入订单支付页面。 图3 订单支付页面 按照界面提示,选择您的付款方式,完成支付即可。 订单支付成功后,进入如图4所示的界面。 图4 订单支付成功
  • 富媒体展示效果(SDK默认展示方式) 用户与数字人进行智能交互的页面,富媒体展示效果支持使用SDK提供的默认展示方式。 下述智能交互客户端SDK的两个方法的配置字段enableCaption,默认值均为False,即用户自定义富媒体的展示效果。如果需要使用SDK提供的默认展示效果,需修改参数enableCaption的值为true。 修改create方法中param参数的config配置项,即修改是否显示字幕字段enableCaption的值为true。 await HwI CS UiSdk.create({ serverAddress: 'serverAddress', robotId: 'robotId', onceCode: 'onceCode', containerId: 'containerId', config: { enableCaption: true } }); 修改setConfig方法是否显示字幕的配置项enableCaption的值为true。 HwICSUiSdk.setConfig({ enableCaption: true }); 表1中导入的图片使用SDK默认方式时,在智能交互页面的展示效果,如图1所示。 图1 SDK默认方式展示效果
  • 解决方法 单击webm2mov,将视频格式转换小工具webm2mov_20240814.rar下载至本地。 下载过程大约耗时3~5分钟,请耐心等待。 如果用户需要自定义工具,可以获取其源码。 本地解压工具包,得到ffmpeg目录和运行文件webm2mov.exe。 双击webm2mov.exe,弹出如图1所示的界面。 图1 工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。 等待视频格式转换完成。请注意,视频格式转换过程中,一定不能关闭如图2所示的2个窗口。 图2 工具运行界面 视频转换过程中,工具的同级目录下面会出现一些过程文件,请勿移动或删除,待视频格式转换完成后,会自动删除。 图3 工具目录 视频格式转换完成后,WEBM视频文件的同级目录下面会生成一个同名带时间戳的MOV文件。 文件名示例如下所示: 原始频名称:test.webm 转换后的视频名称:test_20240904155004.mov
  • 照片数字人限制 照片数字人视频制作限制说明,如表1所示。 表1 照片数字人视频制作限制 照片数字人视频制作配置 限制 人像照片 制作照片数字人的人像照片拍摄要求,如下所示: 真人正面照,不支持动漫卡通形象;面部占比50%以上,侧脸俯仰角度不超过15度。 五官清晰无遮挡,目视前方。 良好的亮度,确保面部细节。 照片内不能出现多张人脸。 人像照片格式要求,如下所示: 支持的格式为:PNG、JPG、JPEG、WEBP。 大小不超过16MB。 分辨率最大支持1080P,如果超出,会自动缩放为1080P。 音频 音频录制要求,如下所示: 单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音频时长。如果超过5分钟,会导致照片数字人制作失败。 父主题: 使用限制
  • 直播任务退出说明 直播任务退出说明,如表2所示。 表2 直播任务退出说明 直播任务退出场景 操作说明 租户自行退出直播任务 租户可通过下述方式,退出直播任务。 在MetaStudio控制台开播页面,停止直播任务。 调用结束数字人智能直播任务接口,停止直播任务。 服务自动关停直播任务 下述场景下, 生成的直播视频流没有观看者,服务为保障租户利益,会自动关停直播任务。 在MetaStudio控制台开播,且没有配置RTMP推流时,用户关闭了视频播放窗口一段时间以后,约2~3分钟。 调用API开播,且没有配置RTMP推流时,客户端退出RTC房间一段时间以后,约2~3分钟。 特殊退出场景 如果直播内容涉及安全合规风险,服务运维人员,会通过运维界面,直接冻结直播任务。
  • 直播 内容审核 说明 直播内容审核说明,如表4所示。 表4 直播间内容审核说明 内容审核机制 操作说明 直播间内容审核 MetaStudio服务内容审核说明,如下所示: 默认会对直播间的各个配置项,如直播间名称、描述、文本、音频、视频、图片等内容进行机器审核。以排除内容违规风险,避免生成不合法的直播内容。 如果租户已对接其他内容风控系统,且承诺内容风控自行负责,可提交工单申请关闭MetaStudio服务内容审核功能。 如果服务接收到直播内容投诉,按照国家相关部门要求,会冻结违规的直播间及直播任务。情节严重的,还会冻结租户的全部资源。
  • 直播播放说明 直播播放说明,如表3所示。 表3 直播播放说明 直播播放配置 操作说明 租户控制直播播放的配置 为保障主播可以截取到完整的直播视频,MetaStudio直播服务提供了控制直播播放的配置。 启动直播前,Console控制台界面,需要去勾选“加载完自动直播”(即配置项“play_policy.auto_play_script”设置为“FALSE”)。启动直播任务后,会等待租户的开始直播指令(如果接口调用的方式,会通过RTSA COMMAND指令发送play_start指令),才会启动直播,否则数字人一直保持静默状态。
  • API流控 数字内容生产线服务对服务端API设置了调用次数限制,避免出现短时间内重复调用API,服务中断的情况。 表1 API流控限制 接口分类 接口名称 单租户接口流控 (华北-北京四) 单租户接口流控 (华东-上海一) 单租户接口流控 (亚太-新加坡) 数字资产管理 创建资产 10次/秒 5次/秒 5次/秒 查询资产列表 20次/秒 10次/秒 10次/秒 更新资产 10次/秒 5次/秒 5次/秒 删除资产 10次/秒 5次/秒 5次/秒 查询资产详情 20次/秒 10次/秒 10次/秒 恢复被删除的资产 10次/秒 5次/秒 5次/秒 批量资产操作 1次/秒 1次/秒 1次/秒 查询资产概要 20次/秒 10次/秒 10次/秒 查询资产复制信息 20次/秒 10次/秒 10次/秒 复制资产 4次/秒 3次/秒 3次/秒 文件管理 创建文件并获取上传URL 10次/秒 5次/秒 5次/秒 删除文件 10次/秒 5次/秒 5次/秒 确认文件已上传 10次/秒 5次/秒 5次/秒 创建大文件 10次/秒 5次/秒 5次/秒 视频制作剧本管理 创建视频制作剧本 10次/秒 5次/秒 5次/秒 查询视频制作剧本列表 20次/秒 10次/秒 10次/秒 查询视频制作剧本详情 20次/秒 10次/秒 10次/秒 更新视频制作剧本 10次/秒 5次/秒 5次/秒 删除视频制作剧本 10次/秒 5次/秒 5次/秒 复制视频制作剧本 10次/秒 5次/秒 5次/秒 数字人视频制作管理 查询视频制作任务列表 20次/秒 10次/秒 10次/秒 分身数字人视频制作管理 创建分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 查询分身数字人视频制作任务详情 20次/秒 10次/秒 10次/秒 取消等待中的分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 数字人名片制作管理 创建数字人名片制作 5次/秒 3次/秒 3次/秒 查询数字人名片制作任务列表 20次/秒 10次/秒 10次/秒 查询数字人名片制作任务详情 20次/秒 10次/秒 10次/秒 更新数字人名片制作 5次/秒 3次/秒 3次/秒 删除数字人名片制作任务 5次/秒 3次/秒 3次/秒 照片数字人视频制作管理 创建照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 查询照片分身数字人视频制作任务详情 20次/秒 10次/秒 10次/秒 取消等待中的照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 创建照片检测任务 5次/秒 3次/秒 3次/秒 查询照片检测任务详情 20次/秒 10次/秒 10次/秒 智能直播间管理 创建智能直播间 5次/秒 3次/秒 3次/秒 查询智能直播间列表 20次/秒 10次/秒 10次/秒 查询智能直播剧本详情 20次/秒 10次/秒 10次/秒 更新智能直播间信息 5次/秒 3次/秒 3次/秒 删除智能直播间 4次/秒 3次/秒 3次/秒 创建智能直播间互动规则库 4次/秒 3次/秒 3次/秒 查询智能直播间互动规则库列表 20次/秒 10次/秒 10次/秒 更新智能直播间互动规则库 4次/秒 3次/秒 3次/秒 删除智能直播间互动规则库 4次/秒 3次/秒 3次/秒 直播任务管理 启动数字人智能直播任务 4次/秒 3次/秒 3次/秒 查询某个智能直播间下直播任务列表 20次/秒 10次/秒 10次/秒 查询数字人智能直播任务详情 20次/秒 10次/秒 10次/秒 结束数字人智能直播任务 4次/秒 3次/秒 3次/秒 控制数字人直播过程 4次/秒 3次/秒 3次/秒 查询租户所有数字人直播任务列表 10次/秒 5次/秒 5次/秒 上报直播间事件 4次/秒 3次/秒 3次/秒 直播商品管理 创建商品 4次/秒 3次/秒 3次/秒 查询商品列表 20次/秒 10次/秒 10次/秒 更新商品 4次/秒 3次/秒 3次/秒 查询商品详情 20次/秒 10次/秒 10次/秒 删除商品 4次/秒 3次/秒 3次/秒 商品资产组合配置 4次/秒 3次/秒 3次/秒 智能交互数字人对话管理 创建智能交互对话 5次/秒 3次/秒 - 查询智能交互对话列表 20次/秒 10次/秒 10次/秒 查询智能交互对话详情 20次/秒 10次/秒 10次/秒 更新智能交互对话信息 5次/秒 3次/秒 - 删除智能交互对话 5次/秒 3次/秒 - 智能交互数字人对话任务管理 创建对话链接 5次/秒 3次/秒 - 启动数字人智能交互任务 5次/秒 3次/秒 - 结束数字人智能交互任务 5次/秒 3次/秒 - 查询数字人智能交互任务 20次/秒 10次/秒 10次/秒 智能交互数字人应用管理 创建应用 5次/秒 3次/秒 - 查询应用列表 20次/秒 10次/秒 10次/秒 查询应用详情 20次/秒 10次/秒 10次/秒 修改应用 5次/秒 10次/秒 - 删除应用 5次/秒 3次/秒 - 智能交互数字人鉴权码管理 创建一次性鉴权码 20次/秒 10次/秒 - 智能交互数字人激活码管理 创建激活码 5次/秒 3次/秒 - 查询激活码列表 20次/秒 10次/秒 10次/秒 查询激活码详情 20次/秒 10次/秒 10次/秒 修改激活码 5次/秒 3次/秒 - 重置激活码 5次/秒 3次/秒 - 删除激活码 5次/秒 3次/秒 - 智能交互数字人知识库技能管理 创建知识库技能 4次/秒 3次/秒 3次/秒 查询知识库技能列表 20次/秒 10次/秒 10次/秒 修改知识库技能 4次/秒 3次/秒 3次/秒 查询知识库技能详情 20次/秒 10次/秒 10次/秒 删除知识库技能 4次/秒 3次/秒 3次/秒 导出知识库技能 1次/秒 1次/秒 1次/秒 智能交互数字人知识库意图管理 创建知识库意图 4次/秒 3次/秒 3次/秒 查询知识库意图列表 20次/秒 10次/秒 10次/秒 查询知识库意图详情 20次/秒 10次/秒 10次/秒 修改知识库意图 4次/秒 3次/秒 3次/秒 删除知识库意图 4次/秒 3次/秒 3次/秒 创建知识库意图和问法 4次/秒 3次/秒 3次/秒 智能交互数字人知识库问法管理 创建知识库问法 4次/秒 3次/秒 3次/秒 查询知识库问法列表 20次/秒 10次/秒 10次/秒 查询知识库问法详情 20次/秒 10次/秒 10次/秒 修改知识库问法 4次/秒 3次/秒 3次/秒 删除知识库问法 4次/秒 3次/秒 3次/秒 批量创建知识库问法 1次/秒 1次/秒 1次/秒 批量修改知识库问法 1次/秒 1次/秒 1次/秒 智能交互数字人欢迎词管理 创建欢迎词 4次/秒 3次/秒 3次/秒 查询欢迎词列表 20次/秒 10次/秒 10次/秒 查询欢迎词详情 20次/秒 10次/秒 10次/秒 修改欢迎词 4次/秒 3次/秒 3次/秒 删除欢迎词 4次/秒 3次/秒 3次/秒 修改欢迎词功能开关 4次/秒 3次/秒 3次/秒 查询欢迎词功能开关 20次/秒 10次/秒 10次/秒 智能交互数字人热点问题管理 创建热点问题 4次/秒 3次/秒 3次/秒 查询热点问题列表 20次/秒 10次/秒 10次/秒 查询热点问题详情 20次/秒 10次/秒 10次/秒 修改热点问题 4次/秒 3次/秒 3次/秒 删除热点问题 4次/秒 3次/秒 3次/秒 智能交互数字人热词记录管理 创建热词记录 4次/秒 3次/秒 3次/秒 查询热词记录列表 20次/秒 10次/秒 10次/秒 查询配置热词记录详情 20次/秒 10次/秒 10次/秒 修改热词记录 4次/秒 3次/秒 3次/秒 删除热词记录 4次/秒 3次/秒 3次/秒 修改热词功能开关 4次/秒 3次/秒 3次/秒 查询热词功能开关 20次/秒 10次/秒 10次/秒 智能交互数字人委托管理 查询委托 20次/秒 10次/秒 10次/秒 创建委托 1次/秒 1次/秒 - 删除委托 1次/秒 1次/秒 - 分身形象制作管理 创建分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 查询分身数字人模型训练任务列表 20次/秒 10次/秒 10次/秒 查询分身数字人模型训练任务详情 20次/秒 10次/秒 10次/秒 删除分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 更新分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 租户执行分身数字人模型训练任务命令 10次/秒 3次/秒 3次/秒 声音制作任务管理 创建基础版语音训练任务 10次/秒 3次/秒 3次/秒 创建进阶版语音训练任务 10次/秒 3次/秒 3次/秒 创建高级版语音训练任务 10次/秒 3次/秒 3次/秒 查询语音训练任务列表 20次/秒 10次/秒 10次/秒 提交语音训练任务 10次/秒 3次/秒 3次/秒 查询语音训练任务详情 20次/秒 10次/秒 10次/秒 删除语音训练任务 10次/秒 3次/秒 3次/秒 查询任务操作日志 20次/秒 10次/秒 10次/秒 获取语音文件上传地址 20次/秒 10次/秒 10次/秒 获取语音训练任务审核结果 20次/秒 10次/秒 10次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建 TTS 试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 3D数字人风格管理 查询数字人风格列表 20次/秒 10次/秒 - 3D数字人风格化照片建模 创建照片建模任务 2次/秒 2次/秒 - 照片建模任务列表查询 20次/秒 10次/秒 - 照片建模任务详情查询 20次/秒 10次/秒 - 基于图片URL创建照片建模任务 2次/秒 2次/秒 - 3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务 2次/秒 2次/秒 - 查询视频驱动任务列表 20次/秒 10次/秒 - 查询视频驱动任务详情 20次/秒 10次/秒 - 停止视频驱动任务 2次/秒 2次/秒 - 控制数字人驱动 2次/秒 2次/秒 -
  • SP用户限制 表1 限制说明 限制项 说明 开放范围 SP用户仅对大客户开放申请和使用。 功能范围 SP用户仅支持购买大颗粒度资源包,并分配资源给关联租户使用。 SP用户不支持使用自己购买的资源包,或访问MetaStudio控制台,进行控制台操作。 资源使用限制 SP用户购买形象制作时,不会赠送视频制作时长。 如果用户先购买资源,再申请成为SP用户,那么每个形象制作资源赠送的视频制作时长均会被回收,无法再使用。 父主题: 使用限制