云服务器内容精选
-
制作声音模型 准备好音频文件后,就可以上传至MetaStudio控制台,进行声音训练。详细操作如下所示: 创建声音制作任务(华为模型) 查看声音 声音模型制作耗时,如下所示: 基础版:约1~3个工作日。 进阶版:约1~3个工作日。 高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、 视频直播 或智能交互等场景中。 通过MetaStudio的API调用自定义声音。
-
开始录音 必须录制单人高质量、无噪音或背景音的人声语音,生成音频。支持使用苹果或者安卓手机录制视频,操作请参考手机录制音频。 具体的录音注意事项,如表2所示。 表2 录音注意事项 录音事项 说明 话筒间距 调整与麦克风之间的距离,以一拳距离为宜。不宜离麦太近,防止喷麦或录入呼吸声。 录音内容 每句文案起始数字编号无需阅读。 示例:4. 它不仅拥有出色的功能,还具备卓越的性能,序号4无需阅读。 音频格式 推荐使用无损音质格式保存音频文件,如WAV格式。 原始录音数据,需未经MP3等编码器编码,且为48kHz采样率、16bit编码和单声道。 录制风格 录制全程保持语境风格一致,避免多种情绪混杂。如直播场景时,录制风格需接近日常直播效果。 发音吐字 发音吐字清晰、准确,音量适中。如果出现喷麦或嘶嘶声音,建议当前句子重新录制。 语速节奏 语速自然、平稳,切忌过快过慢、忽快忽慢。 音量适中 音量不能过小、过大、或忽大忽小,甚至削波爆音。峰值 RMS 在-9左右,无削波。 停顿断句 在标点或适当断句处自然停顿,需轻声换气。 当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。
-
录音准备 表1 录音准备 声音类型 录制设备和软件 录音环境 录音文案 基础版 优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。 如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。 同一批录音必须使用同一套录制设备和环境。 建议使用对应版本预置的文案样例:文案样例(基础版)、文案样例(进阶版)、文案样例(高品质)。 支持自定义文案,单句文案长短需和样例相当。 不建议临场即兴发挥录制,避免出现较多嗯、啊等语气词,影响连贯性。 进阶版 高品质 专业录音棚+高保真MIC录制。
-
获取第三方声音使用凭证 下面以 语音合成 套餐为例,进行操作说明。其他声音套餐的操作均相同。 查看用户已购语音合成套餐,获取“用户账号”和“登录密码”,作为在MetaStudio控制台激活第三方声音的使用凭证。 访问云商店买家中心,进入“已购买服务”界面。 可以看到已购买的语音合成套餐信息。 图5 已购买的服务 单击已购买套餐右侧的“资源详情”,进入资源详情界面。 需要记录“用户账号”和“登录密码”,如图6所示。 用途如激活第三方声音使用凭证所示,分别作为accessKey和secretKey,在MetaStudio新增或更新凭证,用于激活第三方声音。 图6 资源详情
-
续购套餐 下面以语音合成套餐为例,进行操作说明。其他声音套餐的操作均相同。 已购语音合成套餐用尽后,须知: 如果使用相同的华为云账号再次购买套餐,则accessKey和secretKey不变。 如果使用其他华为云账号再次购买套餐,则需更新accessKey和secretKey后使用,操作请参考续购套餐。 访问我的声音凭证页面,可以看到已激活的accessKey和secretKey信息。 图12 声音凭证 单击右侧的“编辑”,在弹出“修改序列号”对话框中,输入使用其他华为云账号购买的语音合成套餐用户凭证,如图13所示。 用户凭证的查询方式,如获取第三方声音使用凭证所示。 图13 更新凭证 单击“确认修改”,界面提示“修改成功”。 修改成功后,自动生效,无需重新激活第三方声音。
-
购买语音合成操作流程 如需使用系统预置的第三方声音,需要购买出门问问语音合成套餐包,详细的操作流程如下所示。第三方声音支持的语言类型,如第三方声音支持的语言类型所示。 购买出门问问语音合成套餐包:在云商店购买语音合成套餐包,用于激活和使用出门问问提供的第三方声音。 获取第三方声音使用凭证:查看已购套餐包的“用户账号”和“登录密码”,作为MetaStudio控制台第三方声音使用凭证。 激活第三方声音使用凭证:在MetaStudio控制台新增凭证,输入已购套餐包的“用户账号”和“登录密码”作为使用凭证。 在MetaStudio控制台查看消费明细:支持在MetaStudio控制台查看已购套餐包的消费明细。 续购套餐:如果已购套餐包的用量已耗尽或者套餐包到期,可再次购买套餐包使用。
-
购买出门问问语音合成套餐包 在云商店购买语音合成套餐包,用于激活和使用出门问问提供的第三方声音。 访问云商店语音合成商品页面,进入云商店商品“语音合成”的购买页面。 用户可以在界面下方查看商品详情,确定要购买的商品规格。 支持购买下述套餐: 语音合成体验套餐 语音合成小型套餐 语音合成中型套餐 语音合成大型套餐 上述套餐购买完成后,所有预置的第三方声音均可使用。每个第三方声音的费用均不同,详见语音合成界面下方的声音价格表。如魔郎朗声音的价格为30元/百万字符,那么使用魔郎朗声音进行视频制作合成时,生成音频的费用会从上面购买的套餐包中扣除。 图1 云商店 选择“语音合成体验套餐”,单击“立即购买”,进入购买页面。 下面以购买“语音合成体验套餐”为例,进行操作说明。 图2 订单确认页面 阅读并勾选所有协议和相关授权,单击“去支付”,进入订单支付页面。 图3 订单支付页面 按照界面提示,选择您的付款方式,完成支付即可。 订单支付成功后,进入如图4所示的界面。 图4 订单支付成功
-
富媒体展示效果(SDK默认展示方式) 用户与数字人进行智能交互的页面,富媒体展示效果支持使用SDK提供的默认展示方式。 下述智能交互客户端SDK的两个方法的配置字段enableCaption,默认值均为False,即用户自定义富媒体的展示效果。如果需要使用SDK提供的默认展示效果,需修改参数enableCaption的值为true。 修改create方法中param参数的config配置项,即修改是否显示字幕字段enableCaption的值为true。 await HwI CS UiSdk.create({ serverAddress: 'serverAddress', robotId: 'robotId', onceCode: 'onceCode', containerId: 'containerId', config: { enableCaption: true } }); 修改setConfig方法是否显示字幕的配置项enableCaption的值为true。 HwICSUiSdk.setConfig({ enableCaption: true }); 表1中导入的图片使用SDK默认方式时,在智能交互页面的展示效果,如图1所示。 图1 SDK默认方式展示效果
-
解决方法 单击webm2mov,将视频格式转换小工具webm2mov_20240814.rar下载至本地。 下载过程大约耗时3~5分钟,请耐心等待。 如果用户需要自定义工具,可以获取其源码。 本地解压工具包,得到ffmpeg目录和运行文件webm2mov.exe。 双击webm2mov.exe,弹出如图1所示的界面。 图1 工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。 等待视频格式转换完成。请注意,视频格式转换过程中,一定不能关闭如图2所示的2个窗口。 图2 工具运行界面 视频转换过程中,工具的同级目录下面会出现一些过程文件,请勿移动或删除,待视频格式转换完成后,会自动删除。 图3 工具目录 视频格式转换完成后,WEBM视频文件的同级目录下面会生成一个同名带时间戳的MOV文件。 文件名示例如下所示: 原始频名称:test.webm 转换后的视频名称:test_20240904155004.mov
-
照片数字人限制 照片数字人视频制作限制说明,如表1所示。 表1 照片数字人视频制作限制 照片数字人视频制作配置 限制 人像照片 制作照片数字人的人像照片拍摄要求,如下所示: 真人正面照,不支持动漫卡通形象;面部占比50%以上,侧脸俯仰角度不超过15度。 五官清晰无遮挡,目视前方。 良好的亮度,确保面部细节。 照片内不能出现多张人脸。 人像照片格式要求,如下所示: 支持的格式为:PNG、JPG、JPEG、WEBP。 大小不超过16MB。 分辨率最大支持1080P,如果超出,会自动缩放为1080P。 音频 音频录制要求,如下所示: 单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音频时长。如果超过5分钟,会导致照片数字人制作失败。 父主题: 使用限制
-
直播任务退出说明 直播任务退出说明,如表2所示。 表2 直播任务退出说明 直播任务退出场景 操作说明 租户自行退出直播任务 租户可通过下述方式,退出直播任务。 在MetaStudio控制台开播页面,停止直播任务。 调用结束数字人智能直播任务接口,停止直播任务。 服务自动关停直播任务 下述场景下, 生成的直播视频流没有观看者,服务为保障租户利益,会自动关停直播任务。 在MetaStudio控制台开播,且没有配置RTMP推流时,用户关闭了视频播放窗口一段时间以后,约2~3分钟。 调用API开播,且没有配置RTMP推流时,客户端退出RTC房间一段时间以后,约2~3分钟。 特殊退出场景 如果直播内容涉及安全合规风险,服务运维人员,会通过运维界面,直接冻结直播任务。
-
直播 内容审核 说明 直播内容审核说明,如表4所示。 表4 直播间内容审核说明 内容审核机制 操作说明 直播间内容审核 MetaStudio服务内容审核说明,如下所示: 默认会对直播间的各个配置项,如直播间名称、描述、文本、音频、视频、图片等内容进行机器审核。以排除内容违规风险,避免生成不合法的直播内容。 如果租户已对接其他内容风控系统,且承诺内容风控自行负责,可提交工单申请关闭MetaStudio服务内容审核功能。 如果服务接收到直播内容投诉,按照国家相关部门要求,会冻结违规的直播间及直播任务。情节严重的,还会冻结租户的全部资源。
-
直播播放说明 直播播放说明,如表3所示。 表3 直播播放说明 直播播放配置 操作说明 租户控制直播播放的配置 为保障主播可以截取到完整的直播视频,MetaStudio直播服务提供了控制直播播放的配置。 启动直播前,Console控制台界面,需要去勾选“加载完自动直播”(即配置项“play_policy.auto_play_script”设置为“FALSE”)。启动直播任务后,会等待租户的开始直播指令(如果接口调用的方式,会通过RTSA COMMAND指令发送play_start指令),才会启动直播,否则数字人一直保持静默状态。
-
API流控 数字内容生产线服务对服务端API设置了调用次数限制,避免出现短时间内重复调用API,服务中断的情况。 表1 API流控限制 接口分类 接口名称 单租户接口流控 (华北-北京四) 单租户接口流控 (华东-上海一) 单租户接口流控 (亚太-新加坡) 数字资产管理 创建资产 10次/秒 5次/秒 5次/秒 查询资产列表 20次/秒 10次/秒 10次/秒 更新资产 10次/秒 5次/秒 5次/秒 删除资产 10次/秒 5次/秒 5次/秒 查询资产详情 20次/秒 10次/秒 10次/秒 恢复被删除的资产 10次/秒 5次/秒 5次/秒 批量资产操作 1次/秒 1次/秒 1次/秒 查询资产概要 20次/秒 10次/秒 10次/秒 查询资产复制信息 20次/秒 10次/秒 10次/秒 复制资产 4次/秒 3次/秒 3次/秒 文件管理 创建文件并获取上传URL 10次/秒 5次/秒 5次/秒 删除文件 10次/秒 5次/秒 5次/秒 确认文件已上传 10次/秒 5次/秒 5次/秒 创建大文件 10次/秒 5次/秒 5次/秒 视频制作剧本管理 创建视频制作剧本 10次/秒 5次/秒 5次/秒 查询视频制作剧本列表 20次/秒 10次/秒 10次/秒 查询视频制作剧本详情 20次/秒 10次/秒 10次/秒 更新视频制作剧本 10次/秒 5次/秒 5次/秒 删除视频制作剧本 10次/秒 5次/秒 5次/秒 复制视频制作剧本 10次/秒 5次/秒 5次/秒 数字人视频制作管理 查询视频制作任务列表 20次/秒 10次/秒 10次/秒 分身数字人视频制作管理 创建分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 查询分身数字人视频制作任务详情 20次/秒 10次/秒 10次/秒 取消等待中的分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 数字人名片制作管理 创建数字人名片制作 5次/秒 3次/秒 3次/秒 查询数字人名片制作任务列表 20次/秒 10次/秒 10次/秒 查询数字人名片制作任务详情 20次/秒 10次/秒 10次/秒 更新数字人名片制作 5次/秒 3次/秒 3次/秒 删除数字人名片制作任务 5次/秒 3次/秒 3次/秒 照片数字人视频制作管理 创建照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 查询照片分身数字人视频制作任务详情 20次/秒 10次/秒 10次/秒 取消等待中的照片分身数字人视频制作任务 5次/秒 3次/秒 3次/秒 创建照片检测任务 5次/秒 3次/秒 3次/秒 查询照片检测任务详情 20次/秒 10次/秒 10次/秒 智能直播间管理 创建智能直播间 5次/秒 3次/秒 3次/秒 查询智能直播间列表 20次/秒 10次/秒 10次/秒 查询智能直播剧本详情 20次/秒 10次/秒 10次/秒 更新智能直播间信息 5次/秒 3次/秒 3次/秒 删除智能直播间 4次/秒 3次/秒 3次/秒 创建智能直播间互动规则库 4次/秒 3次/秒 3次/秒 查询智能直播间互动规则库列表 20次/秒 10次/秒 10次/秒 更新智能直播间互动规则库 4次/秒 3次/秒 3次/秒 删除智能直播间互动规则库 4次/秒 3次/秒 3次/秒 直播任务管理 启动数字人智能直播任务 4次/秒 3次/秒 3次/秒 查询某个智能直播间下直播任务列表 20次/秒 10次/秒 10次/秒 查询数字人智能直播任务详情 20次/秒 10次/秒 10次/秒 结束数字人智能直播任务 4次/秒 3次/秒 3次/秒 控制数字人直播过程 4次/秒 3次/秒 3次/秒 查询租户所有数字人直播任务列表 10次/秒 5次/秒 5次/秒 上报直播间事件 4次/秒 3次/秒 3次/秒 直播商品管理 创建商品 4次/秒 3次/秒 3次/秒 查询商品列表 20次/秒 10次/秒 10次/秒 更新商品 4次/秒 3次/秒 3次/秒 查询商品详情 20次/秒 10次/秒 10次/秒 删除商品 4次/秒 3次/秒 3次/秒 商品资产组合配置 4次/秒 3次/秒 3次/秒 智能交互数字人对话管理 创建智能交互对话 5次/秒 3次/秒 - 查询智能交互对话列表 20次/秒 10次/秒 10次/秒 查询智能交互对话详情 20次/秒 10次/秒 10次/秒 更新智能交互对话信息 5次/秒 3次/秒 - 删除智能交互对话 5次/秒 3次/秒 - 智能交互数字人对话任务管理 创建对话链接 5次/秒 3次/秒 - 启动数字人智能交互任务 5次/秒 3次/秒 - 结束数字人智能交互任务 5次/秒 3次/秒 - 查询数字人智能交互任务 20次/秒 10次/秒 10次/秒 智能交互数字人应用管理 创建应用 5次/秒 3次/秒 - 查询应用列表 20次/秒 10次/秒 10次/秒 查询应用详情 20次/秒 10次/秒 10次/秒 修改应用 5次/秒 10次/秒 - 删除应用 5次/秒 3次/秒 - 智能交互数字人鉴权码管理 创建一次性鉴权码 20次/秒 10次/秒 - 智能交互数字人激活码管理 创建激活码 5次/秒 3次/秒 - 查询激活码列表 20次/秒 10次/秒 10次/秒 查询激活码详情 20次/秒 10次/秒 10次/秒 修改激活码 5次/秒 3次/秒 - 重置激活码 5次/秒 3次/秒 - 删除激活码 5次/秒 3次/秒 - 智能交互数字人知识库技能管理 创建知识库技能 4次/秒 3次/秒 3次/秒 查询知识库技能列表 20次/秒 10次/秒 10次/秒 修改知识库技能 4次/秒 3次/秒 3次/秒 查询知识库技能详情 20次/秒 10次/秒 10次/秒 删除知识库技能 4次/秒 3次/秒 3次/秒 导出知识库技能 1次/秒 1次/秒 1次/秒 智能交互数字人知识库意图管理 创建知识库意图 4次/秒 3次/秒 3次/秒 查询知识库意图列表 20次/秒 10次/秒 10次/秒 查询知识库意图详情 20次/秒 10次/秒 10次/秒 修改知识库意图 4次/秒 3次/秒 3次/秒 删除知识库意图 4次/秒 3次/秒 3次/秒 创建知识库意图和问法 4次/秒 3次/秒 3次/秒 智能交互数字人知识库问法管理 创建知识库问法 4次/秒 3次/秒 3次/秒 查询知识库问法列表 20次/秒 10次/秒 10次/秒 查询知识库问法详情 20次/秒 10次/秒 10次/秒 修改知识库问法 4次/秒 3次/秒 3次/秒 删除知识库问法 4次/秒 3次/秒 3次/秒 批量创建知识库问法 1次/秒 1次/秒 1次/秒 批量修改知识库问法 1次/秒 1次/秒 1次/秒 智能交互数字人欢迎词管理 创建欢迎词 4次/秒 3次/秒 3次/秒 查询欢迎词列表 20次/秒 10次/秒 10次/秒 查询欢迎词详情 20次/秒 10次/秒 10次/秒 修改欢迎词 4次/秒 3次/秒 3次/秒 删除欢迎词 4次/秒 3次/秒 3次/秒 修改欢迎词功能开关 4次/秒 3次/秒 3次/秒 查询欢迎词功能开关 20次/秒 10次/秒 10次/秒 智能交互数字人热点问题管理 创建热点问题 4次/秒 3次/秒 3次/秒 查询热点问题列表 20次/秒 10次/秒 10次/秒 查询热点问题详情 20次/秒 10次/秒 10次/秒 修改热点问题 4次/秒 3次/秒 3次/秒 删除热点问题 4次/秒 3次/秒 3次/秒 智能交互数字人热词记录管理 创建热词记录 4次/秒 3次/秒 3次/秒 查询热词记录列表 20次/秒 10次/秒 10次/秒 查询配置热词记录详情 20次/秒 10次/秒 10次/秒 修改热词记录 4次/秒 3次/秒 3次/秒 删除热词记录 4次/秒 3次/秒 3次/秒 修改热词功能开关 4次/秒 3次/秒 3次/秒 查询热词功能开关 20次/秒 10次/秒 10次/秒 智能交互数字人委托管理 查询委托 20次/秒 10次/秒 10次/秒 创建委托 1次/秒 1次/秒 - 删除委托 1次/秒 1次/秒 - 分身形象制作管理 创建分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 查询分身数字人模型训练任务列表 20次/秒 10次/秒 10次/秒 查询分身数字人模型训练任务详情 20次/秒 10次/秒 10次/秒 删除分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 更新分身数字人模型训练任务 10次/秒 3次/秒 3次/秒 租户执行分身数字人模型训练任务命令 10次/秒 3次/秒 3次/秒 声音制作任务管理 创建基础版语音训练任务 10次/秒 3次/秒 3次/秒 创建进阶版语音训练任务 10次/秒 3次/秒 3次/秒 创建高级版语音训练任务 10次/秒 3次/秒 3次/秒 查询语音训练任务列表 20次/秒 10次/秒 10次/秒 提交语音训练任务 10次/秒 3次/秒 3次/秒 查询语音训练任务详情 20次/秒 10次/秒 10次/秒 删除语音训练任务 10次/秒 3次/秒 3次/秒 查询任务操作日志 20次/秒 10次/秒 10次/秒 获取语音文件上传地址 20次/秒 10次/秒 10次/秒 获取语音训练任务审核结果 20次/秒 10次/秒 10次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建 TTS 试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 3D数字人风格管理 查询数字人风格列表 20次/秒 10次/秒 - 3D数字人风格化照片建模 创建照片建模任务 2次/秒 2次/秒 - 照片建模任务列表查询 20次/秒 10次/秒 - 照片建模任务详情查询 20次/秒 10次/秒 - 基于图片URL创建照片建模任务 2次/秒 2次/秒 - 3D数字人语音驱动 创建语音驱动任务 2次/秒 2次/秒 - 获取语音驱动任务列表 20次/秒 10次/秒 - 创建语音驱动表情动画任务 2次/秒 2次/秒 - 获取语音驱动表情数据 20次/秒 10次/秒 - 获取语音驱动数据 20次/秒 10次/秒 - 3D数字人视频驱动 创建视频驱动任务 2次/秒 2次/秒 - 查询视频驱动任务列表 20次/秒 10次/秒 - 查询视频驱动任务详情 20次/秒 10次/秒 - 停止视频驱动任务 2次/秒 2次/秒 - 控制数字人驱动 2次/秒 2次/秒 -
-
SP用户限制 表1 限制说明 限制项 说明 开放范围 SP用户仅对大客户开放申请和使用。 功能范围 SP用户仅支持购买大颗粒度资源包,并分配资源给关联租户使用。 SP用户不支持使用自己购买的资源包,或访问MetaStudio控制台,进行控制台操作。 资源使用限制 SP用户购买形象制作时,不会赠送视频制作时长。 如果用户先购买资源,再申请成为SP用户,那么每个形象制作资源赠送的视频制作时长均会被回收,无法再使用。 父主题: 使用限制
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格