检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
手机录制音频 请根据手机类型,执行相应操作: 苹果手机操作 安卓手机 苹果手机操作 苹果手机推荐下载软件“简易录音机(Easy Voice Recorder)”进行录音,如图1所示。 图1 简易录音机 音频录制说明,如表1所示。 表1 音频录制说明 音频录制 说明 采样率 推荐使用48kHz采样率录制音频。
智能交互设置 直播间页面支持弹幕规则使用“智能交互”的方式,去回复直播间用户的提问。智能交互的方式相当于提供了一个第三方语言模型去答复用户问题。 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频直播”下方的“开始创建”,进入分身数字人直播首页面。 在“直播
单击界面左上角的“服务概览”,进入MetaStudio服务概览页面。 在左侧导航栏中,选择“子账户隔离配置 > 账户设置”,进入“账户设置”页面,如图1所示。 图1 账户设置 参数配置说明,如表1所示。 表1 参数配置 区域 参数 说明 IAM用户设置 IAM子账户隔离能力 支持开启IAM子账号隔离能力。
设置TTS租户级自定义读法配置 功能介绍 该接口用于设置TTS租户级自定义读法配置。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/ttsc/vocabulary-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
分身形象和声音制作的处理方式相同,均需根据实际情况进行处理。下面以形象制作为例,进行说明。 如果当前分身形象制作的素材质量不佳,管理员会通过用户提交训练任务时输入的手机号联系用户。用户可以在管理员驳回任务后重新提交训练视频,进行数字人形象训练。形象制作任务制作完成前,形象制作资源一直处于占用状态,并未真正扣除。 已经
实际配置的为准。 单击“保存”,租户直播配置设置完成。 设置直播中断通知方式 如果用户开启“直播中断通知”,需在“消息接收配置”页面设置相应的通知方式。 单击界面右上角的站内消息图标,浏览器新增打开一个页签,进入“消息中心”页面。 在左侧导航栏中,选择“消息接收管理 > 消息接收配置”。
设置任务批次 功能介绍 用户设置任务批次,该接口用于批量任务管理场景,设置任务的批次 需要开通NA租户权限后才能正常调用 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/voice-training-manage/user/batch 表1 路径参数
录音文案 基础版 优先使用专业录音设备录制音频,推荐使用Adobe Audition软件进行录音。 如果不具备专业录音设备,可使用手机录制音频,详情请参见手机录制音频。 录音环境安静,无回音、混响、噪声,避免出现汽车鸣笛、他人说话、走动等杂声。 可使用“分贝仪”应用来测试录音环境的底噪,建议底噪低于0dB。
需要保持一致。 检查方法如下所示: 本地打开OBS视频采集工具。 在界面上方的导航栏中,选择“文件 > 设置”,弹出“设置”对话框。 在左侧导航栏中,选择“视频”,检查基础分辨率和输出分辨率的取值是否一致。 如果不一致,需要修改为相同的取值。 图1 视频设置 父主题: 视频直播
如果用户在第三方直播平台的直播画面没有声音,需排查是否是OBS工具设置的桌面音频设备与Windows系统的声音输出设备不一致导致。 检查方法如下所示: 检查OBS桌面音频设备 检查Windows系统的声音输出设备 检查OBS桌面音频设备 本地打开OBS视频采集工具。 在界面下方,选择“混音器”。
可以通过调用create接口,设置接口参数param中config里的enableLocalWakeup参数来开启Web语音唤醒能力。 定制唤醒能力 如果客户希望使用体现企业文化的唤醒词,需联系MetaStudio服务支持,技术人员会根据唤醒词定制唤醒模型。唤醒模型的定制周期在5个工作日左右,定制唤醒词的上限为8个。
登录MetaStudio控制台,单击“智能交互”。 在智能交互编辑页面,依次设置角色和背景。 查看界面右侧的“互动问答”页签,,如图1所示。 参数配置说明如表1所示。 图1 创建应用 表1 创建应用 参数 说明 第三方应用 从下拉框中选择“奇妙问”。 应用名称 设置当前智能交互数字人应用的名称。 账号
建议人脸在画面中的占比超过1/5。 15秒静默状态时,需正视镜头,面带微笑,嘴巴闭合,保持静默。 演讲过程中不限制说话的内容,出现失误可直接略过或从错误位置继续说话,无需打断拍摄。 背景尽量维持静态,不能出现规律性或大幅度的背景变化。 画面保持稳定,建议使用手机支架或手机稳定器。
在科大讯飞平台创建应用(星火交互认知大模型) 在科大讯飞AIUI开放平台,创建星火交互认知大模型的应用。 星火交互认知大模型应用,不支持直接切换为AIUI通用语义模型。因为已配置内容不适用,建议参考在科大讯飞平台创建应用(AIUI通用语义模型)单独为其创建应用。 详细操作如下所示
需要保持一致。 检查方法如下所示: 本地打开OBS视频采集工具。 在界面上方的导航栏中,选择“文件 > 设置”,弹出“设置”对话框。 在左侧导航栏中,选择“视频”,检查基础分辨率和输出分辨率的取值是否一致。 如果不一致,需要修改为相同的取值。 图1 视频设置 父主题: FAQ
用户使用视频直播或智能交互接口调用音色时,需要先确认能否在MetaStudio控制台的视频直播间编辑界面或智能交互对话设置页面,选到当前音色。 如果界面正常展示且可以选择此音色使用,说明接口可以正常调用此音色,否则接口无法调用。 API流控 数字内容生产线服务对服务端API设置了调用次数限制,避免出现短时间内重复调用API,服务中断的情况。
女声 基础版媒体1.wav 基础版媒体2.wav 支持手机录制20条语料音频(5分钟),1-3天制作,快速获得类真人音色,mos分3.8。 短视频制作 进阶版声音制作 女声 进阶版媒体1.wav 进阶版媒体2.wav 支持手机录制100条语料音频(15分钟),1-3天制作,获得高还原度音色,mos分4
注意:robotId和taskUrl必须至少设置一个参数。 taskUrl 否 - string 在MetaStudio控制台创建生成的数字人互动任务页面URL。URL获取方式,请参见创建智能交互数字人。 注意:robotId和taskUrl必须至少设置一个参数。 containerId 是
附录 授权书 手机录制音频 客户声音制作案例 第三方平台开播指南 FAQ
及术后注意事项,以代替医生进行医学科普。节省了医生的宝贵时间,使他们可以投放更多精力在诊疗和学习上的同时,也能确保患者获得高质量、专业的医学知识普及,提升整体医疗服务的效率与效果。 广电传媒 在媒资行业,主播通常身兼数职,工作内容繁杂且高压。不仅需要前往现场进行调查和采访,收集第