云服务器内容精选

  • 富媒体展示效果(SDK默认展示方式) 用户与数字人进行智能交互的页面,富媒体展示效果支持使用SDK提供的默认展示方式。 下述智能交互客户端SDK的两个方法的配置字段enableCaption,默认值均为False,即用户自定义富媒体的展示效果。如果需要使用SDK提供的默认展示效果,需修改参数enableCaption的值为true。 修改create方法中param参数的config配置项,即修改是否显示字幕字段enableCaption的值为true。 await HwI CS UiSdk.create({ serverAddress: 'serverAddress', robotId: 'robotId', onceCode: 'onceCode', containerId: 'containerId', config: { enableCaption: true } }); 修改setConfig方法是否显示字幕的配置项enableCaption的值为true。 HwICSUiSdk.setConfig({ enableCaption: true }); 表1中导入的图片使用SDK默认方式时,在智能交互页面的展示效果,如图1所示。 图1 SDK默认方式展示效果
  • MetaStudio有哪些计费项? MetaStudio的计费项分为分身数字人费用、3D数字人费用和资产管理费用三类。 分身数字人费用:包括分身数字人形象制作、声音制作、分身数字人视频制作、分身数字人 视频直播 、照片数字人视频制作和分身数字人名片制作的费用。 3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。 MetaStudio的计费详情,请参考计费说明。 父主题: 计费咨询
  • 解决方法 方法一:通过剪映将H265(HEVC)视频的格式转码为H264,再上传至MetaStudio控制台,进行形象制作。 详细操作如下所示: 方法二:通过ffmpeg将H265(HEVC)视频的格式转码为H264,再上传至MetaStudio控制台,进行形象制作。 详细操作如下所示: 输入命令行:ffmpeg -i 视频文件名 -c:v libx264 output.mp4。示例: ffmpeg -i .\test.mp4 -c:v libx264 output.mp4。
  • 问题原因 由于Chrome等浏览器只支持硬解码H265(HEVC)视频,当您的PC硬件不支持解码H265(HEVC)视频时,Chrome等浏览器将无法播放H265(HEVC)视频,并获取不到视频分辨率等参数。 在Chrome浏览器中输入“chrome://gpu”后,搜索“coding”。可以检查当前PC的浏览器是否支持H265(HEVC)视频解码。 图2 查看浏览器配置 用ffmpeg检查视频的编码是否是H265(HEVC),输入命令:ffmpeg -i 视频文件名。 图3 检查视频是否是hevc编码 需要先安装ffmpeg,安装方法如下。 ffmpeg下载地址:https://github.com/BtbN/FFmpeg-Builds/releases。 ffmpeg解压后,将其下bin目录加入系统环境变量。 输入命令行ffmpeg后可以显示版本号,说明安装成功。
  • 解决方法 单击webm2mov,将视频格式转换小工具webm2mov_20240814.rar下载至本地。 下载过程大约耗时3~5分钟,请耐心等待。 如果用户需要自定义工具,可以获取其源码。 本地解压工具包,得到ffmpeg目录和运行文件webm2mov.exe。 双击webm2mov.exe,弹出如图1所示的界面。 图1 工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。 等待视频格式转换完成。请注意,视频格式转换过程中,一定不能关闭如图2所示的2个窗口。 图2 工具运行界面 视频转换过程中,工具的同级目录下面会出现一些过程文件,请勿移动或删除,待视频格式转换完成后,会自动删除。 图3 工具目录 视频格式转换完成后,WEBM视频文件的同级目录下面会生成一个同名带时间戳的MOV文件。 文件名示例如下所示: 原始频名称:test.webm 转换后的视频名称:test_20240904155004.mov
  • 第三方平台的直播画面突然中断是怎么回事? 可能是MetaStudio控制台自动退出登录导致。 排查和修改方法,如下所示: 在MetaStudio控制台直播间开播成功时,需要参考图1,单击URL地址右侧的拦截图标,从下拉框中选择允许弹出窗口。 图1 直播间开播 单击“完成”,会新增弹出如图2和图3所示的2个浏览器窗口。 MetaStudio控制台超过10分钟不操作,默认会退出登录,导致第三方直播平台的直播画面也中断。需要确保图3的窗口始终是打开的,直播过程中一定不能关闭,这样第三方直播平台的直播才能顺利完成。 图2 直播窗口 图3 确保直播过程不中断的窗口 父主题: 视频直播
  • 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频制作”下方的“开始创建”。 进入视频制作界面,界面详情如视频制作界面说明-图1所示。操作说明如下所示: 视频素材区域,除了系统预置素材外,角色还可以自定义新增分身数字人,背景、PPT、贴图、视频和音乐还可以从本地导入使用。 从视频素材区域添加到画布区域中的PPT、贴图、视频和数字人支持进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。 可以单击画布区域上方的图标,切换视频画面比例为横屏“16:9”或竖屏“9:16”。 Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。 需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。 Flexus视频制作:必须使用Flexus形象,声音使用不受限制。 按视频制作时长计费,计费项为“Flexus分身数字人视频制作”,详见计费说明。 系统声音和Flexus声音免费使用。第三方声音的计费方式,详见购买出门问问 语音合成 套餐包。 标准版视频制作:必须使用标准版形象,声音不支持使用Flexus声音。 按视频制作时长计费,计费项为“分身数字人视频制作”,详见计费说明。 系统声音免费使用。第三方声音的计费方式,详见购买出门问问语音合成套餐包。 画布制作完成后,再制作语音。 支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图1 文本驱动 文本内容的操作说明如表1所示。 表1 操作说明 操作 说明 插入停顿 将鼠标放在需要停顿的文字右侧,单击“插入停顿”。在弹出的提示框中,选择“换气”或者停顿的时间,也支持自定义停顿时长。 连读 选中需要连读的文本内容,单击“连读”。 多音字 选中文本中的多音字,单击“多音字”,在弹出的提示框中,选择正确的发音或者自定义发音。 须知: 这里设置的多音字,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。 别名 选中需要通过别名播报的文本内容 ,单击“别名”,设置为实际播报的内容。 须知: 这里设置的别名,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。 数字英文 示例数字“1024”的读法如下所示: 数字:一零二四 数值:一千零二十四 日期:十月二十四 电话:幺零二四 示例英文“API”的读法如下所示: 字母:API 单词:api 音标 选中英文单词,输入合适的音标。 局部语速 选中需要变速播报的文本,设置局部语速。 取值范围[0.5x,2x],含义如下所示: 0.5x:0.5倍速播报,即减速播报。 2x:2倍速播报,即加速播报。 全局语速 设置全局语速。 取值范围[0.5x,2x],含义如下所示: 0.5x:0.5倍速播报,即减速播报。 2x:2倍速播报,即加速播报。 音色设置 单击音色名称,在弹出的声音对话框中,选择需要的声音。 无标注的系统声音,均为免费声音,可直接选用。 标注有“第三方”的声音,需要购买激活后才能使用,操作请参考购买出门问问声音套餐。 带有标识的为Flexus声音,仅支持搭配Flexus数字人使用。如果视频为标准版形象,不支持选择Flexus声音进行视频合成。 试听 单击“试听”,试听语音效果。 生成预览 单击“生成预览”,选择“当前场景”或者“所有场景”,生成预览视频,可预览视频生成后的效果。 图标 单击图标,放大展示“文本驱动”页签,提升用户操作体验。 单击“确定”,可关闭页面。 图标 调整视频播报的音量。 图标 单击图标可开启字幕展示,并可在画布左侧设置字幕的字体、大小和位置等。 “音频驱动”方式目前仅支持中文普通话的场景开启字幕。 图标 展示当前视频的宽高比。 图标 第一次单击可折叠“文本驱动/视频驱动”,第二次单击后恢复展示。 音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。 可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的图标,可试听音频效果。如果音频效果不佳,可以单击“导入”,覆盖更新音频。 图2 音频驱动 音频制作完成后,可单击音量图标,调整音频的音量。 上述操作全部完成后,第一个场景的视频内容已制作完成。 如果还需要制作更多场景,可单击“场景”区域的“+”图标,新增场景。制作过程参考第一个场景即可。 如果视频内容是分享PPT,可在“PPT”页签,先从本地导入PPT,再插入需要分享的PPT页,详情请参见PPT。每页PPT会对应生成一个场景,依次设置完成所有场景即可。 所有场景设置完成后,单击界面右上角的“合成视频”,弹出“合成设置”对话框。 参数设置说明如下所示: 分辨率:根据实际情况,选择视频的分辨率。 导出为:输入导出文件的名称。 画质增强:开启后将提升视频清晰度,合成时间相应变长。请根据实际情况确定是否开启。 单击“确定”,弹出“视频制作任务中心”对话框。 可查看视频合成任务的进度,直至合成成功。 单击“合成成功”状态右侧的图标,进入视频详情页面,如图3所示。 单击“预览”,可以看到合成的视频。预览过程中,可全屏播放,或下载视频到本地。 图3 视频详情 如果用户对合成的视频不满意,可以参考下述步骤,进行二次制作,重新合成。 在左侧导航栏中,选择“工作台”。 在“最近项目”区域,选择“视频项目”页签后,右侧页签选择“视频草稿”,查看视频草稿列表,如图4所示。 图4 视频项目 将鼠标移至卡片的文字描述区域,单击“编辑视频”,如图5所示。 进入 视频编辑 界面,更新视频内容,重新合成视频。 图5 我的视频
  • 在科大讯飞创建同名技能后,导入技能文件 执行本操作前,需要在科大讯飞平台完成账号注册操作。 访问科大讯飞的AIUI开放平台。 单击界面上方的“技能工作室”。进入“技能控制台”页面,如图7所示。 图7 技能控制台 单击“创建技能”,弹出如图8所示的对话框。 参数配置说明,如下所示: 技能名称:技能名称。必须与MetaStudio服务创建的技能一一对应,如6所示。为方便识别和记忆,两边的技能名称可以设置成一样的。 技能标识:需要与MetaStudio服务新能技能的“技能标识”一致,如6所示。 图8 创建技能 输入完成后,单击“创建”。 界面提示“创建成功”,并自动跳转至“意图”页面,如图9所示。 图9 意图页面 单击“批量操作”,从下拉框中选择“批量覆盖”,在弹出的确定对话框中,单击“确定覆盖”。 从本地选择MetaStudio服务中导出的技能文件,如10所示。界面提示“批量覆盖成功”,效果如图10所示。 图10 意图页面 单击界面右上方的“构建技能”,开始构建技能。 界面提示“构建成功”,说明技能构建成功。 在左侧导航栏中,单击“发布”。进入“发布”页面,如图11所示。 图11 发布页面 确认信息无误后,单击“发布上线”。 界面提示“发布成功”,说明技能发布完成。
  • 操作步骤 在界面上方的主菜单中,单击“我的应用”。 单击应用所在行的图标,进入当前应用的“应用配置”页面。 在左侧导航栏中,单击“服务统计”,进入“服务统计”页面,如图1所示。 通过下图可以看出,科大讯飞免费赠送500次/天的问答交互。 图1 服务统计页面 单击“剩余(次数)”“500”下方的“提升交互次数”,可以按照界面提示完成实名认证,并购买相应的套餐包,以提升问答交互次数。 图2 购买IUI服务
  • 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频直播”下方的“开始创建”,进入分身数字人直播首页面。 在“直播管理”页签,单击“创建直播间”,进入视频直播制作界面。 选择“互动设置”,单击右侧的“设置”,弹出“智能交互”对话框,如图1所示。 参数配置说明,如表1所示。 图1 智能交互设置 表1 参数说明 参数 说明 应用 请先参考后续步骤5,创建完成应用后,再从下拉框中选择此应用。 弹幕触发间隔时间 取值范围[-1,120],单位:秒。 取值含义如下所示: -1:只触发1次。 0:一直触发。 其他数值:同一条弹幕规则重复触发的间隔时间,每条规则的触发时间互不影响。 默认值:120。 用户入场触发间隔时间 取值范围[-1,120],单位:秒。 取值含义如下所示: -1:只触发1次。 0:一直触发。 其他数值:同一条达到互动条件的用户入场规则重复触发的间隔时间,每条规则的触发时间互不影响。 默认值:120。 点赞触发间隔时间 取值范围[-1,120],单位:秒。 取值含义如下所示: -1:只触发1次。 0:一直触发。 其他数值:同一条点赞规则重复触发的间隔时间,每条规则的触发时间互不影响。 默认值:120。 送礼触发间隔时间 取值范围[-1,120],单位:秒。 取值含义如下所示: -1:只触发1次。 0:一直触发。 其他数值:同一条送礼规则重复触发的间隔时间,每条规则的触发时间互不影响。 默认值:120。 单击“去设置”,弹出“智能交互”对话框,如图2所示。 需要创建智能交互应用,详细的参数配置说明如表2所示。 图2 智能交互 表2 创建应用 参数 说明 第三方应用 选择“第三方语言模型”。 应用名称 用户根据实际情况自定义即可。 APPID MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPID信息。 APPKEY MetaStudio服务对接第三方语言模型LLM时,需要LLM提供的APPKEY信息。 第三方语言模型地址 MetaStudio服务对接第三方语言模型LLM时,需要按照MetaStudio服务定义的接口参数格式(详见智能交互第三方LLM回调接口),开发LLM接口,由MetaStudio服务调用此接口,实现智能交互能力。 这里配置的是MetaStudio服务调用第三方语言模型的API地址。 流式响应 MetaStudio智能交互服务提供流式问答(响应更快)和非流式问答两种方式,第三方语言模型可以选择其中一种响应方式。 多轮语境理解能力 配置数值越高,问答请求携带的历史对话个数越多,语境理解能力更强。 配置说明,如下所示: 如果设置为“1”,则问答请求时,不支持携带历史会话。 如果设置为非“1”,则问答请求时,携带历史会话。示例:取值为“3”时,问答请求中会携带1个最新问题,和历史最新的2个问题,共计3个问题。其他数值的配置效果,以此类推。 对话内容合规审核 开启后,将自动审核用户的提问内容,若问题存在违禁词,系统将自动拦截返回默认答案。如果关闭,将无法审核用户提问是否合规。 单击“确定”,智能交互应用创建完成。
  • 文本 文本界面详情,如图6所示。 图6 文本界面 文本界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。 插入文本 将鼠标放在文本上方,文本右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 在左侧的“文本设置”界面,设置文本内容和字体样式,如图7所示。 在视频直播画面预览区域,如果存在多种视频直播素材,支持对文本进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。 图7 文本设置
  • 视频 视频界面详情,如图4所示。 图4 视频界面 视频界面说明,如表4所示。 表4 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择MOV、MP4、M4V、MKV、FLV、3GP、WMV或AVI格式的视频文件上传。 也支持直接拖拽本地视频文件至视频列表区域,完成上传操作。 界面默认展示两列视频,单击图标后,缩小展示为1列视频。单击图标,可恢复为2列展示。 关键词搜索框,可输入视频名称进行精准搜索。 示例:营销视频。 筛选条件 支持通过视频来源的维度,筛选展示下方的视频。 视频列表 默认展示全量视频。 查看视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,可查看视频。 插入视频 将鼠标放在视频上方,视频右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 插入的视频播放的时候默认无声音,仅有画面。 在视频直播画面预览区域,如果存在多种视频素材,支持对视频进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 商品 商品界面详情,如图5所示。 图5 商品界面 商品界面说明,如表5所示。 表5 界面元素说明 界面元素 说明 创建商品 单击“创建商品”,弹出“创建商品”对话框,参考商品管理配置商品信息。 也可直接参考商品管理,新增商品。 单击图标后,商品界面缩小展示。单击图标,可恢复为默认展示。 商品列表 默认展示全量商品。 插入素材 单击商品中的“插入素材”,下方展示当前商品已有的贴图、视频、文本、音频内容。 需要选中具体的素材,单击“+”图标,将选中素材添加至当前场景的直播画面中。 支持编辑商品,操作如下所示: 单击图标,选择一种素材类型,新增素材。 单击图标,删除不用的素材。 在视频直播画面预览区域,如果存在多种视频直播素材,支持对素材进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。
  • 背景 背景界面详情,如图2所示。 图2 背景界面 背景界面说明,如表2所示。 表2 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG和JPEG格式的图片上传。暂不支持4K以上的图片。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:科技。 筛选条件 支持通过背景、风格和布局的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。选中场景,单击图片,可以替换当前场景的背景。 将鼠标放在图片上方,图片右上角展示图标。单击图标,可以将当前图片作为背景替换至所有场景。
  • 贴图 贴图界面详情,如图3所示。 图3 贴图界面 贴图界面说明,如表3所示。 表3 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择PNG、JPG、JPEG和BMP格式的图片上传。 也支持直接拖拽本地图片至图片列表区域,完成上传操作。 界面默认展示两列图片,单击图标后,缩小展示为1列图片。单击图标,可恢复为2列展示。 关键词搜索框,可输入图片名称进行精准搜索。 示例:小贴士。 筛选条件 支持通过贴图来源的维度,筛选展示下方的图片。 图片列表 默认展示全量图片。 查看贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,可查看大图。 插入贴图 将鼠标放在图片上方,图片右上角展示图标。单击图标,添加至当前场景的视频直播画面中。 在视频直播画面预览区域,如果存在多种视频素材,支持对贴图进行图层管理,如:上移一层、下移一层、置顶、置底、复制、应用到全局、删除等。还支持设置大小,拖动位置。