检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权
离线训练安装包准备说明 在华为公有云平台,申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下
准备模型训练镜像 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。 训练作业的预置框架介绍
添加流程变量界面 图2 流程编排示例 保存并发布流程。 选择“智能机器人”,将流程绑定机器人。 选择“智能机器人”,在对应机器人的最后一列单击“呼叫测试”,在弹出的测试对话窗口中单击“开始呼叫”,测试机器人。机器人自动回答流程编排中的变量值表示配置成功。 父主题: 图元
查看训练作业日志 训练日志定义 训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
"ZA1AQ5E2": -0.063217 } } 单击“快速验证”,如图3所示。 右侧“返回结果”区域,返回在线推理结果。 图3 快速验证 父主题: 使用模型训练服务快速训练算法模型
的值。 静态语音 当“机器人回复图元”的回复方式为“静态放音”时,需要使用此处配置的资源,目的是直接使用服务器上的语音文件,此处的配置仅为语音内容参考。 不支持配置参数变量,且您需要先将与模板名称同名的语音文件上传到UAP的文件服务器上。 视频文件 当“机器人回复图元”的回复方式
使用ModelArts时,用户数据需要存放在自己OBS桶中,但是训练代码运行过程中不能使用OBS路径读取数据。 原因: 训练作业创建成功后,由于在运行容器直连OBS服务进行训练性能很差,系统会自动下载训练数据至运行容器的本地路径。所以,在训练代码中直接使用OBS路径会报错。例如训练代码的OBS路径为obs://b
闲聊:机器人返回闲聊匹配的答案。 技能:机器人调用技能返回答案。 文档问答:机器人返回匹配的文档答案。 表格问答:机器人返回匹配的表格答案。 图谱问答:机器人返回匹配的图谱答案。 问答机器人在运营一段时间后,CBS服务将记录用户提问和机器人返回的详细日志,方便管理员查看机器人实时的问答效果。 系统记录的问答日志如图1所示。
您可以定期查看机器人的统计数据和运营数据,并根据数据情况提出解决方案,如补充知识库、管理词典等措施,来提升对话机器人的体验效果。当前对话机器人服务提供了数据总览功能方便用户查看问答数据。 数据总览界面入口: 进入对话机器人服务管理控制台,在左侧菜单栏中选择“智能问答机器人”。在机器人列表
Finetune训练 本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能。 启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh
json文件里业务接口中的请求url、存储过程中的数据库url需联系管理员配置白名单,否则导入失败。 父主题: 配置一个预约挂号机器人(任务型对话机器人)
配置智能机器人 概述 配置一个预约挂号机器人(任务型对话机器人) 添加问答型对话机器人 其他操作 相关参考 常见问题 父主题: 机器人管理配置指南
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练实验 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标
单位:分钟 默认值:30 “30” 如何查看训练环境变量 在创建训练作业时,“启动命令”输入为“env”,其他参数保持不变。 当训练作业执行完成后,在训练作业详情页面中查看“日志”。日志中即为所有的环境变量信息。 图1 查看日志 父主题: 管理模型训练作业
GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 1 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。对应训练参数 pipe
问答机器人不会的问题,系统会每天整理提醒吗 会。在未解决问题界面,可以看到未回答的问题。 父主题: 智能问答机器人
添加灰度规则 操作步骤 选择“配置中心>机器人管理>流程配置”,进入流程配置界面。 选择“系统管理 > 灰度规则”,在“灰度规则”页签单击“新建”。 如下所示配置灰度规则的号码段,单击“确定”完成配置。 父主题: 配置一个预约挂号机器人(任务型对话机器人)
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
训练服务 训练服务简介 算法管理 训练任务 模型评测 编译管理 推理服务