检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911)
开发Workflow命令参考 开发Workflow的核心概念介绍 配置Workflow参数 配置Workflow的输入输出目录 创建Workflow节点 构建Workflow多分支运行场景 编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力 父主题:
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.909)
结束时间,需要与开始时间一起传入。 level 否 String 指定返回的事件级别,取值范围[Info Error Warning]。 pattern 否 String 指定事件信息包含的内容,最长256个字符。 source 否 String 指定返回的事件来源,取值范围为[K8S Job Task]。
MoXing 使用MoXing复制数据报错 如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 训练作业使用MoXing复制数据较慢,重复打印日志
@modelarts:color String 内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 @modelarts:default_shape String 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下: bndbox:矩形。
可以基于保存的镜像创建训练作业。 message String 镜像创建的时间,UTC毫秒。 create_time Long 镜像保存操作过程中,展示构建信息。 请求示例 如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。
error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 请求示例 如下以停止“job_id”为10,“version_id”为10的作业版本为例。 POST htt
750 /home/ma-user 排查密钥是否是和实例绑定的一致。 停止实例,进入实例详情页。 更新密钥:单击“认证”旁边的编辑按钮,然后单击“立即创建”创建并选择新密钥。 重新使用VS Code连接实例,选择新创建的密钥。 父主题: VS Code连接开发环境失败故障处理
TmsTagForDelete objects 要删除的标签列表。 表3 TmsTagForDelete 参数 是否必选 参数类型 描述 key 是 String TMS标签的key。 value 否 String TMS标签的value,非必填。 响应参数 无 请求示例 DELETE
like ["conversation_id", "text"]. 对于csv、xlsx文件,平台会根据训练类型的不同,将其转为Alpaca格式或MOSS格式,选择预期的数据类型无效。 父主题: Studio
Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code Server on Host”,选择出问题的实例进行自动清除,然后重新进行连接。 图1 清除异常的实例 父主题: VS Code连接开发环境失败故障处理
训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map
description 否 String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。 响应参数 无 请求示例 如下以修改uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。修改成功后再调用查询训练作业接口即可看到description已被修改。
job_id 是 Long 训练作业的ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。 方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本
给子账号配置部署上线基本使用权限 给子账号配置查看所有Notebook实例的权限 管理员和开发者权限分离 不允许子账号使用公共资源池创建作业 委托授权ModelArts云服务使用SFS Turbo 给子账号配置文件夹级的SFS Turbo访问权限 父主题: Standard权限管理
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.909)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)