检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。 使用ModelArts Standard控制台的创建训练作业页面设置自动重启: 用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启,表示不做重新下发作业,也不会启用环境检测。打开开关后,允许设置重启次数为1~128次。
png中也可以使用可视化工具TrainingLogParser查看loss收敛情况,将trainer_log.jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图)
png中也可以使用可视化工具TrainingLogParser查看loss收敛情况,将trainer_log.jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图)
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4
将模型部署为在线服务 参考部署为在线服务将模型部署为在线服务。 在线服务创建成功后,您可以在服务详情页查看服务详情。 您可以通过“预测”页签访问在线服务。 父主题: 制作自定义镜像用于推理
dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 id String 待创建Notebook实例的镜
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4
28。版本使用的容器引擎为Containerd。 镜像适配的Cann版本是cann_8.0.rc3,驱动版本是23.0.6。 确保集群可以访问公网。 文档更新内容 6.3.911版本相对于6.3.910版本新增如下内容: 文档中新增在数据预处理时,支持LLama-Factory格式的模板:
/llm_inference/ascend_vllm/ 执行以下命令制作推理镜像。安装过程需要连接互联网git clone,请确保机器可以访问公网。 nerdctl --namespace k8s.io build -t <镜像名称>:<版本名称> --build-arg BAS
auto_stop字段数据结构说明所示。 annotations Map<String,String> 注解信息。 其中,生成的url信息,不可直接访问使用。 failed_reasons Object 创建、启动失败失败原因,如表16所示。 extend_params Map<String
png中也可以使用可视化工具TrainingLogParser查看loss收敛情况,将trainer_log.jsonl文件长传至可视化工具页面,如图2所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图)
可选值如下: false:不删除源文件(默认值) true:删除源文件(注意:此操作可能影响已使用这些文件的数据集版本或其他数据集,导致页面展示异常或者训练/推理异常) samples 否 Array of strings 样本ID列表。 响应参数 状态码: 200 表3 响应Body参数
VOC格式的XML标注文件以及Mask图像。 导出数据为新数据集 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,选择“图片”类型的数据集,单击数据集名称进入“数据集概览页”。 在“数据集概览页”,单击右上角“导出 ”。在弹出的“导
VOC格式的XML标注文件以及Mask图像。 导出数据为新数据集 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 在数据集列表中,选择“图片”类型的数据集,单击数据集名称进入“数据集概览页”。 在“数据集概览页”,单击右上角“导出 ”。在弹出的“导
"Effect": "Allow" } ] } 在子用户所属用户组中添加该自定义策略权限。 在用户组页面,单击子用户所属用户组的名称,进入用户组详情页。 图5 进入用户组详情 在授权记录页签下,单击“授权”,选择您刚才创建的自定义策略及授权方案。
数据特征分析 登录ModelArts管理控制台,在左侧菜单栏中选择“资产管理>数据集”,进入“数据集”管理页面。 选择对应的数据集,单击操作列的“更多 > 数据特征”,进入数据集概览页的数据特征页面。 您也可以在单击数据集名称进入数据集概览页后,单击“数据特征”页签进入。 由于发布后的数据集
-R /home/ma-user/.vscode-server/bin/$commitId 关闭VS Code,重新从Notebook实例列表页面打开VS Code(注意:需要关闭本地vscode,不然可能会报多个安装进程正在运行中)。 父主题: VS Code连接开发环境失败常见问题
/llm_inference/ascend_vllm/ 执行以下命令制作推理镜像。安装过程需要连接互联网git clone,请确保机器可以访问公网。 nerdctl --namespace k8s.io build -t <镜像名称>:<版本名称> --build-arg BAS
镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本:2.2.0 Python版本:3.10 确保容器可以访问公网。 仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址
镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本:2.2.0 Python版本:3.10 确保容器可以访问公网。 仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址