检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framew
gz",需要替换为1中pytorch.tar.gz在OBS上的路径(需将文件设置为公共读)。 进入Dockerfile目录,通过Dockerfile构建镜像命令: # cd 到Dockerfile所在目录下,输入构建命令 # docker build -t ${image_name}:${image_version}
自定义镜像的使用流程 托管自定义镜像,操作步骤请参考托管模型到AI Gallery。 如果自定义镜像要支持训练,则需要满足自定义镜像规范(训练)。 如果自定义镜像要支持推理,则需要满足自定义镜像规范(推理)。 上架自定义镜像,操作步骤请参考发布模型到AI Gallery。 在AI Gallery进行自定义镜像训练或推理。使用AI
${container_name} sdxl-train:0.0.1 步骤二 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 步骤三 在宿主机上传镜像到SWR 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中复制临时登录指令,即可完成登录。
要是指图片的位置和标注信息等),可以直接使用这个output.manifest文件创建数据集,或者把output.manifest文件导入到已经存在的数据集中。 物体检测 在输出目录下,文件结构如下所示。 output_path/ --Data/ ----1_checked
如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。 步骤二 修改训练yaml文件配置 Lla
如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。 步骤二 修改训练yaml文件配置 Lla
如果在准备代码和数据阶段已经上传权重文件、自定义数据集,可以忽略此步骤。 未上传训练权重文件,具体参考上传代码和权重文件到工作环境。 使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。 步骤二:修改训练yaml文件配置 Lla
预置框架启动文件的启动流程说明 ModelArts Standard训练服务预置了多种AI框架,并对不同的框架提供了针对性适配,用户在使用这些预置框架进行模型训练时,训练的启动命令也需要做相应适配。 本章节详细介绍基于不同的预置框架创建训练作业时,如何修改训练的启动文件。 Asc
中,请勿输入敏感信息,如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间,包括部署和启动时间。默认值为20分钟,输入值必须在3到120之间。 “运行日志输出” 默认关闭,批量服务的运行日志仅存放在ModelArts日志系统,在服务详情页的“日志”支持简单查询。 如果开
准备一台Linux环境,这里以ECS为例。 在ECS中构建镜像(本文档提供了Dockflie样例文件)。 将构建的镜像推到SWR。 注册SWR镜像到ModelArts。 创建Notebook并验证新镜像。 准备Docker机器并配置环境信息 准备一台具有Docker功能的机器,如果没有,
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
创建专属资源池(不需要打通VPC) 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练 本地构建镜像及调试 上传镜像 上传数据和算法到OBS 使用Notebook进行代码调试 创建单机单卡训练作业 监控资源 本地构建镜像及调试 本节通过打包conda env来构建环境,也可以通过pip
使用SDK调测单机训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改6和10中的framework_type参数值即可,例如:MindSpore框架,此处framework_
分组条件键对应值。 表3 get_job_list返回参数说明 参数 参数类型 描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的限制量。最小为1,最大为50。
创建AI应用 功能介绍 导入元模型创建AI应用。 执行代码、模型需先上传至OBS(训练作业生成的模型已默认存储到OBS)。 接口约束 使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数,非模
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用
响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的每页条目数。最小为1,最大为50。
# 替换为实际使用的镜像 业务负载和自定义指标采集可以共用一个容器,也可以由SideCar容器采集指标数据,然后将自定义指标采集容器指定到SideCar容器,这样可以不占用业务负载容器的资源。 自定义指标数据格式 自定义指标数据的格式必须是符合open metrics规范的文本,即每个指标的格式应为:
4b" mox.file.copy_parallel(obs_dir, local_dir) 实际操作如下图所示。 图1 上传OBS文件到Notebook的代码示例 Step3 启动推理服务 配置需要使用的NPU卡为容器中的第几张卡。例如:实际使用的是容器中第1张卡,此处填写“0”。