检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"local_path=/xxx/yyy/zzz;read_only=false;nfs_server_path=xxx.xxx.xxx.xxx:/" 示例:基于ModelArts预置镜像提交训练作业 指定命令行options参数提交训练作业 ma-cli ma-job submit --code-dir
configure --runtime=docker systemctl restart docker 验证Docker模式环境是否安装成功。 基于PyTorch2.0镜像验证(本案例中镜像较大,拉取时间可能较长)。 docker run -ti --runtime=nvidia --gpus
CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message String 镜像保存操作过程中,构建信息展示。 support_res_categories
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表12所示。
要负责保护自己的数据和应用程序,以及遵守相关的合规性要求。 具体而言,云服务提供商应该提供以下服务和功能: 建立和维护安全的基础设施,包括网络、服务器和存储设备等。 提供安全的底层基础平台,保证底层环境的运行时安全。 提供安全的身份验证和访问控制机制,以确保只有授权用户可以访问云服务,保证租户之间的相互隔离。
shm 无 大于1GB 磁盘空间-/cache目录 disk-size cache 无 大于32GB ulimit检查 ulimit 使用IB网络时 max locked memory > 16000 open files > 1000000 stack size > 8000 max
录。在训练任务调测的情况下,必须是notebook中的目录,不能是OBS目录。 boot_file:必选参数,训练启动文件路径,路径格式为基于code_dir目录的相对路径,如实例代码中boot_file的完整路径为/home/ma-user/work/cifar10/train/test-pytorch
20180919_114746.jpg”,那么标注文件的文件名应为“IMG_20180919_114746.xml”。 图像分割的标注文件基于PASCAL VOC格式增加了字段mask_source和mask_color,格式详细说明请参见表4。 示例: ├─dataset-import-example
pool参数说明 参数 参数类型 描述 id String 资源池ID。 name String 资源池名称。 type String 资源池类型。主要区分类型:USER_DEFINED,表明为专属资源池。 owner Object 当“type”为“USER_DEFINED”时是必选项。如表18所示。
如果命令未按照下图完整输出(比如命令报错或只输出了上半部分没有展示下面的进程信息),则需要先尝试恢复npu-smi工具(提交工单联系华为云技术支持),将npu-smi恢复后,再进行新版本的固件驱动安装。 图4 检查npu-smi工具 查看环境信息。执行如下命令查看当前拿到的机器的固件和驱动版本。
CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message String 镜像保存操作过程中,构建信息展示。 support_res_categories
“inference_params.json”文件的参数请参见表4。该参数会显示在部署推理服务页面,在“高级设置”下会新增“参数设置”,基于配置的推理参数供模型使用者修改自定义镜像的部署参数。 表4 自定义推理参数说明 参数名称 说明 name 参数名称,只能包含英文、数字、下划线。
登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备> 数据标注”,进入“数据标注”管理页面。 在标注作业列表右侧“所有类型”页签下拉选择标注类型。基于“标注类型”选择需要进行标注的标注作业,单击标注作业名称进入标注作业标注详情页。 图1 下拉选择标注类型 在标注作业标注详情中,展示此标注作业下全部数据。
erro*”。 标签 展示服务已添加的标签。支持添加、修改、删除标签。 标签详细用法请参见ModelArts如何通过标签实现资源分组管理。 Cloud Shell 允许用户使用ModelArts控制台提供的CloudShell登录运行中在线服务实例容器,详情请见使用CloudShell调试在线服务实例容器。
具在Lite Cluster集群内直接采集监控指标数据,具体参见使用Prometheus查看Lite Cluster监控指标章节。 本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标 登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。
s/user-job-dir”。 工作目录 训练时,系统会自动cd到此目录下执行启动文件。 选择预置框架+自定义时,该功能的后台行为与直接基于预置框架运行训练作业相同,例如: 系统将会自动注入一系列环境变量 PATH=${MA_HOME}/anaconda/bin:${PATH}
在Notebook中使用自定义镜像创建Notebook并调试,调试成功后,保存镜像。 在Notebook中使用自定义镜像创建Notebook操作请参见基于自定义镜像创建Notebook实例。 保存Notebook镜像操作请参见保存Notebook镜像环境。 已有的镜像调试成功后,再使用ModelArts训练模块训练作业。