检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。 如果训练时,
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 本案例介绍如何将本地开发好的MindSpore模型代码,通过PyCharm ToolKit连接到ModelArts进行云上调试和训练。 开始使用样例前,请仔细阅读准备工作罗列的要求,提前完成准备工作。本案例的步骤如下所示:
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String
Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。 表1 ModelArts Lite涉及的资源配额 服务 资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量(MB)
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
remote Remote object 数据实际输出信息。 mode String 数据传输模式,默认为“upload_periodically”。 period String 数据传输周期,默认为30s。 表30 Remote 参数 参数类型 描述 obs RemoteObs
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
|── alpaca_gpt4_data.json # 微调数据文件 在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账
remote Remote object 数据实际输出信息。 mode String 数据传输模式,默认为“upload_periodically”。 period String 数据传输周期,默认为30s。 表29 Remote 参数 参数类型 描述 obs RemoteObs
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在3