检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
suppressed"日志。这个日志只是说明某个IO处理时间超过 1 分钟了,不会造成数据丢失。客户端有重试机制,等峰值过去后,所有IO最终都会正确处理。所以理论上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。 处理方法 结合当前购买的SFS盘性能规划业务, 建议不要运行到性能上限。
创建Standard专属资源池 ModelArts Standard支持公共资源池和专属资源池。 公共资源池:方便快捷,无需创建,创建训练推理任务时直接选择即可。此时,忽略此步骤。 专属资源池:用户独占资源,需要先购买创建。如果使用专属资源池,需要完成此步骤。 创建Standard专属资源池 准备数据(可选)
密钥文件名不能包含中文字符。 图8 选择密钥文件 如果密钥选择错误,则弹出提示信息,请根据提示信息选择正确密钥。 图9 选择正确的密钥文件 当左下角显示如下状态时,代表实例连接成功: 图10 实例连接成功 当弹出如下错误时,代表实例连接失败,请关闭弹窗,并查看OUTPUT窗口的输出日志,请查看FAQ并排查失败原因。
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
elapsed_time Long 执行时间。 error_code String 错误码。 error_detail String 错误详情。 error_msg String 错误信息。 message String 错误信息。 model_id String 模型ID。 model_name
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动,或释放被挂载的NPU。 检查containerd是否安装。
在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
响应Body参数 参数 参数类型 描述 dataset_id String 数据集ID。 error_code String 错误码。 error_msg String 错误信息。 import_task_id String 导入任务ID。 请求示例 创建图像分类的数据集 { "workspace_id"
响应Body参数 参数 参数类型 描述 create_time Long 任务创建时间。 error_code String 错误码。 error_msg String 错误信息。 export_format Integer 导出的目录格式。可选值如下: 1:树状结构。如:rabbits/1
脚本为: cd /cache/code/ python start_train.py 如果训练流程不符合预期,可以在容器实例中查看日志、错误等,并进行代码、环境变量的修正。 预置脚本测试整体流程 一般使用run.sh封装训练外的文件复制工作(数据、代码:OBS-->容器,输出结果:容器-->OBS),run
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志
云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户在创建Notebook的“子目录挂载”路径。若默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志