检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
t_hccl.json,获取方式可以通过预置的RANK_TABLE_FILE环境变量实现。 表1 RANK_TABLE_FILE环境变量说明 环境变量 说明 RANK_TABLE_FILE 该环境变量指示Ascend HCCL RANK_TABLE_FILE文件所在目录,值为/user/config。
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
ts提供自定义镜像功能支持用户自定义运行引擎。 ModelArts底层采用容器技术,自定义镜像指的是用户自行制作容器镜像并在ModelArts上运行。自定义镜像功能支持自由文本形式的命令行参数和环境变量,灵活性比较高,便于支持任意计算引擎的作业启动需求。 在制作自定义镜像的时候,
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
04,通过编写Dockerfile文件制作自定义镜像。 目标:构建安装如下软件的容器镜像,并在ModelArts平台上使用CPU/GPU规格资源运行训练作业。 ubuntu-18.04 cuda-11.1 python-3.7.13 openmpi-3.0.0 操作流程 使用自定义镜像创建训练作业时,需
enterprise_project_id String 企业项目ID。 update_time Integer 最后修改时间,UTC。 create_time Integer 创建时间,UTC。 enterprise_project_name String 企业项目名称。 name String
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env | grep RANK
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
/usr/local/Ascend /usr/local/Ascend # 设置容器镜像预置环境变量 # 请务必设置 CANN 相关环境变量 # 请务必设置 Ascend Driver 相关环境变量 # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH=
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明
“输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量 单击“增加环境变量”,在增加的环境变量填写框中,按照表1表格中的配置进行填写。 图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明