检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器插件nvidia-container-toolkit未安装 安装容器插件nvidia-container-toolkit docker无法挂载GPU卡 本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败
测试时需要执行mpirun的节点到hostfile中的节点间有免密登录,设置SSH免密登录方法如下: 客户端生成公私钥。 执行如下命令,在本地客户端生成公私钥(一路回车默认即可)。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”(公钥)
--working-dir String 否 运行算法时所在的工作目录。 --local-code-dir String 否 算法的代码目录下载到训练容器内的本地路径。 --user-command String 否 自定义镜像执行命令。需为/home下的目录。 当code-dir以file://为前缀时,当前字段不生效。
ma_container_notebook_cache_dir_size_bytes GPU和NPU类型的Notebook会在“/cache”目录上挂载一块高速本地磁盘,该指标描述该目录的总大小。 字节(Bytes) ≥0 NA NA NA Notebook cache目录利用率 ma_contain
非必填。表示训练step迭代次数,会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_IT
非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_IT
非必填。表示训练step迭代次数,根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时,保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_IT
Gallery进行交流,停止实例(实例停止后CPU、Memory不再计费)等,提升用户体验。 支持SSH远程连接功能:通过SSH连接启动实例,在本地调试就可以操作实例,方便调试。 预置镜像支持功能开发:基于ModelArts预置镜像进行依赖安装配置后,保存为自定义镜像,能直接在ModelArts用于训练作业。
个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir 生成ranktable文件如下(假设本地主机ip为10.**.**.18)。 global_ranktable_10.**.**.18.json # global rank_table
个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir 生成ranktable文件如下(假设本地主机ip为10.**.**.18)。 global_ranktable_10.**.**.18.json # global rank_table
个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir 生成ranktable文件如下(假设本地主机ip为10.**.**.18)。 global_ranktable_10.**.**.18.json # global rank_table
个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir 生成ranktable文件如下(假设本地主机ip为10.**.**.18)。 global_ranktable_10.**.**.18.json # global rank_table