检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单次上传本地文件到OBS的总大小不能超过5GB,详情请参见如何上传超过5GB的大对象。 权重校验 需要选择是否开启权重文件校验。默认是开启的。 当开启权重校验时,平台会对OBS中的权重文件进行校验,确认其是否满足规范。权限校验常见的失败情况及其处理建议请参见权重校验。
如果用户需要永久保存日志,请单击系统日志窗口右上角下载按钮下载日志至本地保存,支持批量下载多节点日志。用户也可以在创建训练作业时打开永久保存日志按钮,保存训练日志至指定OBS路径。
在服务运行时将存储卷以本地目录的方式挂载到计算节点(计算实例),模型或输入数据较大时建议使用。 SFS Turbo: 文件系统名称:选择对应的SFS Turbo极速文件。不支持选择跨区域(Region)的极速文件系统。
save-interval 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
git clone https://github.com/bigscience-workshop/Megatron-DeepSpeed 若git clone失败,可以尝试先下载至本地,然后复制至服务器中,在docker cp至容器中。
权重要求放在磁盘的指定目录,并做目录大小检查,参考命令如下。
权重要求放在磁盘的指定目录,并做目录大小检查,参考命令如下。
IDEA环境中开发工作流,则Session初始化使用如下方式 # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量
以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
创建算法 您在本地或使用其他工具开发的算法,支持上传至ModelArts中统一管理。 创建算法的准备工作。 完成数据准备:已在ModelArts中创建可用的数据集,或者您已将用于训练的数据集上传至OBS目录。 准备训练脚本,并上传至OBS目录。
注意:本地下载文件时配置文件会变成vae_config.json,修改为config.json 图1 下载vae文件夹的内容 下载vgg权重,将下载好的权重放在 ./weights 目录下。
以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
执行如下命令,在本地客户端生成公私钥(一路回车默认即可)。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”(公钥)和“id_rsa”(私钥),可通过如下命令查看: cd ~/.ssh 上传公钥到服务器。
--local-code-dir String 否 算法的代码目录下载到训练容器内的本地路径。 --user-command String 否 自定义镜像执行命令。需为/home下的目录。 当code-dir以file://为前缀时,当前字段不生效。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。
SAVE_INTERVAL 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。