检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 添加部署上线使用权限。 “策略名称”:设置自定义策略名称,例如:service。 “策略配置方式”:选择JSON视图。 “策略内容”:填入如下内容。 { "Version": "1.1"
在想要开启高可用冗余的节点操作列,单击“更多 > 开启高可用冗余”,设置成功后,该节点高可用冗余列标签变为“启用”。 如果想批量设置节点开启高可用冗余,可勾选多个节点后,单击列表上方的“开启高可用冗余”按钮实现批量开启。 图1 开启高可用冗余能力 图2 高可用冗余节点 资源池内高可用冗余节点的建议比例:
sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题:
控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig object 算法高级策略: auto_search 表3 AlgorithmMetadata 参数 是否必选 参数类型 描述 id 否 Integer 算法uuid,创建算法时无需填写。
1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS
“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 当使用SFS+OBS的存储方案可以实现存储加速,该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts
定的问题,这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。 原因分析 Tensorflow分布式有多种执行模式,mox会通过4次执行50 step记录执行时间,选择执行时间最少的模型。 处理方法 创建训练作业时,在“运行参数”中增加参
sh ./scripts/obs_pipeline.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题:
控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig object 算法高级策略: auto_search 表3 AlgorithmMetadata 参数 是否必选 参数类型 描述 id 否 Integer 算法uuid,创建算法时无需填写。
型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图5 SFS类型和容量选择 CCE集群关联SFS Turbo 进入已购买创建的CCE集群,选择存储,随后单击“创建存储卷声明PVC”。 选择“极速文件存储”,随后输入PVC名称。 选择“新建存储卷PV”,并单击“选择极速文件存储”。
Notebook中的EVS存储可以使用套餐包吗? 无法使用套餐包。 父主题: 计费FAQ
您可以通过如下两种方式将训练的模型迁移到其他账号。 将训练好的模型下载至本地后,上传至目标账号对应区域的OBS桶中。 通过对模型存储的目标文件夹或者目标桶配置策略,授权其他账号进行读写操作。详请参见配置高级桶策略。 父主题: 查看作业详情
'NoneType' object has no attribute 'dtype'” 日志提示“No module name 'unidecode'” 分布式Tensorflow无法使用“tf.variable” MXNet创建kvstore时程序被阻塞,无报错 日志出现ECC错误,导致训练作业失败
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题:
Notebook中的EVS存储可以使用套餐包吗? 无法使用套餐包。 父主题: 计费相关
ECS服务器挂载SFS Turbo存储 本小节介绍如何在ECS服务器挂载SFS Turbo存储,挂载完成后可在后续步骤中,将训练所需的数据通过ECS上传至SFS Turbo。 前提条件 已创建SFS Turbo,如果未创建,请参考创建文件系统。 数据及算法已经上传至OBS,如果未
egorical features)吗 模型可视化作业中各参数的意义? 如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? 如何查询自定义镜像的cuda和cudnn版本? Moxing安装文件如何获取? 如何使用soft NMS方法降低目标框堆叠度 多节
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题:
JupyterLab默认工作路径是什么? 带OBS存储的Notebook实例 JupyterLab文件默认存储路径,为创建Notebook时指定的OBS路径。 在文件列表的所有文件读写操作都是基于所选择的OBS路径下的内容操作的,跟当前实例空间没有关系。如果用户需要将内容同步到实