检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
目前只支持在专属资源池中使用;针对探索、实验等非正式生产场景,建议使用这种。开发环境和训练环境可以同时挂载一块SFS存储,省去了每次训练作业下载数据的要求,一般来说重IO读写模型,超过32卡的大规模训练不适合。 实现为NFS,可以在多个开发环境、开发环境和训练之间共享,如果不需要重型分布式训
use_beam_search 否 False Bool 是否使用beam_search替换采样。 约束与限制:使用该参数时,如下参数需按要求设置: n>1 top_p = 1.0 top_k = -1 temperature = 0.0 presence_penalty 否 0
法的性能加速。算法计算总耗时减少了,所以用公式算出来的总线带宽也增加了。理论上Tree算法是比Ring算法更优的,但是Tree算法对网络的要求比Ring高,计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算,但用来测试性能不太合适。因此,会出现两节
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件
SchedulePolicy 参数 是否必选 参数类型 描述 required_affinity 否 RequiredAffinity object 训练作业亲和要求 priority 否 Integer 训练作业优先级 preemptible 否 Boolean 是否可以被抢占(tag:hcs) 表52
SchedulePolicy 参数 参数类型 描述 required_affinity RequiredAffinity object 训练作业亲和要求 priority Integer 训练作业优先级 preemptible Boolean 是否可以被抢占(tag:hcs) 表55 RequiredAffinity
SchedulePolicy 参数 参数类型 描述 required_affinity RequiredAffinity object 训练作业亲和要求 priority Integer 训练作业优先级 preemptible Boolean 是否可以被抢占(tag:hcs) 表54 RequiredAffinity
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件
SchedulePolicy 参数 参数类型 描述 required_affinity RequiredAffinity object 训练作业亲和要求 priority Integer 训练作业优先级 preemptible Boolean 是否可以被抢占(tag:hcs) 表57 RequiredAffinity
用户自身用户组的授权策略的授权范围,如果配置不当就会出现用户越权的问题。 为了控制委托授权的越权风险,ModelArts服务的权限管理功能要求只有租户管理员才能为用户配置委托,由管理员保证委托授权的安全性。 委托授权的最小化 管理员在配置委托授权时,应严格控制授权的范围。 Mod
steps=[job_step], storages=[storage] ) Workflow不会自动获取训练输出的指标信息,要求用户自行在算法代码中获取指标信息并且按照指定的数据格式构造出metrics.json文件,自行上传到MetricsConfig中配置的OB
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件