检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文档适配昇腾云ModelArts 6.3.907版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称 获取路径
5时,condition_lt的计算结果为True,此时model_step会被置为跳过,反之model_step正常执行。 job_step输出的metric文件格式要求可参考创建Workflow训练作业节点部分,并且在Condition中只支持使用type为float类型的指标数据作为输入。 此案例中metrics
WebUI套件用于推理的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买DevServer资源。 本方案目前仅适用于企业客户。 资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B单机单卡。 获取软件 获取插件代码包ascendcloud-aigc-6
use_beam_search 否 False Bool 是否使用beam_search替换采样。 约束与限制:使用该参数时,如下参数需按要求设置: n>1 top_p = 1.0 top_k = -1 temperature = 0.0 presence_penalty 否 0
model_step跳过;反之job_step_retrain跳过,model_step执行。 job_step输出的metric文件格式要求可参考创建Workflow训练作业节点部分,并且在Condition中只支持使用type为float类型的指标数据作为输入。 此案例中metrics
tebook操作请参见配置本地IDE(PyCharm ToolKit连接)。 在本地IDE的终端运行如下命令进行环境准备。Python版本要求:3.7.x或以上版本。 rm modelarts*.whl wget -N https://cn-north-4-training-test
在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考步骤一:创建网络章节。 IPv6网络 开启IPv6功能。如果开启了此功能,要求资源池绑定的网络也开启IPv6功能,网络开启IPv6可以参考步骤一:创建网络章节。该功能一旦开启,将不能关闭。 默认规格 CPU架构 CP
copy_parallel(local_data_dir, obs_data_dir) 模型推荐的参数与NPU卡数设置 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型
use_beam_search 否 False Bool 是否使用beam_search替换采样。 约束与限制:使用该参数时,如下参数需按要求设置: n>1 top_p = 1.0 top_k = -1 temperature = 0.0 presence_penalty 否 0
use_beam_search 否 False Bool 是否使用beam_search替换采样。 约束与限制:使用该参数时,如下参数需按要求设置: n>1 top_p = 1.0 top_k = -1 temperature = 0.0 presence_penalty 否 0
法的性能加速。算法计算总耗时减少了,所以用公式算出来的总线带宽也增加了。理论上Tree算法是比Ring算法更优的,但是Tree算法对网络的要求比Ring高,计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算,但用来测试性能不太合适。因此,会出现两节
目前只支持在专属资源池中使用;针对探索、实验等非正式生产场景,建议使用这种。开发环境和训练环境可以同时挂载一块SFS存储,省去了每次训练作业下载数据的要求,一般来说重IO读写模型,超过32卡的大规模训练不适合。 实现为NFS,可以在多个开发环境、开发环境和训练之间共享,如果不需要重型分布式训
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件
用户自身用户组的授权策略的授权范围,如果配置不当就会出现用户越权的问题。 为了控制委托授权的越权风险,ModelArts服务的权限管理功能要求只有租户管理员才能为用户配置委托,由管理员保证委托授权的安全性。 委托授权的最小化 管理员在配置委托授权时,应严格控制授权的范围。 Mod
steps=[job_step], storages=[storage] ) Workflow不会自动获取训练输出的指标信息,要求用户自行在算法代码中获取指标信息并且按照指定的数据格式构造出metrics.json文件,自行上传到MetricsConfig中配置的OB
env来构建环境,也可以通过pip install、conda install等方式安装conda环境依赖。 容器镜像的大小建议小于15G,详细的自定义镜像规范要求请参见训练作业自定义镜像规范。 建议通过开源的官方镜像来构建,例如PyTorch的官方镜像。 建议容器分层构建,单层容量不要超过1G、文件
SchedulePolicy 参数 是否必选 参数类型 描述 required_affinity 否 RequiredAffinity object 训练作业亲和要求 priority 否 Integer 训练作业优先级 表47 RequiredAffinity 参数 是否必选 参数类型 描述 affinity_type