检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
env_variables 否 Dict 训练作业的环境变量。 pool_id 否 String 训练作业选择的资源池ID。可在ModelArts管理控制台,单击左侧“专属资源池”,在专属资源池列表中查看资源池ID。 表2 TrainingFiles初始化参数说明 参数 是否必选 类型 描述
可加入3个环境变量。 NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就无法启动。 NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。
供安全的网络访问控制策略。安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 subnet_network_id 否 String 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示
保存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1 save-total-limit 0 用于控制权重版本保存次数。 当参数不设置或<=0时,不会触发效果。 参数值需<=TRAIN_ITERS//SAVE_INTERVAL+1 当参数值
fit(inputs=[input_data], job_name=job_name) 多次调试。 上一步执行过程中,训练脚本的日志会实时打印到控制台,如果用户的代码或者参数有误的话,可以很方便的看到。在Notebook中经过多次调试,得到想要的结果后,可以进行下一步。 查询训练支持的计算节点类型和最大个数。
作业时,spec_id必选,且不能与pool_id同时出现。 pool_id 是 String 专属资源池ID。可在ModelArts管理控制台,单击左侧“专属资源池”,在专属资源池列表中查看资源池ID。创建专属池作业时,pool_id必选,且不能与spec_id同时出现。 engine_id
cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String
每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1]
png",Linux格式"/opt/data/test.png"),也可以使用相对路径(如"./test.png")。 在线服务的调用地址和输入参数信息,可以在控制台的“在线服务详情 > 调用指南”页面获取。 “API接口公网地址”即在线服务的调用地址。当模型配置文件中apis定义了路径,调用地址后需
100 \ --eval-iters 10 \ --fp16 开始训练。 本文是单机单卡训练,使用预训练脚本参数控制: GPUS_PER_NODE=1 NNODES=1 NODE_RANK=0 执行以下命令,开始预训练。 nohup sh ./pretrain_gpt2
传训练容器中的日志文件至“作业日志路径” 参数设置的OBS目录中。在作业详情页可以获取“作业日志路径”,单击OBS地址可以直接跳转到OBS控制台查看日志。 图3 日志存放路径 您可以通过ma-pre-start脚本修改默认环境变量配置。 ASCEND_GLOBAL_LOG_LEVEL=3
存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1 save-total-limit -1 用于控制权重版本保存次数。 当参数不设置或<=0时,不会触发效果。 参数值需<=TRAIN_ITERS//SAVE_INTERVAL+1 当参数值
strip() + ' ' + eos_token }}{% endif %}{% endfor %} 创建我的模型 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts
用户将指定路径下已标注的数据导入到数据集中(同时导入标签信息),后续可增加数据集版本发布节点进行版本发布。 数据准备:提前在ModelArts管理控制台,创建数据集,并将已标注的数据上传至OBS中。 from modelarts import workflow as wf # 通过Dat
cluster_time_out:集群组网超时时间,默认是“600s”,可通过环境变量“MSRUN_CLUSTER_TIME_OUT”控制。 rank_table_file:rank table file文件地址,如果配置了环境变量“MS_RANKTABLE_ENABLE="True"”,启动时会增加该参数。
数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TC=128 :使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能会丢包,而且后续的交换机不会支持v1,会导致无法运行。 NCCL_ALGO=RING :nccl_test的总线bandwidth是
${dockerfile_image_name}:在步骤三 构建ModelArts Lite训练镜像中使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <
${dockerfile_image_name}:在步骤三 构建ModelArts Lite训练镜像中使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <
${dockerfile_image_name}:在步骤三 构建ModelArts Lite训练镜像中使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <
当code-dir以file://为前缀时,当前字段不生效。 --pool-id String 否 训练作业选择的资源池ID。可在ModelArts管理控制台,单击左侧“专属资源池”,在专属资源池列表中查看资源池ID。 --train-instance-type String 否 训练作业选择的资源规格。