检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多机必填,单机忽略。节点序号,当前节点ID,一般从0开始,单机默认是0。以8机训练为例,节点ID依次为(0 1 2 3 4 5 6 7);一般ID为0的节点设置为主节点IP。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录。训练的权重文件保存在此路径下。默认值为:/home/ma-user/ws。
必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/w
session 是 Object 会话对象,初始化方法请参考Session鉴权。 offset 否 Integer 查询作业的偏移量,最小为0。例如设置为1,则表示从第二条开始查。 limit 否 Integer 查询作业的限制量。最小为1,最大为50。 sort_by 否 String
with_execution_id 表示创建目录时是否拼接execution_id,默认为“False”。该字段只有在create_dir为True时才支持设置为True。 否 bool 使用示例如下: 实现InputStorage相同的能力 import modelarts.workflow as
若显存较低可以调整batch_size保证正常运行,改为8或者更小。 本次训练step为1000,训练时间较长,可以改为500。 如开启deepspeed训练时,需要设置参数checkpointing_steps>max_train_steps(严格大于),否则会报错。 父主题: AIGC模型训练推理
多机必填,单机忽略;节点序号,当前节点ID,一般从0开始,单机默认是0。以8机训练为例,节点ID依次为(0 1 2 3 4 5 6 7);一般ID为0的节点设置为主节点IP。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录。训练的权重文件保存在此路径下。默认值为:/home/ma-user/ws。
|──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
关的初始化工作,首次推理时间较长,请耐心等待。 Step6 使用图模式功能(可选) 将Ascend节点开启switch_torchair,设置值为true。 图9 图模式开关 按Step5 服务调用中步骤4正常推理即可,由于图模式编译过程耗时久,请耐心等待。SD1.5预估编译约10分钟,SDXL预估编译约30分钟。
input_shape="images:-1,3,640,640" ge.dynamicDims="1;8;16" 其中input_shape中的-1表示设置动态batch,ge.dynamicDims表示支持的batch值,上面的配置表示输入模型shape支持[1,3,640,640],[8,3
String 模型来源的类型,当前仅可取值auto,用于区分通过自动学习部署过来的模型(不提供模型下载功能);用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型,取值为:TensorFlow/MXNet/Spark_MLlib/S
CLI配置工具下载文件,如果在资产详情页有“复制完整资产名称”按钮即表示该资产支持使用Gallery CLI配置工具下载,如图1所示。 图1 复制完整资产名称 “运行平台”设置为“Pangu Studio”的数据集,不支持使用CLI工具下载。 下载Gallery CLI配置工具包(本地) 如果是在本地服务器安装Gallery
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。 响应参数 状态码: 202 表3 响应Body参数 参数 参数类型 描述 kind String
指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引。 如果需要分页,请设置“page”参数值为“1”。 默认“page”参数值为“0”,不支持分页。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
问题:使用TrainingLogParser工具解析训练日志中loss数据,坐标栏空白,未显示数据走势曲线。 解决方法:在解析工具页面右侧,单击日志文件名右边的设置图标,在弹出的窗口中修改Loss Tag。将字符串loss加上单引号,改为'loss': ,如图1所示。 图1 修改Loss Tag 父主题:
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
问题:使用TrainingLogParser工具解析训练日志中loss数据,坐标栏空白,未显示数据走势曲线。 解决方法:在解析工具页面右侧,单击日志文件名右边的设置图标,在弹出的窗口中修改Loss Tag。将字符串loss加上单引号,改为'loss': ,如图1所示。 图1 修改Loss Tag 父主题:
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
新建密钥对”创建新的密钥。 说明: 如果选择使用已有的密钥,请确保您已在本地获取该文件,否则,将影响您正常登录裸金属服务器。 密码 指使用设置初始密码方式作为裸金属服务器的鉴权方式,此时,您可以通过用户名密码方式登录裸金属服务器。 Linux操作系统时为root用户的初始密码,W