检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSMultiTurnHandler] 示例值需要根据数据集的不同,选择其一。 Gen
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSInstructionHandler] 示例值需要根据数据集的不同,选择其一。 Ge
16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --tensor-parallel-siz
添加入方向规则 在浏览器地址栏输入http://<弹性公网IP>:9090,即可打开Prometheus监控浏览页面。单击Graph菜单,在输入框输入任意一个指标名称即可看到Prometheus收集到的指标数据: 父主题: 监控Lite Cluster资源
IAM为用户组配置细粒度授权策略,使用户获得策略定义的权限,操作对应云服务的资源。基于策略授权时,管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。 委托授权 为了完成AI计算的各种操作,ModelArts在AI计算
v1训练作业环境变量迁移v2说明: v1的DLS_TASK_NUMBER环境变量,可以使用v2的MA_NUM_HOSTS环境变量替换,即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量,当前可以使用v2的VC_TASK_INDEX环境变量替换,下一步使用MA_TASK_INDEX替换,建议使用demo
CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图4 资源监控 分享副本到AI Gallery。单击右上角的
否 str、Placeholder model_version 模型的版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。该字段不填时,版本号自动增加。 注意: 版本不可以出现例如01.01.01等以0开头的版本号形式。 否 str、Placeholder runtime
occurred : ('copy_d2d:build/xxx NPU function error” 错误截图: 报错原因:开启虚拟内存导致,虚拟内存不兼容某些训练场景如PPO、基于lora微调增量训练等 解决措施:关闭虚拟内存 使用历史版本demo.sh启动训练时,任务前容器中执行以下命令:
表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。请根据实际修改。 RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler
可选值如下: 0:不自动续费,默认值 1:自动续费 os.modelarts/promotion.info 否 String 用户在运营平台选择的折扣信息。 os.modelarts/service.console.url 否 String 订购订单支付完成后跳转的url地址。 os
表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSInstructionHandler] 示例值需要根据数据集的不同,选择其一。 Ge
Gallery中的数据集资产,让零AI基础的开发者使用ModelArts Standard的自动学习功能完成“物体检测”AI模型的训练和部署。依据开发者提供的标注数据及选择的场景,无需任何代码开发,自动生成满足用户精度要求的模型。 ModelArts Standard开发环境 使用ModelArts VS C
"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-13b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler
create_version 否 Boolean 创建任务时是否同步创建一个任务版本。可选值如下: true:创建任务时同步创建一个任务版本 false:创建任务时不创建任务版本(默认值) data_source 否 ProcessorDataSource object 数据来源,与inputs二选一。 description
"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值:[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler
16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。 --tensor-parallel-siz
的华为方技术支持。 适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
-retry-num”字段,视为开启自动重启,value的范围可以设置为1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0,表示不做重新下发作业,也不会启用环境检测。 图6 设置API 检测项目与执行条件 检测项目 item(日志关键字) 执行条件
不同区域支持的AI引擎有差异,请以实际环境为准。 推理支持的AI引擎 在ModelArts创建模型时,如果使用预置镜像“从模板中选择”或“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。 标注“推荐”的Runtime来源于统一镜像,后续统一镜像将作为主流的推理基础镜像