搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSMultiTurnHandler] 示例值需要根据数据集的不同，选择其一。 Gen

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSInstructionHandler] 示例值需要根据数据集的不同，选择其一。 Ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
非分离部署推理服务 - AI开发平台ModelArts

16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。 --tensor-parallel-siz

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

添加入方向规则在浏览器地址栏输入http://<弹性公网IP>:9090，即可打开Prometheus监控浏览页面。单击Graph菜单，在输入框输入任意一个指标名称即可看到Prometheus收集到的指标数据：父主题：监控Lite Cluster资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
身份认证与访问控制 - AI开发平台ModelArts

IAM为用户组配置细粒度授权策略，使用户获得策略定义的权限，操作对应云服务的资源。基于策略授权时，管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。委托授权为了完成AI计算的各种操作，ModelArts在AI计算

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示"Permission denied" - AI开发平台ModelArts

v1训练作业环境变量迁移v2说明： v1的DLS_TASK_NUMBER环境变量，可以使用v2的MA_NUM_HOSTS环境变量替换，即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量，当前可以使用v2的VC_TASK_INDEX环境变量替换，下一步使用MA_TASK_INDEX替换，建议使用demo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
使用CodeLab免费体验Notebook - AI开发平台ModelArts

CodeLab支持CPU和GPU两种规格，在右侧区域，单击切换规格，修改规格类型。图3 切换规格资源监控。在使用过程中，如果想了解资源使用情况，可在右侧区域选择“Resource Monitor”，展示“CPU使用率”和“内存使用率”。图4 资源监控分享副本到AI Gallery。单击右上角的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
创建Workflow模型注册节点 - AI开发平台ModelArts

否 str、Placeholder model_version 模型的版本，格式需为“数值.数值.数值”，其中数值为1-2位正整数。该字段不填时，版本号自动增加。注意：版本不可以出现例如01.01.01等以0开头的版本号形式。否 str、Placeholder runtime

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
附录：训练常见问题 - AI开发平台ModelArts

occurred : ('copy_d2d:build/xxx NPU function error” 错误截图：报错原因：开启虚拟内存导致，虚拟内存不兼容某些训练场景如PPO、基于lora微调增量训练等解决措施：关闭虚拟内存使用历史版本demo.sh启动训练时，任务前容器中执行以下命令：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。请根据实际修改。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
创建节点池 - AI开发平台ModelArts

可选值如下： 0：不自动续费，默认值 1：自动续费 os.modelarts/promotion.info 否 String 用户在运营平台选择的折扣信息。 os.modelarts/service.console.url 否 String 订购订单支付完成后跳转的url地址。 os

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler, MOSSInstructionHandler] 示例值需要根据数据集的不同，选择其一。 Ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
ModelArts入门实践 - AI开发平台ModelArts

Gallery中的数据集资产，让零AI基础的开发者使用ModelArts Standard的自动学习功能完成“物体检测”AI模型的训练和部署。依据开发者提供的标注数据及选择的场景，无需任何代码开发，自动生成满足用户精度要求的模型。 ModelArts Standard开发环境使用ModelArts VS C

帮助中心 > AI开发平台ModelArts > 快速入门
训练启动脚本说明和参数配置 - AI开发平台ModelArts

"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-13b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
创建数据处理任务版本 - AI开发平台ModelArts

create_version 否 Boolean 创建任务时是否同步创建一个任务版本。可选值如下： true：创建任务时同步创建一个任务版本 false：创建任务时不创建任务版本（默认值） data_source 否 ProcessorDataSource object 数据来源，与inputs二选一。 description

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
非分离部署推理服务 - AI开发平台ModelArts

16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。 --tensor-parallel-siz

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

的华为方技术支持。适配的CANN版本是cann_8.0.rc2，驱动版本是23.0.5。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格，只有llama3-8B/70B支持该功能。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练作业容错检查 - AI开发平台ModelArts

-retry-num”字段，视为开启自动重启，value的范围可以设置为1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0，表示不做重新下发作业，也不会启用环境检测。图6 设置API 检测项目与执行条件检测项目 item（日志关键字）执行条件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Standard支持的AI框架 - AI开发平台ModelArts

不同区域支持的AI引擎有差异，请以实际环境为准。推理支持的AI引擎在ModelArts创建模型时，如果使用预置镜像“从模板中选择”或“从OBS中选择”导入模型，则支持如下常用引擎及版本的模型包。标注“推荐”的Runtime来源于统一镜像，后续统一镜像将作为主流的推理基础镜像

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍

总条数： 1030

上一页
1
...
45
46
47
...
52
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建数据处理任务版本 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线