搜索_华为云

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置【旧】训练tokenizer文件说明断点续训和故障快恢说明父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备环境准备代码准备镜像环境 DockerFile构建镜像（可选）准备数据（可选）父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练参数配置说明【旧】训练tokenizer文件说明断点续训和故障快恢说明父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误工作负载Pod异常 mc2融合算子报错父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
执行训练任务 - AI开发平台ModelArts

执行训练任务执行训练任务（推荐）执行训练任务（历史版本）父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

者账户信息，按照提示输入即可。这里推荐使用Personal Access Token授权方式，如果出现密码失效报错请参考git插件密码失效如何解决？图10 提交代码至GitHub仓库完成上述操作后，可以在JupyterLab的git插件页面的History页签，看到“orig

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
推理性能测试 - AI开发平台ModelArts

├── requirements.txt # 第三方依赖目前性能测试已经支持投机推理能力。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在Step3 制作推理镜像步骤中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
启动Notebook实例 - AI开发平台ModelArts

存储容量，EVS默认5G，EFS默认50G，最大限制4096G。 category String 支持的存储类型。不同存储类型的差异，详见开发环境中如何选择存储。枚举值如下： SFS：弹性文件服务 EVS：云硬盘 mount_path String 存储挂载至Notebook实例的目录，当

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
语言模型推理性能测试 - AI开发平台ModelArts

# 执行静态、动态性能评测脚本 ├── requirements.txt # 第三方依赖静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：上传代码包和权重文件中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

├── requirements.txt # 第三方依赖目前性能测试已经支持投机推理能力。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤四制作推理镜像步骤中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况约束限制训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

7.6（PyTorch自带，无需关心） pytorch version : 1.X.X-cu102 CUDA Compatibility如何使用？当CUDA 10.2与低版本GPU驱动（440.33以下）配合使用时，可能会出现兼容问题，此时需要使用CUDA Compatibi

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
查询开发环境实例列表 - AI开发平台ModelArts

START_QUEUING，免费资源启动排队中 READY_TO_START，免费资源等待启动 STARTING，启动中 RESTARTING，重启中 START_FAILED，启动失败 RUNNING，运行中 STOPPING，停止中 STOPPED，停止 UNAVAILABLE，故障

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
标注物体检测数据 - AI开发平台ModelArts

标注物体检测数据物体检测之前，首先需考虑如何设计标签，标签设计需要对应所检测图片的明显特征，并且选择的标签比较容易识别（画面主体物与背景区分度较高），每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后，基于设计好的标签准备该图片的数据，每种需识别出的标签，建议应

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
语言模型推理性能测试 - AI开发平台ModelArts

├── requirements.txt # 第三方依赖目前性能测试已经支持投机推理能力。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤四制作推理镜像步骤中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
更新服务配置 - AI开发平台ModelArts

包括predictor configs结构和transformer configs 服务配置，不设置此参数时，表示不更新。关于configs如何生成，请参见部署在线服务。更新服务配置时，存在以下约束：参数status指定的目标状态不允许和当前服务状态相同。当前服务状态是dep

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

是，则修改安全组的配置，具体操作请参见修改安全组规则。否，则继续下一步。确认SFS Turbo是否存在异常。新建一个和SFS Turbo在同一个网段的ECS，用ECS去挂载SFS Turbo，如果挂载失败，则表示SFS Turbo异常。是，联系SFS服务的技术支持处理。否，联系ModelArts的技术支持处理。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明

总条数： 1341

上一页
1
...
59
60
61
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练脚本说明 - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

标注物体检测数据 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线