搜索_华为云

执行训练任务（推荐） - AI开发平台ModelArts

根据自己实际需求进行修改。推荐用户使用该方式进行训练。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）断点续训：加载权重+优化器 pt sft ckpt_load_type=0 ckpt_load_type=1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
OOM导致训练作业失败 - AI开发平台ModelArts

如果还存在问题，可能需要提工单进行定位，甚至需要隔离节点修复。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCod

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
数据保护技术 - AI开发平台ModelArts

数据保护技术 ModelArts通过多种数据保护手段和特性，保障存储在ModelArts中的数据安全可靠。数据保护手段说明静态数据保护对于AI Gallery收集的用户个人信息中的敏感信息，如用户邮箱和手机号，AI Gallery在数据库中做了加密处理。其中，加密算法采用了国际通用的AES算法。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

torch.cuda.is_available() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCod

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

processes: p.join() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCod

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

服务韧性韧性特指安全韧性，即云服务受攻击后的韧性，不含可靠性、可用性。本章主要阐述ModelArts服务受入侵的检测响应能力、防抖动的能力、域名合理使用、内容安全检测等能力。安全防护套件覆盖和使用堡垒机，增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

构化稀疏剪枝。 FASP剪枝 FASP剪枝是一种结构化稀疏剪枝方法，能有效降低模型显存以及需要部署的资源依赖，减小推理过程中的计算量，降低增量推理时延，提升吞吐。 FASP (Fast and Accurate Structured Pruning) 一种针对LLM进行结构化剪枝

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

构化稀疏剪枝。 FASP剪枝 FASP剪枝是一种结构化稀疏剪枝方法，能有效降低模型显存以及需要部署的资源依赖，减小推理过程中的计算量，降低增量推理时延，提升吞吐。 FASP (Fast and Accurate Structured Pruning) 一种针对LLM进行结构化剪枝

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

以Ascend Model Zoo为例，介绍如何通过VS Code插件及ModelArts Notebook进行云端数据调试及模型开发。方案优势云端开发调试优势：环境保持一致配置一键完成代码远程调试资源按需使用准备工作下载VS Code IDE，下载路径：开源Visual

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
Standard资源池节点故障定位 - AI开发平台ModelArts

A050933 节点管理容错Failover 当节点具有该污点时，会将节点上容错（Failover）业务迁移走。当节点标记该污点时，会将节点上容错（Failover）业务迁移走。 A050931 训练toolkit 预检容器训练预检容器检测到GPU错误。训练预检容器检测到GPU错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
推理精度测试 - AI开发平台ModelArts

m/vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size，推理时传入的prompts数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用ppl时必须为True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
VS Code手动连接Notebook - AI开发平台ModelArts

ython，在下拉列表中单击“Install”进行安装。图8 安装云端Python插件如果安装云端的Python插件不成功时，建议通过离线包的方式安装。具体操作请参见安装远端插件时不稳定，需尝试多次。 Step4 云上环境依赖库安装在进入容器环境后，可以使用不同的虚拟环境，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
推理精度测试 - AI开发平台ModelArts

vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size, 推理时传入的 prompts 数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用 ppl 时必须为 True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size, 推理时传入的 prompts 数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用 ppl 时必须为 True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
准备模型训练镜像 - AI开发平台ModelArts

具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已有镜像迁移至ModelArts用于训练模型。场景三：当前无可使用的镜像，需要从0制作镜像（既需要安装代码依赖，又需要制作出的镜像满足ModelArts平台约束）。具体案例参考：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
推理精度测试 - AI开发平台ModelArts

m/vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size，推理时传入的prompts数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用ppl时必须为True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
使用CodeLab免费体验Notebook - AI开发平台ModelArts

且系统每隔一段时间，将提醒确认下续期。免费的CodeLab主要用于体验，72小时内未使用，将释放资源。保存在其中的代码文档将丢失，请注意备份文件以及使用时长。 CodeLab入口 ModelArts管理控制台的“总览”页在“开发工具”区域下方，展示“CodeLab”简介卡片，单击“立即体验”，即可进入。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

attention_processor.py 图3 查找diffusers源码包位置找到具体位置后可以cp替换，替换前可对diffusers原始文件做备份，如果没有备份则可以通过删除diffusers包重新安装的方式获取原始文件。执行bash stable_diffusers_train.sh。 bash

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
推理精度测试 - AI开发平台ModelArts

vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size, 推理时传入的 prompts 数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用 ppl 时必须为 True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
推理精度测试 - AI开发平台ModelArts

m/vllm_ppl.py 里是ppl的配置项。由于离线执行推理，消耗的显存相当庞大。其中以下参数需要根据实际来调整。 batch_size，推理时传入的prompts数量，可配合后面的参数适当减少 offline，是否启动离线模型，使用ppl时必须为True tp_size，使用推理的卡数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909）

总条数： 707

上一页
1
...
29
30
31
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务（推荐） - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

VS Code手动连接Notebook - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线