搜索_华为云

如何定位Workflow运行报错 - AI开发平台ModelArts

检查运行过程中输入的内容是否正确，格式是否与提示信息中要求的一致。根据具体报错信息定位到报错的代码行，分析上下文逻辑。历史SDK包常见的报错如下服务部署节点运行报错输入服务相关的参数后，执行报错如下：解决方案以上两种常见报错均可通过升级最新的SDK包解决。父主题： Standard Workflow

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Workflow
msprobe梯度监控 - AI开发平台ModelArts

csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个Step相似度不比对结果。详细工具的使用指导请参考梯度状态监控工具介绍。父主题： msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
训练场景和方案介绍 - AI开发平台ModelArts

本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

实例，选择要使用的AI框架。具体参见创建Notebook实例。创建成功后，Notebook实例的状态为“运行中”，单击操作列的“打开”，访问JupyterLab。图2 打开Notebook实例进入JupyterLab页面后，自动打开Launcher页面，如下图所示。您可以使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
VS Code ToolKit连接Notebook - AI开发平台ModelArts

输入如下用户登录信息，单击“登录”。 Name：自定义用户名，仅用于VS Code页面展示，不与任何华为云用户关联。 AK、SK：在“账号中心 > 我的凭证 > 访问密钥”中创建访问密钥，获取AK、SK（参考链接）。选择站点：此处的站点必须和远程连接的Notebook在同一个站点，否则会导致连接失败。登录成功后显示Notebook实例列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
训练场景和方案介绍 - AI开发平台ModelArts

908版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

benchmark对接结果输出示例图为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark精度测试，具体使用方式参考Tailor指导文档。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备W8A8权重 - AI开发平台ModelArts

ll.sh。 cd msit/msmodelslim bash install.sh 执行install过程会下载依赖包，因此需要确保能够访问到pip源。进入到msit/msmodelslim/example/DeepSeek目录，执行转换命令。 BF16权重路径是${path

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
发布技术文章（AI说） - AI开发平台ModelArts

输入技术文章的标题。 2 选择技术文章所属分类。 3 输入摘要信息。 4 编辑技术文章的内容。右侧可以选择使用“富文本编辑器”或“markdown”方式编辑内容，也可上传附件，支持rar，zip，doc，docx，xls，xlsx，ppt，pptx，pdf，txt格式的附件，单个附件大小不超过20M，最多可传5个附件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
查询模型列表 - AI开发平台ModelArts

指定排序字段，可选“create_at”、“model_version”、“model_size”，默认是可选“create_at”。 order 否 String 排序方式，可选“asc”或“desc”，代表递增排序及递减排序，默认是“desc”。 workspace_id 否 String 工作空间ID，默认为“0”。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8.0.rc2。确保容器可以访问公网。训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型序号支持模型支持模型参数量 1 llama2 llama2-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

开通自动续费后，专属资源池会在每次到期前自动续费，避免因忘记手动续费而导致资源被自动删除。在一个包年/包月专属资源池生命周期的不同阶段，您可以根据需要选择一种方式进行续费，具体如图1所示。图1 专属资源池生命周期专属资源池从购买到期前，处于正常运行阶段，资源状态为“运行中”。到期后，资源状态变为“已过期”。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
变更计费模式 - AI开发平台ModelArts

图1 转包周期选择弹性集群的购买时长，判断是否勾选“自动续费”，确认预计到期时间和配置费用后单击“去支付”。进入支付页面，选择支付方式，确认付款，支付订单后即可完成按需转包年/包月。

帮助中心 > AI开发平台ModelArts > 计费说明
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）

总条数： 2317

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何定位Workflow运行报错 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

准备W8A8权重 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

查询模型列表 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

变更计费模式 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线