搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

请参考新版训练指导文档（模型训练）来体验新版训练。旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点。新旧版创建训练作业方式差异新旧版训练代码适配的差异新旧版训练预置引擎差异父主题：下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
Lite Server使用流程 - AI开发平台ModelArts

由于ModelArts服务在使用过程中会访问其他依赖服务，因此需要给ModelArts进行委托授权。购买Server资源时，需要选择虚拟私有云用于网络通信，您可以使用已有的虚拟私有云或新创建的虚拟私有云。若使用密钥对作为登录裸金属服务器的鉴权方式，您可以使用已有的密钥对或新创建的密钥对。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下，尝试选

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

system has unsupported display driver / cuda driver combination</module> 解决方式先排查cuda和torch版本是否兼容。 # cuda版本 nvcc --version # nvidia-smi版本 nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

针对用户创建的Notebook计算实例，后台计算节点故障后会立即自动迁移到其他可用节点上，实例状态会自动恢复。针对数据存储部分，提供了云硬盘存储挂载方式。云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，数据持久性高达99.9999999%。训练故障自动恢复用户在训练模型过

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

重启Docker daemon： sudo systemctl restart docker 步骤三：运行DCGM-Exporter 以Docker方式运行DCGM-Exporter： DCGM_EXPORTER_VERSION=3.1.7-3.1.4 && \ docker run -d

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
VS Code ToolKit连接Notebook - AI开发平台ModelArts

输入如下用户登录信息，单击“登录”。 Name：自定义用户名，仅用于VS Code页面展示，不与任何华为云用户关联。 AK、SK：在“账号中心 > 我的凭证 > 访问密钥”中创建访问密钥，获取AK、SK（参考链接）。选择站点：此处的站点必须和远程连接的Notebook在同一个站点，否则会导致连接失败。登录成功后显示Notebook实例列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

2048B、4096B）创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退订”，即可实现对单个节点的资源释放。支持批量退订节点。如果是

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

connect returned Connection refused, retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
msprobe梯度监控 - AI开发平台ModelArts

csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个Step相似度不比对结果。详细工具的使用指导请参考梯度状态监控工具介绍。父主题： msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
推理场景介绍 - AI开发平台ModelArts

Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
发布技术文章（AI说） - AI开发平台ModelArts

输入技术文章的标题。 2 选择技术文章所属分类。 3 输入摘要信息。 4 编辑技术文章的内容。右侧可以选择使用“富文本编辑器”或“markdown”方式编辑内容，也可上传附件，支持rar，zip，doc，docx，xls，xlsx，ppt，pptx，pdf，txt格式的附件，单个附件大小不超过20M，最多可传5个附件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

benchmark对接结果输出示例图为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark精度测试，具体使用方式参考Tailor指导文档。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备W8A8权重 - AI开发平台ModelArts

ll.sh。 cd msit/msmodelslim bash install.sh 执行install过程会下载依赖包，因此需要确保能够访问到pip源。进入到msit/msmodelslim/example/DeepSeek目录，执行转换命令。 BF16权重路径是${path

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重

总条数： 2146

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

准备W8A8权重 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线