搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
Lite Server使用流程 - AI开发平台ModelArts

由于ModelArts服务在使用过程中会访问其他依赖服务，因此需要给ModelArts进行委托授权。购买Server资源时，需要选择虚拟私有云用于网络通信，您可以使用已有的虚拟私有云或新创建的虚拟私有云。若使用密钥对作为登录裸金属服务器的鉴权方式，您可以使用已有的密钥对或新创建的密钥对。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
使用CES监控Lite Server资源 - AI开发平台ModelArts

容器共享内存过小共享内存默认为64M，可按需修改分布式训练时共享内存不足导致训练失败方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

进行三次重试，在服务重试期间，如果有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下，尝试选

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

system has unsupported display driver / cuda driver combination</module> 解决方式先排查cuda和torch版本是否兼容。 # cuda版本 nvcc --version # nvidia-smi版本 nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点，详细内容请参见旧版训练迁移至新版训练注意事项。新旧版创建训练作业方式差异新旧版训练代码适配的差异新旧版训练预置引擎差异父主题：下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

重启Docker daemon： sudo systemctl restart docker 步骤三：运行DCGM-Exporter 以Docker方式运行DCGM-Exporter： DCGM_EXPORTER_VERSION=3.1.7-3.1.4 && \ docker run -d

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
VS Code ToolKit连接Notebook - AI开发平台ModelArts

输入如下用户登录信息，单击“登录”。 Name：自定义用户名，仅用于VS Code页面展示，不与任何华为云用户关联。 AK、SK：在“账号中心 > 我的凭证 > 访问密钥”中创建访问密钥，获取AK、SK（参考链接）。选择站点：此处的站点必须和远程连接的Notebook在同一个站点，否则会导致连接失败。登录成功后显示Notebook实例列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

针对用户创建的Notebook计算实例，后台计算节点故障后会立即自动迁移到其他可用节点上，实例状态会自动恢复。针对数据存储部分，提供了云硬盘存储挂载方式，华为云云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，数据持久性高达99.9999999%。训练故障自动恢复用户在训练

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

2048B、4096B）创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退订”，即可实现对单个节点的资源释放。支持批量退订节点。如果是

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

connect returned Connection refused, retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
推理场景介绍 - AI开发平台ModelArts

Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。支持的模型列表和权重文件本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
Msprobe梯度监控 - AI开发平台ModelArts

csv表示每个Step各个权重参数两次比对相似度值，以及 {param_name}.png和summary_similarities.png以折线图方式表示各个Step相似度不比对结果。详细工具的使用指导请参考梯度状态监控工具介绍。父主题： Msprobe工具使用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

benchmark对接结果输出示例图为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark精度测试，具体使用方式参考Tailor指导文档。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
发布技术文章（AI说） - AI开发平台ModelArts

输入技术文章的标题。 2 选择技术文章所属分类。 3 输入摘要信息。 4 编辑技术文章的内容。右侧可以选择使用“富文本编辑器”或“markdown”方式编辑内容，也可上传附件，支持rar，zip，doc，docx，xls，xlsx，ppt，pptx，pdf，txt格式的附件，单个附件大小不超过20M，最多可传5个附件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
在模型广场查看模型 - AI开发平台ModelArts

Studio大模型即服务平台提供了丰富的开源大模型，在模型详情页可以查看模型的详细介绍，根据这些信息选择合适的模型进行训练、推理，接入到企业解决方案中。访问模型广场登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查询模型列表 - AI开发平台ModelArts

指定排序字段，可选“create_at”、“model_version”、“model_size”，默认是可选“create_at”。 order 否 String 排序方式，可选“asc”或“desc”，代表递增排序及递减排序，默认是“desc”。 workspace_id 否 String 工作空间ID，默认为“0”。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite DevServer。镜像适配的Cann版本是cann_8.0.rc2。确保容器可以访问公网。训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型序号支持模型支持模型参数量 1 llama2 llama2-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）

总条数： 2059

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

Msprobe梯度监控 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

在模型广场查看模型 - AI开发平台ModelArts

查询模型列表 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线