搜索_华为云

（可选）配置镜像预热 - AI开发平台ModelArts

Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池 > 弹性集群Cluster”，在“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试，数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen；以及使用lm-eval工具开展语言模型的推理精度测试，数据集包含

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 -max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx 问题现象原因分析执行VS Code Remote SSH连接失败。解决方法单击弹窗右上角关闭弹窗，查看OUTPUT中的具体报错信息，并参考后续章节列举的几种常见报错解决问题。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
复制数据至容器中空间不足 - AI开发平台ModelArts

容器中。 OSError:[Errno 28] No space left on device 原因分析数据下载至容器的位置空间不足。处理方法请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
什么是ModelArts - AI开发平台ModelArts

ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及模型按需部署能力，帮助用户快速创建和部署AI应用，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开发、模型训练、创建AI应用、AI应用部署都可以

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
上传OBS文件到JupyterLab - AI开发平台ModelArts

致上传失败。方式二：打开OBS File Browser选择OBS文件路径，然后单击“上传”，开始上传文件。图4 上传OBS文件异常处理提示文件上传失败，有以下三种常见场景。异常场景1 图5 文件上传失败可能原因： OBS路径没有设置为具体的文件路径，设置成了文件夹。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
VS Code一键连接Notebook - AI开发平台ModelArts

port xxxxx: Connection refused”如何解决？报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决？报错“Bad owner or permissions

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
非分离部署推理服务 - AI开发平台ModelArts

后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。 --max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
订阅免费模型 - AI开发平台ModelArts

、“限制”、“版本”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。模型被订阅后，详情页的“订阅”按钮

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
配置Lite Server网络 - AI开发平台ModelArts

配置SNAT规则。 SNAT功能通过绑定弹性公网IP，实现私有IP向公有IP的转换，可实现VPC内跨可用区的多个云主机共享弹性公网IP、安全高效地访问互联网。公网NAT网关页面，单击创建的NAT网关名称，进入NAT网关详情页。在SNAT规则页签下，单击“添加SNAT规则”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser.add_argument('--init_method', default='tcp://xxx'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
更新资源池 - AI开发平台ModelArts

updateStrategy 否 String 驱动升级策略。可选值如下： force：强制升级，立即升级节点驱动，可能影响节点上正在运行的作业 idle：安全升级，待节点上没有作业运行时进行驱动升级响应参数状态码： 200 表10 响应Body参数参数参数类型描述 apiVersion

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL timeout”或者“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

此外，若使用了多个NVIDIA显卡，每个显卡都需要加载相应的内核模块才能正常工作。在这种情况下，也需要手动执行“nvidia-modprobe”命令来加载所有必要的内核模块。处理方法方案1：操作系统内核重新加载nvidia_uvm。 sudo rmmod nvidia_uvm sudo modprobe nvidia_uvm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
非分离部署推理服务 - AI开发平台ModelArts

后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。 --max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
部署推理服务 - AI开发平台ModelArts

部署推理服务本章节介绍如何使用vLLM 0.3.2框架部署并启动推理服务。前提条件已准备好DevServer环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。确保容器可以访问公网。 Step1 检查环境 SSH登录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
SFT全参微调训练任务 - AI开发平台ModelArts

境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
预训练任务 - AI开发平台ModelArts

境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤2 修改训练超参配置以 llama2-70b 和 llama2-13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）

总条数： 1392

上一页
1
...
39
40
41
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

（可选）配置镜像预热 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线