搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

States、Gradient、Model Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

更新开发环境实例。删除Notebook实例删除开发环境实例，删除的资源包括Notebook容器以及对应的所有存储资源。通过运行的实例保存成容器镜像运行的实例可以保存成容器镜像，保存的镜像中，安装的依赖包（pip包）不丢失，VSCode远程开发场景下，在Server端安装的插件不丢失。

帮助中心 > AI开发平台ModelArts > API参考
推理场景介绍 - AI开发平台ModelArts

本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
ModelArts入门指引 - AI开发平台ModelArts

本文旨在帮助您了解ModelArts的基本使用流程以及相关的常见问题，帮助您快速上手ModelArts服务。面向不同AI基础的开发者，本文档提供了相应的入门教程，帮助用户更快速地了解ModelArts的功能，您可以根据经验选择相应的教程。面向AI开发零基础的用户，您可以使用ModelArts在AI

帮助中心 > AI开发平台ModelArts > 快速入门
IEF节点边缘服务部署失败 - AI开发平台ModelArts

部署边缘服务时，使用到IEF纳管的边缘节点，就需要用户给ModelArts的委托赋予Tenant Administrator权限，否则将无法成功部署边缘服务。具体可参见IEF的权限说明。处理方法1 在ModelArts管理控制台，选择“权限管理”。在用户名对应的“授权内容”列，单击“查

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
发布技术文章（AI说） - AI开发平台ModelArts

Gallery”页面中，单击右上角“我的Gallery > 我的资料”进入我的资料页面，查看“开启邮箱通知”开关，默认是打开的。如果未打开请开启。选择“评论”页签在输入框中输入评论内容，单击“发表评论”，即可成功发布评论。AI说发布者可收到评论的通知，AI说评论者也会收到评论回复的通知，所有用户均可查看资产评论并回复评论，对评论点赞等。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

提示输入账号、用户名及密码。鉴权更多信息请查看配置登录信息。 ma-cli configure --auth PWD -P xxx 执行env|grep -i CURRENT_IMAGE_NAME命令查询当前实例所使用的镜像。制作新镜像。获取上步查询的基础镜像的SWR地址。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
断点续训练 - AI开发平台ModelArts

以基于checkpoint接续训练。当需要从训练中断的位置接续训练，只需要加载checkpoint，并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，用于读取前一次训练保存的预训练模型。训练过程断点续训脚本qwen.sh，存放

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
查询服务监控信息 - AI开发平台ModelArts

请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数参数参数类型描述 service_name

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
标注物体检测数据 - AI开发平台ModelArts

需要对应所检测图片的明显特征，并且选择的标签比较容易识别（画面主体物与背景区分度较高），每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后，基于设计好的标签准备该图片的数据，每种需识别出的标签，建议应在所有图片个数相加超过100张，如果某些图片的标签具有相似性，则

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像，您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情软件类型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

查询Notebook支持的可切换规格列表功能介绍查询创建Notebook实例支持的可切换的规格列表。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

务绑定的APP的AppKey和AppSecret所生产的这两个字段的值，以完成对该请求的签名认证。具体指导参见链接：访问在线服务（APP认证）。 Body： body的组装和模型强相关，不同来源的模型body的组装方式不同。模型为从容器镜像中导入的：需要按照自定义镜像的要求组织，请咨询该镜像的制作人。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
修复Standard专属资源池故障节点 - AI开发平台ModelArts

造成的业务受损。用户可以根据自身业务的可靠性要求设置池内的高可用节点数量。高可用冗余节点不能用于业务运行，将影响资源池的实际可用节点数量。资源池下发任务时，请注意选择实际可用的节点数量，当选择的节点数未剔除资源池的高可用冗余节点数时，会导致任务持续等待。高可用冗余节点的运行机制：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
断点续训练 - AI开发平台ModelArts

以基于checkpoint接续训练。当需要从训练中断的位置接续训练，只需要加载checkpoint，并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。原有训练参数配置表1断点续训练中新加MOD

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
ModelArts计费模式概述 - AI开发平台ModelArts

以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格，请参见ModelArts价格详情。包年/包月：一种预付费模式，即先付费再使用，按照订单的购买周期进行结算。购买周期越长，享受的折扣越大。一般适用于计算资源需求量长期稳定的成熟业务。按需计

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
功能总览 - AI开发平台ModelArts
功能总览 - AI开发平台ModelArts

ModelArts提供了模型训练的功能，方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据，选择不同规格的资源池用于模型训练。除支持用户自己开发的模型外，ModelArts还提供了从AI Gallery订阅算法，您可以不关注模型开发，直接使用AI Gallery的算法，通过算法参数的调整，得到一个满意的模型。

帮助中心 > AI开发平台ModelArts > 功能总览
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

驱动程序可能已经正确配置，从而解决了这个问题。硬件问题：如果GPU之间的NVLINK连接存在硬件故障，那么这可能会导致带宽受限。重新安装软件后，重启系统，可能触发了某种硬件自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。适配的CANN版本是cann_8.0.rc2，驱动版本是23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）

总条数： 2258

上一页
1
...
38
39
40
...
113
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

ModelArts入门指引 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

发布技术文章（AI说） - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

标注物体检测数据 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

ModelArts计费模式概述 - AI开发平台ModelArts

功能总览 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线