搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
专属资源池VPC打通 - AI开发平台ModelArts

支持1个VPC下多个子网的打通，若VPC下有多个子网，会显示“+”，您可单击“+”即可添加子网（上限10个）。若需要使用打通VPC的方式实现专属资源池访问公网，由于要访问的公网地址不确定，一般是建议用户在VPC中创建SNAT。此场景下，在打通VPC后，专属资源池中作业访问公网地

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
工作空间 - AI开发平台ModelArts
工作空间 - AI开发平台ModelArts

每个账号每个IAM项目都会分配1个默认工作空间，默认工作空间的访问控制为PUBLIC。通过工作空间的访问控制能力，可限制仅允许部分人访问对应的工作空间。通过此功能可实现类似如下场景：教育场景：老师可给每个学生分配1个INTERNAL的工作空间并且限制该工作空间被指定学生访问，这样可使得学生可独立完成在ModelArts上的实验。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
扩缩容Standard专属资源池 - AI开发平台ModelArts

使用缩容功能时，可以减少资源池已有规格的节点数量。缩容操作可能影响到正在运行的业务，建议用户在业务空窗期进行缩容，或进入资源池详情页面，在指定空闲的节点上进行删除来实现缩容。约束限制只支持对状态为“运行中”的专属资源池进行扩缩容。专属资源池不能缩容到0。扩缩容专属资源池资源池扩缩容有以下类型，分别为：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
自定义模型规范 - AI开发平台ModelArts

非必选文件，环境配置文件，定义了项目依赖的python包。AI Gallery提供了基础镜像的依赖环境，如果要添加自定义依赖项，可通过requirements.txt文件实现。基础镜像包含python、PyTorch、cuda（GPU）、CANN（NPU）。自定义模型规范（推理）当托管自定义模型到AI Gallery时，如果模型要支持AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）存储输入输出数据、运行代码和模型文件，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。本文档

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

训练管理 AI应用管理部署上线镜像管理资源池 AI Gallery ModelArts SDK 昇腾生态自动学习自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者

 帮助中心 > AI开发平台ModelArts > 功能总览
Standard模型部署 - AI开发平台ModelArts

设备上和各种场景上，并且还为个人开发者、企业和设备生产厂商提供了一整套安全可靠的一站式部署方式。图1 部署模型的流程在线推理服务，可以实现高并发，低延时，弹性伸缩，并且支持多模型灰度发布、A/B测试。支持各种部署场景，既能部署为云端的在线推理服务和批量推理任务，也能部署到端，边等各种设备。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Turbo内的目录与OBS对象存储桶进行关联，然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
ModelArts最佳实践案例列表 - AI开发平台ModelArts

Standard模型训练案例表3 自定义算法样例列表样例镜像对应功能场景说明使用ModelArts Standard自定义算法实现手写数字识别 PyTorch 自定义算法手写数字识别使用用户自己的算法，训练得到手写数字识别模型，并部署后进行预测。从0制作自定义镜

 帮助中心 > AI开发平台ModelArts > 最佳实践
切换Lite Server服务器操作系统 - AI开发平台ModelArts

认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ak

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。约束限制如果要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
创建Notebook实例 - AI开发平台ModelArts

消耗性任务（例如：创建Notebook、训练作业、推理在线服务）时，可以为这些任务配置标签，通过标签实现资源的多维分组管理。标签详细用法请参见ModelArts如何通过标签实现资源分组管理。添加标签后，可在Notebook实例详情页查看标签内容，也可进行修改、删除标签。可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
Notebook中快速使用MoXing - AI开发平台ModelArts

选择不同的AI引擎文件创建完成后，系统默认进入“JupyterLab”编码页面。图2 进入编码页面调用mox.file 输入如下代码，实现如下几个简单的功能。引入MoXing Framework。在已有的“modelarts-test08/moxing”目录下，创建一个“test01”文件夹。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

connect returned Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
AI应用的自定义镜像制作流程 - AI开发平台ModelArts

json文件中配置健康检查的接口，供ModelArts调用，在config.json文件中配置。当业务可提供正常服务时，健康检查接口返回健康状态，否则返回异常状态。如果要实现无损滚动升级，必须配置健康检查接口。自定义镜像如果需要在“在线服务”模块使用OBS外部存储挂载功能，需要新建一个OBS挂载专属目录如“/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理

总条数： 370

上一页
1
...
13
14
15
...
19
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

专属资源池VPC打通 - AI开发平台ModelArts

工作空间 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

Standard模型部署 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

Notebook中快速使用MoXing - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

AI应用的自定义镜像制作流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线