搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
demo.sh方式启动（历史版本） - AI开发平台ModelArts

912版本同时兼容历史版本的训练任务启动方式。步骤一：上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
资源包可以退订或升降配吗？ - 费用中心

资源包可以退订或升降配吗？按需资源包（除云服务器备份服务和数据仓库服务），不允许客户在费用中心自助退订；也不允许升降配，更改资源包的流量大小。父主题：退订与退换货

 帮助中心 > 费用中心 > 常见问题 > 退订与退换货
企业路由器工作原理 - 企业路由器 ER

路由表类型说明自定义路由表您可以在企业路由器中创建多个路由表，通过不同的路由策略实现网络实例的灵活互通和隔离。默认路由表开启“默认路由表关联”和“默认路由表传播”功能，并指定默认路由表，系统会自动为新接入的连接在默认路由表中创建关联和传播。默认路由表可以是自定义路由表，不指定的

 帮助中心 > 企业路由器 ER > 产品介绍
Yaml配置文件参数配置说明 - AI开发平台ModelArts

rm/dpo:dpo_en_demo 多模态数据集(图像)：mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据（可选）配置dataset_info.json文件，并将数据集存放于dataset_info.json同目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

rm/dpo:dpo_en_demo 多模态数据集(图像)：mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据（可选）配置dataset_info.json文件，并将数据集存放于dataset_info.json同目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
申请发布数据集 - 网络智能体
申请发布数据集 - 网络智能体

在数据集服务首页，单击“新数据集”。在弹出界面，单击。在“数据集发布”界面上，在左侧“选择数据集”下，单击展开数据目录，可以查看到全部的数据集信息，勾选需要发布的数据集前面的复选框，右侧“待发布数据集信息”中会列出所有选中的数据集及其目录。也可以在目录树右上角的搜索框中搜索数据集的名称或是数据集的目录名称，快速查找到需要发布的数据集。

帮助中心 > 网络智能体 > 数据集服务 > 用户指南 > 管理数据集 > 发布数据集
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中的NPU异构资源提供调度能力，实现快速高效地处理推理和图像识别等工作。功能描述参考文档 NPU调度 NPU调度可以指定Pod申请NPU的数量，为工作负载提供NPU资源。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
数据集版本不合格 - AI开发平台ModelArts

数据集版本不合格出现此问题时，表示数据集版本发布成功，但是不满足自动学习训练作业要求，因此出现数据集版本不合格的错误提示。标注信息不满足训练要求针对不同类型的自动学习项目，训练作业对数据集的要求如下。图像分类：用于训练的图片，至少有2种以上的分类（即2种以上的标签），每种分类的图片数不少于5张。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
函数初始化入口Initializer - 函数工作流 FunctionGraph

后，FunctionGraph首先调用initializer完成函数的初始化，之后再调用handler处理请求；如果没有函数初始化的需求则可以跳过initializer，直接调用handler处理请求。适用场景用户函数执行调度包括以下几个阶段： FunctionGraph预先为函数分配执行函数的容器资源。

帮助中心 > 函数工作流 FunctionGraph > 开发指南
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。训练启动训练介绍各个训练阶段：指令微调、PPO强化训练、RM奖励模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
方案概述 - 弹性文件服务 SFS
方案概述 - 弹性文件服务 SFS

来自一个统一的数据源，即一个共享的存储空间。这种共享访问的数据有诸多好处，它可以保证不同服务器上访问数据的一致性，减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例，PyTorch默认会通过文件接口访问数据，AI算法开发

 帮助中心 > 弹性文件服务 SFS > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 对象存储服务 OBS

来自一个统一的数据源，即一个共享的存储空间。这种共享访问的数据有诸多好处，它可以保证不同服务器上访问数据的一致性，减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例，PyTorch默认会通过文件接口访问数据，AI算法开发

 帮助中心 > 对象存储服务 OBS > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
创建一个问答机器人 - 对话机器人服务 CBS

旗舰版：适用于对机器人答准率有高要求，数据样本大的场景。包括以下功能模块：包含专业版所有功能，以及重量级深度学习模型训练。路数：表示这个机器人可以同时进行n路对话，即能够同时和n个用户对话。您可以根据自己业务量大小决定路数多少。机器人有效期：可以设置机器人的使用时长。单击右下角“立即购买”，进入“订单确定”页面。

帮助中心 > 对话机器人服务 CBS > 用户指南 > 智能问答机器人
Lite Server使用流程 - AI开发平台ModelArts

GPU，即图形处理器，主要用于加速深度学习模型的训练和推理。 NPU，即神经网络处理器，是专门为加速神经网络计算而设计的硬件。与GPU相比，NPU在神经网络计算方面具有更高的效率和更低的功耗。密钥对弹性裸金属支持SSH密钥对的方式进行登录，用户无需输入密码就可以登录到弹性裸金属服务器，因此可以防止由于

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 高性能弹性文件服务 SFS Turbo

来自一个统一的数据源，即一个共享的存储空间。这种共享访问的数据有诸多好处，它可以保证不同服务器上访问数据的一致性，减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例，PyTorch默认会通过文件接口访问数据，AI算法开发

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
成长地图 - 云手机服务 KooPhone
成长地图 - 云手机服务 KooPhone

3分钟创建一个游戏类容器应用 02 购买您可以选择按需计费或包年包月计费方式，在充分了解价格详情后根据实际使用情况，购买需要的资源包。计费模式按需计费包年包月 04 使用根据业务发展需要，您可以随时对云手机实例进行调整、设置。除此之外，你还可以通过移动客户端个性化设置云手机。常用操作

 帮助中心 > 云手机服务 KooPhone > 成长地图
大模型开发基本概念 - 盘古大模型 PanguLargeModels

指每个训练实例都包括输入和期望的输出。 LoRA 局部微调（LoRA）是一种优化技术，用于在深度学习模型的微调过程中，只对模型的一部分参数进行更新，而不是对所有参数进行更新。这种方法可以显著减少微调所需的计算资源和时间，同时保持或接近模型的最佳性能。过拟合过拟合是指为了得到一

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识

总条数： 10000

上一页
1
...
7
8
9
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

demo.sh方式启动（历史版本） - AI开发平台ModelArts

资源包可以退订或升降配吗？ - 费用中心

企业路由器工作原理 - 企业路由器 ER

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

申请发布数据集 - 网络智能体

调度概述 - 云容器引擎 CCE

数据集版本不合格 - AI开发平台ModelArts

函数初始化入口Initializer - 函数工作流 FunctionGraph

场景介绍 - AI开发平台ModelArts

方案概述 - 弹性文件服务 SFS

面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 对象存储服务 OBS

创建一个问答机器人 - 对话机器人服务 CBS

Lite Server使用流程 - AI开发平台ModelArts

面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 高性能弹性文件服务 SFS Turbo

成长地图 - 云手机服务 KooPhone

大模型开发基本概念 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线