搜索_华为云

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询资源池 - AI开发平台ModelArts

空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id，通常提供给cbc使用。 os.modelarts/tenant

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 指定每个设备的训练批次大小。 gradient_accumulation_steps 8 必须修改，指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可参考表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
删除节点池 - AI开发平台ModelArts

gpu.tnt004。 count Integer 规格保障使用量。 maxCount Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如：nodePool-1。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 RM奖励模型(Reward Model)：是强化学习过程中一个关键的组成部分。它的主要任务是根据给定的输入和反馈来预测奖励值，从而指导学习算法的方向，帮助强化学习算法更有效地优化策略

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
附录：训练常见问题 - AI开发平台ModelArts

修改后的barrier_timeout参数问题5：训练完成使用vllm0.6.0框架推理失败：错误截图：报错原因：训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常解决措施，以下两种方法任选其一：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
【下线公告】华为云ModelArts算法套件下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts算法套件下线公告华为云ModelArts服务算法套件将在2024年6月30日00:00（北京时间）正式退市。下线范围下线Region：华为云全部Region。下线影响正式下线后，ModelArts Notebook中将不会预置算法套件

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
更新团队标注验收任务状态 - AI开发平台ModelArts

8：图像的饱和度与训练数据集的特征分布存在较大偏移。 9：图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10：图像的清晰度与训练数据集的特征分布存在较大偏移。 11：图像的目标框数量与训练数据集的特征分布存在较大偏移。 12：图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
注册API并授权给APP - AI开发平台ModelArts

工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。响应参数状态码：200 表5 响应Header参数

 帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。如果要看RoCE网卡的命令需要执行“hccn_tools”命令查看，参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

book，使用新建的Notebook时，注意减少软件包的安装或文件的下载等操作，也可以减少容器大小；减少镜像文件的大小如果无法确认哪些包或文件可以不安装，那么可以选择一个较小的镜像来重建Notebook，然后在其中再安装需要的软件或文件。目前公共镜像中占用空间最小的是mindspore1

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
pip介绍及常用命令 - AI开发平台ModelArts

pip install SomePackage #最新版本安装 pip uninstall SomePackage #卸载软件版本其他命令请使用pip --help命令查询。父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Lite Server运行的，需要购买并开通Server资源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。微调训练指令监督微调训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
管理Lite Cluster资源池 - AI开发平台ModelArts

在资源池详情页面，单击“配置管理”，在配置管理页面，可以修改设置监控的命名空间、修改集群配置，配置镜像预热信息。单击监控的图标，可以开启或关闭监控信息，并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。单击集群配置的图标，可以设置绑核、Dropcache、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
查询指定节点池详情 - AI开发平台ModelArts

gpu.tnt004。 count Integer 规格保障使用量。 maxCount Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如：nodePool-1。

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
托管镜像到AI Gallery - AI开发平台ModelArts

在镜像详情页，选择“镜像文件”页签。单击“添加文件”，进入上传文件页面，选择本地的数据文件单击“点击上传”或拖动文件，单击“确认上传”启动上传。上传单个超过5GB的文件时，请使用Gallery CLI工具。CLI工具的获取和使用请参见Gallery CLI配置工具指南。文件合集大小不超过50GB。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
执行训练任务（历史版本） - AI开发平台ModelArts

如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务

总条数： 2629

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

删除节点池 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

【下线公告】华为云ModelArts算法套件下线公告 - AI开发平台ModelArts

更新团队标注验收任务状态 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

pip介绍及常用命令 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线