搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1 支持的模型列表所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
MoXing Framework功能介绍 - AI开发平台ModelArts

引入moxing framework的数据下载加速特性的相关说明在使用基于ModelArts预置镜像的训练作业时，可以引入moxing framework的数据下载加速特性。加速特性适用场景为：文件数在100w~1000w的场景、单个大文件及文件大小大于20GB的场景。登录ModelAr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
什么是ModelArts - AI开发平台ModelArts

适用于已经自建AI开发平台，仅有算力需求的用户，提供高性价比的AI算力，并预装主流AI开发套件以及自研的加速插件。 ModelArts Lite-Cluster 面向k8s资源型用户，提供k8s原生接口，用户可以直接操作资源池中的节点和k8s集群。适用于已经自建AI开发平台，仅有算力需求的用户。要求用户具备k8s基础知识和技能。

帮助中心 > AI开发平台ModelArts > 产品介绍
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

训练作业的任务节点数要大于或等于3，否则会跳过ranktable路由加速。建议在大模型场景（512卡及以上）使用ranktable路由加速。脚本执行目录不能是共享目录，否则ranktable路由加速会失败。路由加速的原理是改变rank编号，所以代码中对rank的使用要统一，如果rank的使用不一致会导致训练异常。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
Lite Cluster&Server介绍 - AI开发平台ModelArts

同计费类型/计费周期的资源，解决如下用户的使用场景：用户在包长周期的资源池中无法扩容短周期的节点。用户无法在包周期的资源池中扩容按需的节点（包括AutoScaler场景）。支持SFS产品权限划分支持SFS权限划分特性，可以实现训练场景中，挂载的SFS的文件夹能够权限控制，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令是一种基于ICMP协议（Internet Control Message Protocol）的网络诊断工具，利用ICMP协议向目标主机发送数据包并接收返回的数据包来判断网络连接质量。当安全组的入方向

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts环境挂载目录说明 - AI开发平台ModelArts

本小节介绍Notebook开发环境、训练任务实例的目录挂载情况（以下挂载点在保存镜像的时候不会保存）。详情如下： Notebook 表1 Notebook挂载点介绍挂载点是否只读备注 /home/ma-user/work/ 否客户数据的持久化目录。 /data 否客户PFS的挂载目录。 /cache

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

在ModelArts的Notebook的Jupyterlab可以安装插件吗？ Jupyter可以安装插件。目前jupyter插件多数采用wheel包的形式发布，一次性完成前后端插件的安装，安装时注意使用jupyter服务依赖的环境“/modelarts/authoring/no

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
附录：指令微调训练常见问题 - AI开发平台ModelArts

out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框架的选择，如原使用Accelerator可替换为Deep

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 yaml配置文件参数配置说明各个模型深度学习训练加速框架的选择模型NPU卡数取值表各个模型训练前文件替换父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查询模型runtime - AI开发平台ModelArts

状态码：200 表4 响应Body参数参数参数类型描述 count Integer 不分页的情况下符合查询条件的总数量。 total_count Integer 当前查询结果的数量，不设置offset、limit查询参数时，count与total相同。 engine_runtimes

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用ModelArts Standard训练模型 - AI开发平台ModelArts

Standard训练模型模型训练使用流程准备模型训练代码准备模型训练镜像创建调试训练作业创建算法创建生产训练作业分布式模型训练模型训练存储加速增量模型训练自动模型优化（AutoSearch）模型训练高可靠性管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
Lite Server使用流程 - AI开发平台ModelArts

络计算而设计的硬件。与GPU相比，NPU在神经网络计算方面具有更高的效率和更低的功耗。密钥对弹性裸金属支持SSH密钥对的方式进行登录，用户无需输入密码就可以登录到弹性裸金属服务器，因此可以防止由于密码被拦截、破解造成的账户密码泄露，从而提高弹性裸金属服务器的安全性。说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
发布Workflow到ModelArts - AI开发平台ModelArts

Workflow中所有出现占位符相关的配置对象时，均需要设置默认值，或者直接使用固定的数据对象方法的执行依赖于Workflow对象的名称：当该名称的工作流不存在时，则创建新工作流并创建新执行；当该名称的工作流已存在时，则更新存在的工作流并基于新的工作流结构创建新的执行 workflow.release_and_run()

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

看RoCE网卡的命令需要执行“hccn_tools”命令查看，参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，会健康检查吗？ 8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 1581

上一页
1
2
3
4
5
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

ModelArts环境挂载目录说明 - AI开发平台ModelArts

在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

使用ModelArts Standard训练模型 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线