搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

h_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

h_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
yaml配置文件参数配置说明 - AI开发平台ModelArts

ity，alpaca_en_demo表示使用了两个数据集，一个是 identity，一个是alpaca_en_demo。如选用定义数据请参考准备数据（可选） template qwen 必须修改。用于指定模板。如果设置为"qwen"，则使用QWEN模板进行训练,模板选择可参照表1中的template列

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
日志提示“ Network is unreachable” - AI开发平台ModelArts

load_state_dict(state_dict) 必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

object has no attribute 'dtype'” 问题现象代码在Notebook的keras镜像中可以正常运行，在训练模块使用tensorflow.keras训练报错时，出现如下报错：AttributeError: 'NoneType' object has no

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
执行LoRA微调训练任务 - AI开发平台ModelArts

NODE_RANK=0 sh scripts/llama2/0_pl_lora_13b.sh 如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令。 MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

NODE_RANK=0 sh scripts/llama2/0_pl_lora_13b.sh 如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令。 MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
执行LoRA微调训练任务 - AI开发平台ModelArts

NODE_RANK=0 sh scripts/llama2/0_pl_lora_13b.sh 如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令。 MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行LoRA微调训练任务 - AI开发平台ModelArts

NODE_RANK=0 sh scripts/llama2/0_pl_lora_13b.sh 如果单机运行需要指定使用NPU卡的数量，可提前定义变量 NPUS_PER_NODE 。例如使用单机四卡训练Llama2-7B命令。 MASTER_ADDR=localhost NNODES=1 NODE_RANK=0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
推理精度测试 - AI开发平台ModelArts

#在benchmark_eval目录下（可选，如果选择使用humaneval数据集） pip install -e . # 可选，如果选择使用humaneval数据集（可选）如果需要在humaneval数据集上评估模型代码能力，请执行此步骤，否则忽略这一步。原因是通过opencompass使用humaneval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理精度测试 - AI开发平台ModelArts

#在benchmark_eval目录下（可选，如果选择使用humaneval数据集） pip install -e . # 可选，如果选择使用humaneval数据集（可选）如果需要在humaneval数据集上评估模型代码能力，请执行此步骤，否则忽略这一步。原因是通过opencompass使用humaneval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

在ModelArts中公共资源池和专属资源池的区别是什么？共享池是所有ModelArts共享的一个资源池，当使用人数比较多的时候，可能造成资源紧张而产生排队。专属池是专属于您的资源池，不会因为资源紧张而产生排队，同时专属资源池支持打通自己的VPC，能和自己的资源网络互通。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
无法导入模块 - AI开发平台ModelArts

“site-package”中才能运行。但是在ModelArts可以将“project_dir”加入到“sys.path”中解决该问题。使用from module_dir import module_file来导包，代码结构如下： project_dir |- main.py |-

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
执行训练任务（推荐） - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

重新启动镜像激活SFS盘中的虚拟环境方法一，直接使用完整conda env路径。 # shell conda activate /home/ma-user/work/envs/user_conda/sfs-new-env 方法二，先添加虚拟环境到conda env，然后使用名称激活。 # shell conda

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

如果打开严格模式前没有为子账号配置过ModelArts权限，开启严格授权模式后可能会导致子账号无法使用ModelArts功能，请根据您的业务需求配置需要的ModelArts服务的权限（参见依赖和委托中ModelArts服务对应的依赖策略项）。操作步骤使用主用户账号登录管理控制台，鼠标放在右上角用户名，在下拉框中选

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践

总条数： 2205

上一页
1
...
78
79
80
...
111
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

在ModelArts中公共资源池和专属资源池的区别是什么？ - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

给子账号配置文件夹级的SFS Turbo访问权限 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线