搜索_华为云

准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

2-13b中创建文件夹model/llama-2-13b-hf。利用OBS Browser+工具将下载的模型文件上传至创建的文件夹目录下。在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

2-13b中创建文件夹model/llama-2-13b-hf。利用OBS Browser+工具将下载的模型文件上传至创建的文件夹目录下。在ECS服务器中安装obsutil工具，具体命令可参考obsutil工具快速使用，将OBS桶中的数据下载至SFS Turbo中。注意：需要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用，排查3。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
Lite Cluster使用流程 - AI开发平台ModelArts

驱动升级：通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。故障检测：通过os-node-agent插件在系统内周期性巡检故障特征，及时发现节点故障。指标采集：通过os-node-agent插件采集GPU/NPU利用率指标等重要的观测数据，上报到租户侧AOM。节点运维：授权后，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
附录：微调训练常见问题 - AI开发平台ModelArts

of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理standard常见问题 - AI开发平台ModelArts

附录：大模型推理standard常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
AI开发基本概念 - AI开发平台ModelArts

AI开发基本概念机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
附录：训练常见问题 - AI开发平台ModelArts

of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

--local-dir <模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
Standard资源池节点故障定位 - AI开发平台ModelArts

迁移走。 A050931 训练toolkit 预检容器训练预检容器检测到GPU错误。训练预检容器检测到GPU错误。 A050932 训练toolkit 预检容器训练预检容器检测IB错误。训练预检容器检测IB错误。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Tool Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明，包括配置RoCE网卡的IP、网关，配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手备件查询助手可以帮助你查询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用，排查3。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

# 推理构建镜像启动脚本 ├──llm_tools # 推理工具包 ├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
人工标注图片数据 - AI开发平台ModelArts

参见表4。选择标注方式。在标注页面，上方工具栏提供了常用的表3及表4，系统默认的标注方式为多边形标注。选择多边形标注或极点标注。标注第一张图片时，一旦选择其中一种，其他所有图片都需要使用此方式进行标注。图6 工具栏图7 工具栏表3 标注方式图标使用说明多边形。在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
推理场景介绍 - AI开发平台ModelArts

# 推理构建镜像启动脚本 ├──llm_tools # 推理工具包 ├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 526

上一页
1
...
4
5
6
...
27
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理standard常见问题 - AI开发平台ModelArts

AI开发基本概念 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

人工标注图片数据 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线