搜索_华为云

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

com（此处需要替换成对应局点的pip源地址） pip install py-spy 查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Lite Cluster高危操作一览表 - AI开发平台ModelArts

高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1 操作及其对应风险操作对象操作名称风险描述风险等级应对措施集群升级、修改、休眠集群、删除集群等。可能影响M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

_13b.sh 选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
SFT全参微调训练 - AI开发平台ModelArts

_13b.sh 选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
创建AI应用 - AI开发平台ModelArts

执行代码、模型需先上传至OBS（训练作业生成的模型已默认存储到OBS）。接口约束使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数，非模板参数表示适合不使用模板导入时填写的参数，公共参数表示与导入方式无关的参数。使用

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

识别出此图片的数字是“2”。本案例中使用的MNIST是比较简单的用做demo的数据集，配套算法也是比较简单的用于教学的神经网络算法。这样的数据和算法生成的模型仅适用于教学模式，并不能应对复杂的预测场景。即生成的模型对预测图片有一定范围和要求，预测图片必须和训练集中的图片相似（黑底白字）才可能预测准确。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
LoRA微调训练 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13b的LoRA微调为例，执行脚本为0_pl_lora_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
预训练任务 - AI开发平台ModelArts

权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以llama2-70b和l

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
SFT全参微调训练任务 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。 Step2 修改训练超参配置以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
使用基础镜像 - AI开发平台ModelArts

sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 中的 transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 中的 transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

掉卡 NPU卡丢失。节点规格的NPU卡数和k8sNode中可调度卡数不一致。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。发起维修流程。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用基础镜像 - AI开发平台ModelArts

sh 使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 中的 transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

sh 使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 中的 transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 中的 transformers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

在在线推理服务列表页面，选择服务“状态”为“运行中”的服务。单击操作列的“推理测试”，在测试页面根据任务类型以及页面提示完成对应的测试。调用API 待推理服务的状态变为“运行中”时，可单击操作列的“调用”，复制对应的接口代码，在本地环境或云端的开发环境中进行接口。图1 调用接口当部署推理服务的“安全认证”选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
准备预测分析数据 - AI开发平台ModelArts

数据集要求预测分析项目中需要使用到的数据集为表格数据集，数据格式支持csv格式。表格数据集的具体介绍请参见表格数据集。将原始.xlsx格式的数据转换为.csv格式的数据的方法如下：将原始表格数据（.xlsx）另存。单击“文件>另存为”，选择本地地址后，下拉选择“保存类型”为“CSV

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
发布Notebook - AI开发平台ModelArts

当您需要在AI Gallery下架共享的资产时，可以执行如下操作：在“AI Gallery”页面，选择“我的Gallery > 我的资产 > Notebook”，进入“我的Notebook”。在“我的Notebook > 我的发布”页面，单击目标资产右侧的“下架”，在弹框中确认资产信息，单击“确定”完成下架。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
LoRA微调训练 - AI开发平台ModelArts

_13b.sh 选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
更新网络资源 - AI开发平台ModelArts

Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码：400

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 880

上一页
1
...
35
36
37
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

准备预测分析数据 - AI开发平台ModelArts

发布Notebook - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线