搜索_华为云

附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框架的选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
查询训练作业的运行指标 - AI开发平台ModelArts

查询训练作业的运行指标示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id查询。 from modelarts.session import Session

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
责任共担 - AI开发平台ModelArts
责任共担 - AI开发平台ModelArts

责任共担华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击，华为云在遵从法律法规业界标准的基础上，以安全生态圈为护城河，依托华为独有的软硬件优势，构建面向不同区域和行业的完善云服务安全保障体系。安全性是华为云与您的共同责任

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

读取文件报错，如何正确读取文件问题现象创建训练作业如何读取“json”和“npy”文件。训练作业如何使用cv2库读取文件。如何在MXNet环境下使用torch包。训练作业读取文件，出现如下报错： NotFoundError (see above for traceback

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
推理性能测试 - AI开发平台ModelArts

推理性能测试 benchmark方法介绍性能benchmark包括两部分。静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
服务启动失败 - AI开发平台ModelArts

服务启动失败问题现象当服务事件中出现如下事件时，表示容器启动失败。图1 服务启动失败原因分析服务启动失败的原因比较多样，可能有如下几种情况： AI应用本身问题，无法启动镜像中配置的端口错误健康检查配置有问题模型推理代码customize_service.py编写有问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看AI应用事件 - AI开发平台ModelArts

查看AI应用事件创建AI应用的（从用户可看见创建AI应用任务开始）过程中，每一个关键事件点在系统后台均有记录，用户可随时在对应AI应用的详情页面进行查看。方便用户更清楚的了解创建AI应用过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：事件类型事件信息（“XXX

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理AI应用
如何在代码中打印GPU使用信息 - AI开发平台ModelArts

如何在代码中打印GPU使用信息用户可通过shell命令或python命令查询GPU使用信息。使用shell命令执行nvidia-smi命令。依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。 pip install gpustat

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
什么是区域、可用区？ - AI开发平台ModelArts

什么是区域、可用区？什么是区域、可用区？区域和可用区用于描述数据中心的位置，您可以在特定的区域、可用区创建资源。区域（Region）：从地理位置和网络时延维度划分，同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
设置训练故障优雅退出 - AI开发平台ModelArts

设置训练故障优雅退出使用场景随着模型规模和数据集的急剧增长，需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时，会遇到集群中某个芯片、某台服务器故障，导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复，并可以在上一次训练中断的基础上继续训练，而不用从头开始

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询模型对象列表 - AI开发平台ModelArts

查询模型对象列表示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景1：查询当前用户所有模型对象 1 2 3 4 5 6 from modelarts.session import

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
Lite Cluster资源开通 - AI开发平台ModelArts

Lite Cluster资源开通集群资源开通流程开通集群资源过程中用户侧需要完成的任务流程如下图所示。图1 用户侧任务流程表1 Cluster资源开通流程任务说明 Step1 申请开通资源规格当前部分规格为受限购买，需要提前联系客户经理申请开通资源规格，预计1~3个工作日内开通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
查询服务对象列表 - AI开发平台ModelArts

查询服务对象列表获取当前用户服务对象列表。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景1：查询当前用户所有服务对象 1 2 3 4 5 6 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
部署物体检测服务 - AI开发平台ModelArts

部署物体检测服务模型部署模型部署操作即将模型部署为在线服务，并且提供在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

部署文本分类服务模型部署模型部署操作即将模型部署为在线服务，并且提供在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行总览”页面中，待服务部署节点的状态变为“等待输入”，双击“服务部署”节点，进入配置详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

资源池创建失败的原因与解决方法？本文主要介绍在ModelArts资源池创建失败时，如何查找失败原因，并解决问题。问题定位您可以参考以下步骤，查看资源池创建失败的报错信息，并根据相应的解决方法解决问题：登录ModelArts控制台，单击弹性集群，单击资源池列表上方的“操作记录

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
部署图像分类服务 - AI开发平台ModelArts

部署图像分类服务模型部署模型部署操作即将模型部署为在线服务，并且提供在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类

总条数： 929

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：指令微调训练常见问题 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

责任共担 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

查看AI应用事件 - AI开发平台ModelArts

如何在代码中打印GPU使用信息 - AI开发平台ModelArts

什么是区域、可用区？ - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

查询模型对象列表 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线