搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

训练作业容错检查用户在训练模型过程中，存在因硬件故障而产生的训练失败场景。针对硬件故障场景，ModelArts提供容错检查功能，帮助用户隔离故障节点，优化用户训练体验。容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

Qwen2-7B_template 调优类型全参微调：直接在模型上训练，影响模型全量参数的微调训练，效果较好，收敛速度较慢，训练时间较长。 LoRA微调：冻结原模型，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数，效果接近或略差于全参训练，收敛速度快，训练时间短。增量预

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
昇腾能力应用地图 - AI开发平台ModelArts

qwen2.5-72b 预训练、SFT全参微调、LoRA微调 ModelLink Yi yi-6b yi-34b 预训练、SFT全参微调、LoRA微调 ModelLink LlamaFactory ChatGLMv3 glm3-6b 预训练、SFT全参微调、LoRA微调 ModelLink

帮助中心 > AI开发平台ModelArts > 最佳实践
在ModelArts中图像分类和物体检测具体是什么？ - AI开发平台ModelArts

在ModelArts中图像分类和物体检测具体是什么？图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。简单的说就是识别一张图中是否

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
查看诊断报告 - AI开发平台ModelArts

Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据，如集群计算、通信和下发的耗时，可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序，从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

plugins: configmap1980: - --rank-table-version=v2 # 保持不动，生成v2版本ranktablefile env: [] svc: - --publish-not-ready-addresses=true

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在推理生产环境中部署推理服务 - AI开发平台ModelArts

创建”，开始创建AI应用。设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

创建”，开始创建AI应用。设置创建AI应用的相应参数。此处仅介绍关键参数，设置AI应用的详细参数解释请参见从OBS中选择元模型。根据需要自定义应用的名称和版本。模型来源选择“从对象存储服务（OBS）中选择”，元模型选择转换后模型的存储路径，AI引擎选择“Custom”，引擎包选择准备镜像中上传的推理镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错问题现象使用AI市场物体检测YOLOv3_Darknet53算法进行训练，将数据集切分后进行部署在线服务报错，日志如下：TypeError: Cannot interpret feed_dict key

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看Notebook实例事件 - AI开发平台ModelArts

CacheVolumeExceedQuota /cache目录文件大小超过最大限制紧急 NotebookHealthy 实例从不健康恢复到了健康状态重要 EVSSoldOut EVS存储售罄紧急表6 OBS动态挂载产生的事件列表事件名称事件描述事件级别 DynamicMountStorage

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
训练的数据集预处理说明 - AI开发平台ModelArts

LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理，目前仅支持sft全参微调，lora微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理，目前仅支持sft全参微调，lora微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练网络迁移总结 - AI开发平台ModelArts

精度问题根因和表现种类很多，会导致问题定位较为复杂，一般还是需要GPU上充分稳定的网络（包含混合精度）再到NPU上排查精度问题。常见的精度调测手段，包含使用全精度FP32，或者关闭算子融合开关等，先进行排查。对于精度问题，系统工程人员需要对算法原理有较深入的理解，仅从工程角度分析有时候会非常受限，同时也可联系华为工程师进行诊断与优化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练的数据集预处理说明 - AI开发平台ModelArts

LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理，目前仅支持sft全参微调，lora微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？问题现象 MobaXterm成功连接到开发环境后，过一段时间会自动断开。可能原因配置MobaXterm工具时，没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

技术支持开启集群的cabinet调度权限。同时，训练作业要满足如下要求才能正常实现ranktable动态路由加速。训练使用的Python版本是3.7或3.9。训练作业的实例数要大于或等于3。路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。将训练作业完成

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

下载的数据集。单击图标选择您的OBS桶下的任意一处目录，但不能与输出位置为同一目录。数据集输出位置：用来存放输出的数据标注的相关信息，或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录，且此目录不能与输入位置一致，也不能为输入位置的子目录。图1 下载详情

 帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

下载的数据集。单击图标选择您的OBS桶下的任意一处目录，但不能与输出位置为同一目录。数据集输出位置：用来存放输出的数据标注的相关信息，或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录，且此目录不能与输入位置一致，也不能为输入位置的子目录。图1 下载详情

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
扩缩容Standard专属资源池 - AI开发平台ModelArts

得部分任务在不同节点的运行情况不一致，请谨慎操作。存量节点不支持修改容器引擎空间大小。修改操作系统。在“操作系统”下拉列表中指定操作系统版本。指定节点计费模式。用户增加节点数量时，可以打开“节点计费模式”开关，为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池

总条数： 1110

上一页
1
...
42
43
44
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

昇腾能力应用地图 - AI开发平台ModelArts

在ModelArts中图像分类和物体检测具体是什么？ - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线