搜索_华为云

迁移效果校验 - AI开发平台ModelArts

迁移效果校验在pipeline适配完成后，需要验证适配后的效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

Qwen2-7B_template 调优类型全参微调：直接在模型上训练，影响模型全量参数的微调训练，效果较好，收敛速度较慢，训练时间较长。 LoRA微调：冻结原模型，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数，效果接近或略差于全参训练，收敛速度快，训练时间短。增量预训练：在现有预训练模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

能确保基本交互操作，但在视觉、交互效果上可能存在兼容性问题。表2 移动端浏览器兼容性一览表浏览器类型版本操作系统兼容性 Chrome L3 Android 完全兼容。 Safari L3 IOS 完全兼容。 UC浏览器 L3 Android 完全兼容。 QQ浏览器 L3 Android 完全兼容。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
监控安全风险 - AI开发平台ModelArts

监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作。云监控可以帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
训练作业卡死检测 - AI开发平台ModelArts

卡死检测无需额外配置，作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业疑似卡死。如需检测到卡死后发送通知（短信、邮件等）请在作业创建页面配置事件通知。常见案例：复制数据卡死问题现象调用mox.file.copy_parallel复制数据时卡死。解决方案复制文件和文件夹均可采用：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Notebook Cache盘告警上报 - AI开发平台ModelArts

告警条件设置设置告警通知，单击“立即创建”。 “告警方式”：选择“直接告警” “行动规则”：开启开关，选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要，可单击“新建告警行动规则”添加，详细操作请参考创建告警行动规则。 “告警恢复通知”：开启开关图4 设置告警通知先在SMN

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
长训Loss比对结果 - AI开发平台ModelArts

长训Loss比对结果在单卡环境下，执行一个Epoch训练任务，GPU和NPU训练叠加效果如下：上图中的红色曲线为GPU Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 精度对齐
精度问题诊断 - AI开发平台ModelArts

精度问题诊断逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

通过设置ModelArts在线服务和模型负载告警规则，用户可自定义监控目标与通知策略，及时了解ModelArts在线服务和模型负载状况，从而起到预警作用。设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
精度问题概述 - AI开发平台ModelArts

环节。由于规模巨大，训练过程复杂，经常出现loss不收敛的情况（模型精度问题），主要表现为loss曲线起飞或者毛刺等，且模型的下游任务评测效果变差。影响大模型loss收敛的原因是多方面的：首先，数据问题可能导致不收敛，比如数据预处理不完善；其次，模型的训练超参数也同样会导致类似的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”、可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
使用MaaS评测模型 - AI开发平台ModelArts

使用MaaS评测模型效果优秀的模型需要保证模型拥有良好的泛化能力，即模型不仅要在已给定的数据（训练数据）上表现良好，还要能够在未见过的数据上也达到类似的效果。为了实现这一目标，模型评测是必不可少的环节。通过使用评估数据集对模型进行评估，开发者可以了解模型的优缺点，从而找到优化方

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
在MaaS体验模型服务 - AI开发平台ModelArts

在MaaS体验模型服务在ModelArts Studio大模型即服务平台，运行中的模型服务可以在“模型体验”页面在线体验模型服务的推理效果。前提条件在“模型部署”的服务列表存在“运行中”的模型服务。操作步骤登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

如果用户的代码中训练任务是单进程的，使用Notebook 8核64GB，72核512GB训练的速度是基本一致的，例如用户用的是2核4GB的资源，使用4核8GB，或者8核64GB效果是一样的。如果用户的代码中训练任务是多进程的，使用Notebook 72核512GB训练速度要优于8核64GB。父主题： Standard

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它不仅比传统的WebUI更迅速，而且显存占用更为经济。本文档主要介绍如何在ModelArts Lite的Cluster

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
推理部署计费项 - AI开发平台ModelArts

时长收费事件通知（不开启则不计费）订阅消息使用消息通知服务，在事件列表中选择特定事件，在事件发生时发送消息通知。如果想使用消息通知，需要在创建训练作业时开启“事件通知”功能。具体计费可见消息通知服务价格详情。按实际用量付费发送短信通知费用构成：短信通知条数发送电子邮件费用构成：电子邮件+外网下行流量

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
单模型性能调优AOE - AI开发平台ModelArts

在AOE调优时，容易受当前缓存的一些影响，建议分两次进行操作，以达到较好的优化效果（第一次执行生成AOE的知识库，在第二次使用时可以复用）。在该场景中，AOE对text_encoder等模型提升效果不大，性能主要瓶颈点在unet模型中，主要对unet模型做调优，整体的操作步骤如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
查看训练作业资源占用情况 - AI开发平台ModelArts

“gpuUtil”、“memUsage”“npuMemUsage”、“npuUtil”，可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。图1 资源占用情况表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

type) >=1 图2 告警规则设置告警级别：选择重要告警。告警条件：持续时间选择“1分钟”。设置告警通知（可选）。如果需要将告警通过邮件、手机方式通知您，可在告警通知处，为此告警规则配置“行动规则”。若此处无行动规则，请新建告警行动规则。父主题： Lite Cluster

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 132

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

迁移效果校验 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

监控安全风险 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

监控资源 - AI开发平台ModelArts

使用MaaS评测模型 - AI开发平台ModelArts

在MaaS体验模型服务 - AI开发平台ModelArts

在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

推理部署计费项 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线