搜索_华为云

发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

对已经关联的资产，单击“取消关联”即可取消资产的关联。发表评论请确保开启了邮箱通知。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的资料”进入我的资料页面，查看“开启邮箱通知”开关，默认是打开的。如果未打开请开启。选择“评论”页签在输入框中输入评论内容，单击“发表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
设置断点续训练 - AI开发平台ModelArts

置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功能同时使用。在创建训练作业页面，开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。 PyTorch版reload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

AOE自动调优更多介绍可参考Ascend转换工具功能说明。自动高性能算子生成工具自动高性能算子生成工具AKG（Auto Kernel Generator），可以对深度神经网络模型中的算子进行优化，并提供特定模式下的算子自动融合功能，可提升在昇腾硬件后端上运行模型的性能。 AKG

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

术显然可以为此贡献一份力量。该案例介绍了华为云一站式开发平台ModelArts的自动学习功能实现的常见生活垃圾分类，让您不用编写代码也可以实现生活垃圾分类。本案例只适用于新版自动学习功能。步骤一：准备工作注册华为账号并开通华为云、实名认证注册华为账号并开通华为云进行实名认证

 帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

术显然可以为此贡献一份力量。该案例介绍了华为云一站式开发平台ModelArts的自动学习功能实现的常见生活垃圾分类，让您不用编写代码也可以实现生活垃圾分类。本案例只适用于新版自动学习功能。步骤一：准备工作注册华为账号并开通华为云、实名认证注册华为账号并开通华为云进行实名认证

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
重建、停止或删除训练作业 - AI开发平台ModelArts

进入OBS，删除本训练作业使用的OBS桶及文件。查找训练作业当用户使用IAM账号登录时，训练作业列表会显示IAM账号下所有训练作业。ModelArts提供查找训练作业功能帮助用户快速查找训练作业。操作一：单击“只显示自己”按钮，训练作业列表仅显示当前子账号下创建的训练作业。操作二：按照名称、ID、作业类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
自动学习/Workflow计费项 - AI开发平台ModelArts

创建桶不收取费用，按实际使用的存储容量和时长收费消息通知（不开启则不计费）消息通知服务订阅消息使用消息通知服务，在事件列表中选择需要监控的节点/Workflow状态，在事件发生时发送消息通知。如果想使用消息通知，需要提前在自动学习、Workflow中开启消息通知功能。具体计费可见消息通知服务价格详情。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

式的。您可以根据实际需求进行选择。推理速度与模型复杂度强相关，您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能，方便溯源和模型反复调优。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging Face 官方提供的命令行工具，自带完善的下载功能。具体步骤可参考：HF-Mirror中的使用教程。完成依赖安装和环境变量配置后，以Llama2-70B为例： huggingface-cli

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
执行训练任务（推荐） - AI开发平台ModelArts

断点续训：训练过程中保存的某个权重，可参考断点续训和故障快恢说明 train_auto_resume false 【可选】是否开启【故障快恢】功能，【true、false】默认false不开启，当训练中断时重启任务会从最新生成权重文件处继续训练。可参考断点续训和故障快恢说明 handler-name

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
删除AI应用 - AI开发平台ModelArts

删除AI应用功能介绍删除AI应用，根据AI应用ID删除指定AI应用，cascade取值为true时除了删除AI应用ID指定的AI应用，还会删除其他与指定AI应用同名不同版本的AI应用；默认只删除当前AI应用ID所对应的AI应用。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
创建可视化作业 - AI开发平台ModelArts

创建可视化作业功能介绍创建可视化作业。该接口为异步接口，作业状态请通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
查看Standard专属资源池详情 - AI开发平台ModelArts

如下图所示，支持对多节点批量进行删除、退订、重启、重置、开启/关闭高可用冗余操作，具体介绍请参见修复Standard专属资源池故障节点。还支持对节点批量添加、编辑、删除资源标签操作，“包年/包月”的节点支持批量续费、批量开通/修改自动续费功能。图2 节点批量操作如下图所示，在单个节点的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
管理Lite Cluster节点 - AI开发平台ModelArts

续费/开通自动续费/修改自动续费对于包年/包月的节点，在“节点管理”页签中提供了续费、开通自动续费和修改自动续费功能，并支持对多个节点进行批量操作。重置节点 “节点管理”页签中提供节点重置的功能。单击操作列的“重置”，可实现对单个节点的重置。勾选多个节点的复选框，单击节点列表上方的“更多>重置”按钮，可实现对多个节点的重置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

8*Ascend lora gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

8*Ascend lora gradient_accumulation_steps: 8 ZeRO-3 2*节点 & 8*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
Workflow多分支运行介绍 - AI开发平台ModelArts

流程，也可以根据节点输出的metric相关信息决定后续的执行流程。配置节点参数控制分支执行与ConditionStep的使用场景类似，但功能更加强大。主要用于存在多分支选择执行的复杂场景，在每次启动执行后需要根据相关配置信息决定哪些分支需要执行，哪些分支需要跳过，达到分支部分执行的目的。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务：用户将模型部署为在线服务后，可以通过监控功能查看CPU、内存、GPU等资源使用统计信息和模型调用次数统计，具体参见查看服务详情章节。父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
在Windows上安装配置Grafana - AI开发平台ModelArts

installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。在Windows的“服务”中，找到Grafana，将其开启，如果已经开启，则直接进入4。登录Grafana。 Grafana默认在本地的3000端口启动，打开链接http://localhost:300

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana

总条数： 1460

上一页
1
...
61
62
63
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

发布数据 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

删除AI应用 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

Workflow多分支运行介绍 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线