搜索_华为云

查看Notebook实例事件 - AI开发平台ModelArts

表4 镜像保存过程中的事件列表事件名称事件描述事件级别 SaveImage 保存镜像成功重要 SavedImageFailed D进程引起的保存镜像失败（There are processes in 'D' status, please check process status

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
训练的数据集预处理说明 - AI开发平台ModelArts

简单的过滤。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
查看诊断报告 - AI开发平台ModelArts

Issues）通常包含如下几类问题：数据放在读写性能较差的存储盘上，如云上的EVS和EFS。多卡训练时使用单进程dataloader，即num_workers参数默认为0。存在其他多进程操作影响了数据多进程读取。数据格式问题，例如zip、tar.gz等压缩包。 dataloader参数设置不合

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
环境配置故障 - AI开发平台ModelArts

ModuleNotFoundError: No module named 'numba' JupyterLab中文件保存失败，如何解决？用户结束kernelgateway进程后报错Server Connection Error，如何恢复？父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
推理业务迁移评估表 - AI开发平台ModelArts

运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）性能约束：单次请求最大可以接受时延需小于1s

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查看训练作业资源占用情况 - AI开发平台ModelArts

模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同理，其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间，如日志打印，保存训练指标信息等。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 ModelArts的AI Gallery中提供了大量免费的模型供用户一键部署，进行AI体验学习。本文以“商超商品识别”模型为例，完成从AI Gallery订阅模型，到ModelArts一键部署为在线服务的免费体验过程。

帮助中心 > AI开发平台ModelArts > 快速入门
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）性能约束：单次请求最大可以接受时延需小于1s

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
托管数据集到AI Gallery - AI开发平台ModelArts

Gallery仓库进行托管。单击“完成”返回数据集文件页面。图1 上传成功文件上传过程中请耐心等待，不要关闭当前上传页面，关闭页面会中断上传进程。父主题：发布和管理AI Gallery数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
托管模型到AI Gallery - AI开发平台ModelArts

Gallery仓库进行托管。单击“完成”返回模型文件页面。图1 上传成功文件上传过程中请耐心等待，不要关闭当前上传页面，关闭页面会中断上传进程。父主题：发布和管理AI Gallery模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

tar”包。训练开始时从OBS上下载到“/cache”目录，解压以后使用。如果文件较大，可以保存成多个“.tar”包，在入口脚本中调用多进程进行并行解压数据。不建议把散文件保存到OBS上，这样会导致下载数据很慢。在训练作业中，使用如下代码进行“.tar”包解压： import

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

集Summary数据。注意事项在开发环境跑训练作业，在开发环境使用MindInsight，要求先启动MindInsight，后启动训练进程。仅支持单机单卡训练。运行中的可视化作业不单独计费，当停止Notebook实例时，计费停止。 Summary文件如果存放在OBS中，由

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了开发环境官方的8888、8889端口的，需要用户修改自己的进程端口号；用户的镜像指定了PYTHONPATH、sys.path导致服务启动调用冲突的，需在实例启动后，再指定PYTHONPATH、sys

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
托管镜像到AI Gallery - AI开发平台ModelArts

Gallery仓库进行托管。单击“完成”返回镜像文件页面。图1 上传成功文件上传过程中请耐心等待，不要关闭当前上传页面，关闭页面会中断上传进程。父主题：发布和管理AI Gallery镜像

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
Lite Cluster使用流程 - AI开发平台ModelArts

Cluster资源管理。表1 相关名词解释名词含义容器容器技术起源于Linux，是一种内核虚拟化技术，提供轻量级的虚拟化，以便隔离进程和资源。尽管容器技术已经出现很久，却是随着Docker的出现而变得广为人知。Docker是第一个使容器能在不同机器之间移植的系统。它不仅简

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练的数据集预处理说明 - AI开发平台ModelArts

个文件夹下。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

简单的过滤。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
Standard资源池节点故障定位 - AI开发平台ModelArts

a-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误（多比特ECC错误），当次业务受损，重启进程可恢复。观测方式：nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3: 错误未被抑制，可能影响后续

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
Standard模型训练 - AI开发平台ModelArts

环境支持单机多卡、多机多卡的分布式训练，有效加速训练过程支持训练作业的故障感知、故障诊断与故障恢复，包含硬件故障与作业卡死故障，并支持进程级恢复、容器级恢复与作业级恢复，提供容错与恢复能力，保障用户训练作业的长稳运行提供训练作业断点续训与增量训练能力，即使训练因某些原因中断

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
创建生产训练作业 - AI开发平台ModelArts

业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死，开启“作业卡死重启”开关后，支持将标记为卡死的作业进行进程级自动重启，以提高资源使用率。因系统无法核实代码逻辑且检测存在周期性，卡死检测存在一定的误

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 293

上一页
1
...
5
6
7
...
15
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看Notebook实例事件 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

环境配置故障 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

托管数据集到AI Gallery - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线