-
使用SFS盘出现报错rpc - AI开发平台ModelArts
callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核会打
-
预训练 - AI开发平台ModelArts
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: Qwen系列基于DevServer适配PyTorch NPU训练指导(6.3.904)
-
性能调优 - AI开发平台ModelArts
可以通过输出日志来进行判断。 自助性能调优三板斧 基于上一步完成的性能测试,为了最大化模型推理性能,首先确保当前使用的CANN版本是最新版本(最新版本请见此处),每个迭代的CANN版本都有一定的性能收益。在此基础上,可以进行三板斧自助工具式性能调优。这些调优过程由大量的项目交付经
-
预训练 - AI开发平台ModelArts
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: GLM3-6B基于DevServer适配PyTorch NPU训练指导(6.3.904)
-
NPU Snt9B裸金属服务器环境配置 - AI开发平台ModelArts
NPU Snt9B裸金属服务器环境配置 场景描述 物理机环境配置 容器化个人调测环境搭建 父主题: 环境配置
-
性能调优总体原则和思路 - AI开发平台ModelArts
综上所述,性能优化的总体原则为:减少Host算子下发时间、减少Device算子执行时间。 训练代码迁移完成后,如存在性能不达标的问题,可参考下图所示流程进行优化。建议按照单卡、单机多卡、多机多卡的流程逐步做性能调优。 图2 性能调优总体思路 父主题: PyTorch迁移性能调优
-
性能调优 - AI开发平台ModelArts
性能调优 算子优化 为了更好地发挥昇腾设备的性能,将ChatGLM-6B原模型中的部分算子替换成了NPU亲和的算子,修改的是modeling_chatglm.py文件,下图通过对比列举了对应的修改方式,图示中左边为原始方式,右边为修改后的方式。 使用torch.bmm替换torch
-
预训练 - AI开发平台ModelArts
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: LLama2系列基于DevServer适配PyTorch NPU训练指导(6.3.904)
-
如果不再使用ModelArts,如何停止收费? - AI开发平台ModelArts
如果有,单击Notebook列表右方操作下的“停止”即可停止Notebook计费。检查是否有带云硬盘EVS存储的Notebook。如果有,停止并删除该Notebook,即可停止EVS计费。 进入“ModelArts>训练管理>训练作业”页面,检查是否有“运行中”的训练作业。如果
-
AI开发基本概念 - AI开发平台ModelArts
AI开发基本概念 机器学习常见的分类有3种: 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。常见的有回归和分类。 非监督学习:在未加标签的数据中,试图找到隐藏的结构。常见的有聚类。 强化学习:智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。
-
训练速度突然下降以及执行nvidia-smi卡顿的解决方法 - AI开发平台ModelArts
训练速度突然下降以及执行nvidia-smi卡顿的解决方法 问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi
-
图片大Shape性能劣化严重怎么办? - AI开发平台ModelArts
图片大Shape性能劣化严重怎么办? 在昇腾设备上,可能由于GPU内存墙导致在大shape下遇到性能问题,MindSporeLite提供了Flash Attention编译优化机制,可以考虑升级最新版本的MidnSporeLite Convertor来进行编译期的算子优化,在大Shape场景下会有明显的改善。
-
按需付费使用 - AI开发平台ModelArts
资源规格:选择不同规格的资源池,产生的费用不同,具体费用以控制台为准。 存储配置:选择云硬盘EVS会产生费用,具体费用以控制台为准。 Notebook实例的总费用 = 使用资源产生的费用 + 使用云硬盘产生的费用 模型训练 在模型训练中创建训练作业时,可选择不同的资源规格。不同的资源
-
如何查看ModelArts中正在收费的作业? - AI开发平台ModelArts
除了ModelArts总览页呈现的计费项之外,如果用户使用了OBS、云硬盘EVS存储,也会扣费。 请前往OBS控制台,及时清空OBS中的数据。 请在ModelArts控制台上,删除带有EVS存储的Notebook实例。前往EVS控制台,及时清空EVS中的数据。 父主题: 计费FAQ
-
预训练 - AI开发平台ModelArts
预训练 预训练数据处理 预训练超参配置 预训练任务 断点续训练 查看日志和性能 父主题: Baichuan2-13B基于DevServer适配PyTorch NPU训练指导(6.3.904)
-
常见问题 - AI开发平台ModelArts
常见问题 模型转换失败怎么办? 图片大Shape性能劣化严重怎么办? 同样功能的PyTorch Pipeline,因为指导要求适配onnx pipeline,两个pipeline本身功能就有差别,如何适配? AOE的自动性能调优使用上完全没有效果怎么办? 迁移后应用出图效果相比GPU无法对齐怎么办
-
删除DevServer实例 - AI开发平台ModelArts
删除DevServer实例 功能介绍 删除DevServer实例。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{pro
-
停止DevServer实例 - AI开发平台ModelArts
停止DevServer实例 功能介绍 停止DevServer实例。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v1/{projec
-
删除按需计费的DevServer资源 - AI开发平台ModelArts
在弹性裸金属列表中,单击操作列的“删除”,在弹出的确认对话框中,确认信息无误,然后单击“确定”,完成删除操作。 图1 删除DevServer示例 父主题: 释放DevServer资源
-
创建DevServer - AI开发平台ModelArts
创建DevServer 功能介绍 创建DevServer。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/dev-servers