搜索_华为云

如何保证自定义镜像能不因为超过35G而保存失败？ - AI开发平台ModelArts

请不要将实例频繁保存镜像，建议一次将需要的安装包安装好，然后执行镜像保存，避免频繁执行镜像保存的动作，保存次数越多镜像越大，且多次保存后的镜像过大问题无法通过清理磁盘方式减少镜像的大小（Docker保存原理机制）。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

精度测试 benchmark工具用于精度验证，主要工作原理是：固定模型的输入，通过benchmark工具进行推理，并将推理得到的输出与标杆数据进行相似度度量（余弦相似度和平均相对误差），得到模型转换后的精度偏差信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 推理迁移指导（MindSporeLite）
精度问题诊断 - AI开发平台ModelArts

精度问题诊断逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 案例：SD1.5推理迁移 > 模型精度调优
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）也可在搜索引擎寻找其他获取文件路径的方式，使用获取到的路径进行文件读写。父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中如何获取本机外网IP？ - AI开发平台ModelArts

本机的外网IP地址可以在主流搜索引擎中搜索“IP地址查询”获取。图1 查询外网IP地址父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

ModelArts针对上述使用场景，在给出系统化推理业务昇腾迁移方案的基础上，提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源和工具链，以及具体的Notebook代码运行示例和最佳实践，并对于实际的操作原理和迁移流程进行说明，包含迁移后的精度和性能验证、调试方法说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 推理迁移指导（MindSporeLite）
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

可能是inode不足，或者是触发操作系统的文件索引缓存问题，导致操作系统无法创建文件，造成用户磁盘占满。触发条件和下面的因素有关：文件名越长，文件数量的上限越小。 blocksize越小，文件数量的上限越小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
分布式训练功能介绍 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。示例：创建DDP分布式训练（PyTorch+GPU）：提供了分布式训练调测具体的代码适配操作过程和代码示例。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 分布式模型训练
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

优化原理对于ModelArts提供的GPU资源池，每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
基于ModelArts Studio（MaaS） DeepSeek API和Dify快速构建网站智能客服 - AI开发平台ModelArts

Dify提供两种索引方式：高质量和经济。两种索引的区别如下表所示。下文使用经济索引进行演示。表3 高质量索引与经济索引的区别比较项目高质量索引经济索引索引原理通过嵌入模型将文本块转换为数字向量，进行精确匹配，可使用向量检索、全文检索、混合检索。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用
迁移流程 - AI开发平台ModelArts
迁移流程 - AI开发平台ModelArts

华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 训练迁移指导（PyTorch）
日志提示“No space left on device” - AI开发平台ModelArts

同一目录下创建较多文件，为了加快文件检索速度，内核会创建一个索引表，短时间内创建较多文件时，会导致索引表达到上限，进而报错。触发条件和下面的因素有关：文件名越长，文件数量的上限越小。 blocksize越小，文件数量的上限越小。（ blocksize，系统默认 4096B。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

原理是通过在模型层中引入低秩矩阵，将大模型的权重降维处理，来实现高效的模型适配。相比于传统的微调方法，LoRA不仅能大幅减少所需的训练参数，还降低了显存和计算成本，加快了模型微调速度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

原理是通过在模型层中引入低秩矩阵，将大模型的权重降维处理，来实现高效的模型适配。相比于传统的微调方法，LoRA不仅能大幅减少所需的训练参数，还降低了显存和计算成本，加快了模型微调速度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用
代码迁移 - AI开发平台ModelArts
代码迁移 - AI开发平台ModelArts

图1 torch_npu工作原理示意图 NPU（Neural Network Processing Unit）和GPU在构造结构上存在差异，因此迁移过程并不是完全平替的关系。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 训练迁移指导（PyTorch）
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

同一目录下创建较多文件，为了加快文件检索速度，内核会创建一个索引表，短时间内创建较多文件时，会导致索引表达到上限，进而报错。触发条件和下面的因素有关：文件名越长，文件数量的上限越小 blocksize越小，文件数量的上限越小。（ blocksize，系统默认 4096B。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用自动分组智能标注作业 - AI开发平台ModelArts

例如，用户通过搜索引擎搜索XX，将相关图片下载并上传到数据集，然后再使用自动分组，可以将XX图片分类，比如论文、宣传海报、确认为XX的图片、其他。用户可以根据分组结果，快速剔除掉不想要的，或者将某一类直接全选后添加标签。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
训练作业进程被kill - AI开发平台ModelArts

通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业进程异常退出 - AI开发平台ModelArts

通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

服务器端配置（Notebook当前已经配置，24h应该是长于防火墙的断连时间配置，该配置无需用户手工修改，写在这里仅是帮助理解ssh配置原理）配置文件路径：/home/ma-user/.ssh/etc/sshd_config 每24h向client端主动发个包，3次发包均无响应会断开连接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理

总条数： 87

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消