搜索_华为云

显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
更新训练作业参数 - AI开发平台ModelArts

String 训练作业需要的数据集OBS URL。如：“/usr/data/”。不可与data_source或者dataset_id/dataset_version_id同时出现，但必须有其一。 dataset_id 否 String 训练作业的数据集ID。应与dataset_

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
训练网络迁移总结 - AI开发平台ModelArts

性能调优可以先将重点放在NPU不亲和的问题处理上，确保一些已知的性能问题和优化方法得到较好的应用。通用的训练任务调优、参数调优可以通过可观测数据来进行分析与优化，一般来说分段对比GPU的运行性能会有比较好的参考。算子级的调优某些情况下如果是明显的瓶颈或者性能攻坚阶段，考虑到门槛较高，可以联系华为工程师获得帮助。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练精度测试 - AI开发平台ModelArts

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果 LLaMAFac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果 LLaMAFac

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

准备模型代码包和权重文件将OBS中的模型权重和表1获取的AscendCloud-3rdLLM-6.3.905-xxx.zip代码包上传到Notebook的工作目录/home/ma-user/work/下。上传代码参考如下。 import moxing as mox obs_dir = "

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
查询服务详情 - AI开发平台ModelArts

src_path String 批量任务输入数据的OBS路径。 dest_path String 批量任务输出结果的OBS路径。 req_uri String 批量任务中调用的推理路径。 mapping_type String 输入数据的映射类型，取值为：file或csv。 mapping_rule

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
W8A16量化 - AI开发平台ModelArts
W8A16量化 - AI开发平台ModelArts

accelerate optimum transformers 设置GPTQConfig的参数，并且创建一个数据集用于校准量化的权重，以及一个tokenizer用于准备数据集。 from transformers import AutoModelForCausalLM, AutoTokenizer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
Standard自动学习 - AI开发平台ModelArts

采用自动深度学习技术，通过迁移学习（只通过少量数据生成高质量的模型），多维度下的模型架构自动设计（神经网络搜索和自适应模型调优），和更快、更准的训练参数自动调优自动训练采用自动机器学习技术，基于信息熵上限近似模型的树搜索最优特征变换和基于信息熵上限近似模型的贝叶斯优化自动调参，从企业关系型（结构化）数据中，自动学

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

OBS SDK OBS服务提供的SDK，对OBS进行操作。由于ModelArts较多功能需使用OBS中存储的数据，用户可使用OBS SDK进行调用，使用OBS存储您的数据。 OBS提供了多种语言SDK供选择，开发者可根据使用习惯下载OBS SDK进行调用。使用OBS SDK前，需下载OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
托管模型到AI Gallery - AI开发平台ModelArts

只支持预览大小不超过10MB、格式为文本类或图片类的文件。支持编辑资产介绍。每个资产介绍可分为基础设置和使用描述。基础设置部分包含了该资产所有重要的结构化元数据信息。选择填入的信息将会变成该模型资产的标签，并且自动同步在模型描述部分，保存到“README.md”文件里。模型描述部分是一个可在线编

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
查询训练作业版本列表 - AI开发平台ModelArts

dataset_id String 训练作业的数据集ID。 dataset_version String 训练作业的数据集版本ID。 type String 数据集类型。 “obs”：表示使用OBS的数据。 “dataset”：表示使用数据集的数据。 data_url String OBS的桶路径。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
创建训练作业参数 - AI开发平台ModelArts

String 训练作业需要的数据集OBS URL。如：“/usr/data/”。不可与data_source或者dataset_id/dataset_version_id同时出现，但必须有其一。 dataset_id 否 String 训练作业的数据集ID。应与dataset_

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
自定义模型规范 - AI开发平台ModelArts

例请参见train_params.json示例。 “dataset_readme.md” 必选文件，数据集要求说明，定义了模型训练时对数据集的要求，会显示在微调工作流的“准备数据”页面。 “requirements.txt” 非必选文件，环境配置文件，定义了项目依赖的python包。AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
自定义镜像规范 - AI开发平台ModelArts

例请参见train_params.json示例。 “dataset_readme.md” 必选文件，数据集要求说明，定义了模型训练时对数据集的要求，会显示在微调工作流的“准备数据”页面。自定义镜像规范（推理）当托管自定义镜像到AI Gallery时，如果镜像要支持AI Gal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
托管镜像到AI Gallery - AI开发平台ModelArts

CLI配置工具指南。文件合集大小不超过50GB。文件上传完成前，请不要刷新或关闭上传页面，防止意外终止上传任务，导致数据缺失。当文件状态变成“上传成功”表示数据文件成功上传至AI Gallery仓库进行托管。单击“完成”返回镜像文件页面。图1 上传成功文件上传过程中请耐心等

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。如何查看Keras版本在ModelArts管理控制台，创建一个Notebook实例，镜像选择“TensorFlow-1.13”或“TensorFlow-1

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法

总条数： 2078

上一页
1
...
87
88
89
...
104
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

W8A16量化 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Standard自动学习 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线