搜索_华为云

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

Arts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts” 和文件夹名称均为举例，请替换为用户自定义的名称。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
解析Manifest文件 - AI开发平台ModelArts

解析Manifest文件解析Manifest文件，支持本地和OBS。如果是OBS，需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码通过Manifest路径来解析获取Manifest的信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts”和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

sh，下载Miniconda3-py37-4.10.3安装文件（对应python 3.7.10）。将上述pip源文件、*.run文件、*.whl文件、Miniconda3安装文件放置在context文件夹内，context文件夹内容如下。 context ├── Ascend-cann-nnae_6

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
免费体验MaaS预置服务 - AI开发平台ModelArts

在预置服务列表，选择所需的服务，单击操作列的“更多 > 部署为我的服务”，跳转到“创建模型”页面。在创建模型页面，完成参数配置，创建我的模型。操作指导请参见在MaaS中创建模型。当模型创建成功后，需要部署成模型服务，操作指导请参见使用MaaS部署模型服务。模型服务部署成功后，即可继续使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练过程中无法找到so文件 - AI开发平台ModelArts

执行如下命令，查看训练环境的cuda版本，确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version.txt") 支持。当前cuda版本无so文件，需外部导入so文件（自行在浏览器下载），再设置LD_LIBRARY_PATH，具体见2。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

增加了和OBS交互工作的整个训练流程如下：建议使用OBSutil作为和OBS交互的工具，如何在本机安装obsutil可以参考安装和配置OBS命令行工具。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）启动脚本，用法无切换，一般就是到达执行目录，然后python

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
准备文本分类数据 - AI开发平台ModelArts

在本文档中，采用通过OBS管理控制台将数据上传至OBS桶。 OBS上传文件的规范：如不需要提前上传训练数据，请创建一个空文件夹用于存放工程后期生成的文件。如需要提前上传待标注的文件，请创建一个空文件夹，然后将文本文件保存在该文件夹下，文本文件的目录结构如：“/bucketName/data/text

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
训练迁移快速入门案例 - AI开发平台ModelArts

程有一个整体的认识。如果您希望通过具体案例直接实操，请参考《主流开源大模型基于DevServer适配PyTorch NPU训练指导》。该案例以ChatGLM-6B为例，介绍如何将模型迁移至昇腾设备上训练、模型精度对齐以及性能调优。迁移环境准备本文以弹性裸金属作为开发环境。弹性

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
数据集版本发布失败 - AI开发平台ModelArts

数据集版本发布失败出现此问题时，表示数据不满足数据管理模块的要求，导致数据集发布失败，无法执行自动学习的下一步流程。请根据如下几个要求，检查您的数据，将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟O

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
创建Workflow数据集导入节点 - AI开发平台ModelArts

false：不导入标签否 bool import_samples 是否导入样本。可选值如下： true：导入样本（默认值） false：不导入样本否 bool import_type 导入方式。可选值如下： dir：目录导入 manifest：按manifest文件导入否 ImportTypeEnum

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点问题现象在Notebook中动态挂载OBS并行文件系统，本地挂载目录为/data/demo-yf/，实际在JupyterLab左侧导航看不到此目录。图1 本地挂载目录图2 Notebook的JupyterLab

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

构建一个新的推理镜像，并完成模型的创建，部署为在线服务。权限清单权限表1 管理模型所需权限业务场景依赖的服务依赖策略项支持的功能配置建议管理模型 ModelArts modelarts:model:* 创建、删除、查看、导入AI模型。建议配置。仅在严格授权模式开启后，需要显式配置左侧权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Msprobe梯度监控 - AI开发平台ModelArts

Msprobe梯度监控梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具，可以实现对训练过程模型每一层梯度信息进行监控，目前支持两种能力：将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来，用以分析问题，例如检测确定性问题，使用训练状态监

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
上传OBS文件到JupyterLab - AI开发平台ModelArts

此处输入的是具体的OBS文件路径，不是文件夹的路径，否则会导致上传失败。方式二：打开OBS File Browser选择OBS文件路径，然后单击“上传”，开始上传文件。图4 上传OBS文件异常处理提示文件上传失败，有以下三种常见场景。异常场景1 图5 文件上传失败可能原因： O

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
长训Loss比对结果 - AI开发平台ModelArts

长训Loss比对结果在单卡环境下，执行一个Epoch训练任务，GPU和NPU训练叠加效果如下：上图中的红色曲线为GPU Loss折线图，蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下，Loss总体的绝对偏差大约为0.08181。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优 > 精度对齐
ModelArts Standard使用流程 - AI开发平台ModelArts

创建训练作业管理模型编写推理代码和配置文件针对您生成的模型，建议您按照ModelArts提供的模型包规范，编写推理代码和配置文件，并将推理代码和配置文件存储至训练输出位置。模型包规范介绍创建模型将训练完成的模型导入至ModelArts创建为模型，方便将模型部署上线。创建模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 2235

上一页
1
...
62
63
64
...
112
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

免费体验MaaS预置服务 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

准备文本分类数据 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

创建Workflow数据集导入节点 - AI开发平台ModelArts

动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点 - AI开发平台ModelArts

给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

Msprobe梯度监控 - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

长训Loss比对结果 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线