搜索_华为云

数据导入方式介绍 - AI开发平台ModelArts

数据导入方式介绍数据集创建完成后，您还可以通过导入数据的操作，接入更多数据。ModelArts支持从不同数据源导入数据。从OBS导入数据到ModelArts数据集从DLI导入数据到ModelArts数据集从MRS导入数据到ModelArts数据集从DWS导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
准备模型训练镜像 - AI开发平台ModelArts

ch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您还可以基于这些基础镜像制作一个新的镜像并进行训练。训练作业的预置框架介绍 ModelArts中预置的训练基础镜像如下表所示。表1 ModelArts训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

sh”。其中，启动脚本的完整代码请参见代码示例。（可选）启用ranktable动态路由如果训练作业需要使用ranktable动态路由算法进行网络加速，则可以联系技术支持开启集群的cabinet调度权限。同时，训练作业要满足如下要求才能正常实现ranktable动态路由加速。训练使用的Python版本是3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
如何查看训练作业资源占用情况？ - AI开发平台ModelArts

在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。 MEM：物理内存使用率（m

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 查看作业详情
标注数据如何导出 - AI开发平台ModelArts

“物体检测”只支持导出Pascal VOC格式的XML标注文件。 “图像分割”只支持导出Pascal VOC格式的XML标注文件以及Mask图像。其他类型的数据集可以使用版本发布功能。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
服务管理概述 - AI开发平台ModelArts

服务管理概述服务管理，包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。这里的在线服务包括“predictor”和“transformer”两类，都包括下文描述的功能，本章节以“predictor”服务为例进行说明。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
请求超时返回Timeout - AI开发平台ModelArts

请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练声音分类模型 - AI开发平台ModelArts

F1值是模型精确率和召回率的加权调和平均，用于评价模型的好坏，当F1较高时说明模型效果较好。同一个自动学习项目可以训练多次，每次训练会注册一个新的模型版本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。父主题：使用自动学习实现声音分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
训练启动脚本说明和参数配置 - AI开发平台ModelArts

集； MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
日志提示"Permission denied" - AI开发平台ModelArts

处理方法对挂载盘的数据加权限，可以改为与训练容器内相同的用户组（1000），假如/nas盘是挂载路径，执行如下代码。 chown -R 1000：1000 /nas 或者 chmod 777 -R /nas 如果是自定义镜像中拉取的.sh脚本没有执行权限，可以在自定义脚本启动前执行"chmod

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

Notebook自带moxing、modelart-sdk等功能，会将这些包嵌入到用户Conda环境。解决方案如果不需要使用moxing、sdk等功能，可以暂时删除modelarts.pth文件。执行如下命令在用户运行的Conda环境下查找modelarts.pth。 # /home/ma-

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

训练结果、日志、checkpoints上传。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）可以用一个run脚本把整个流程包起来。run.sh脚本的内容可以参考如下示例： #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
发布需求 - AI开发平台ModelArts
发布需求 - AI开发平台ModelArts

发布需求如果你已经注册成为了AI Gallery平台上的合作伙伴，你可以在AI Gallery上发布你的需求。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“我的需求”进入我的需求列表页，单击右上方的“发布”，进入发布需求页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 需求广场
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

DLI的default队列只用作体验，不同账号间可能会出现抢占的情况，需进行资源排队，不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能，即导入的表的schema的字段名称可以不和数据集相同，但类型要保持一致。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
训练启动脚本说明和参数配置 - AI开发平台ModelArts

集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
Standard Workflow - AI开发平台ModelArts

Workflow是开发者基于实际业务场景开发用于部署模型或应用的流水线工具，核心是将完整的机器学习任务拆分为多步骤工作流，每个步骤都是一个可管理的组件，可以单独开发、优化、配置和自动化。Workflow有助于标准化机器学习模型生成流程，使团队能够大规模执行AI任务，并提高模型生成的效率。 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
如何关闭Mox的warmup - AI开发平台ModelArts

由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。原因分析 Tensorflow分布式有多种执行模式，mox会通过4次执行50 step记录执行时间，选择执行时间最少的模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题

总条数： 1638

上一页
1
...
70
71
72
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据导入方式介绍 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

如何查看训练作业资源占用情况？ - AI开发平台ModelArts

标注数据如何导出 - AI开发平台ModelArts

服务管理概述 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

训练声音分类模型 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

发布需求 - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Standard Workflow - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线