搜索_华为云

执行训练任务 - AI开发平台ModelArts

执行训练任务执行训练任务（推荐）执行训练任务（历史版本）父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
在ModelArts中训练好后的模型如何获取？ - AI开发平台ModelArts

使用自动学习产生的模型只能在ModelArts上部署上线，无法下载至本地使用。使用自定义算法或者订阅算法训练生成的模型，会存储至用户指定的OBS路径中，供用户下载。父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

r”已重命名为“learning_rate”，在训练代码中必须写成“learning_rate”才能调用成功。keras官方文档请参见https://github.com/keras-team/keras/releases/tag/2.3.0。处理方法将训练代码里的参数名称“

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
发布Workflow到ModelArts - AI开发平台ModelArts

配置。工作流相关的配置执行操作可参考如何使用Workflow。基于release()方法，提供了release_and_run()方法，支持用户在开发态发布并运行工作流，节省了前往console配置执行的操作。使用该方法时需要注意以下几个事项： Workflow中所有出现占位

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置，不用手动指定默认的。如果发现资源节点中存在GPU卡损坏，请联系技术支持处理。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上note

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

存在的历史问题，并为新特性提供高性能、高易用、可扩展、可演进的底座，给用户提供更好的AI训练体验，打造易用、高效的AI平台。下线旧版训练管理对现有用户的使用是否有影响？正在使用的训练作业不受影响，但是用户无法使用旧版训练创建新的作业。旧版训练管理是否停止新购？是的，旧版训练管理将于2023年6月30日

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
标注声音分类数据 - AI开发平台ModelArts

作。当目录中所有音频都完成标注后，您可以在“已标注”页签下查看已完成标注的音频，或者通过右侧的“全部标签”列表，了解当前已完成的标签名称和标签数量。同步或添加音频在“数据标注”节点单击“实例详情”进入“音频标注”页面。声音分类项目创建时，音频来源有两种，通过本地添加或同步OBS中的数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

环境的复杂度。范围本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型，ModelArts已经提供了迁移好的开箱即用模型，且保证了较优的精度和性能。如果用户业务同样使用这些开源模型，建议直接使用ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
推理精度测试 - AI开发平台ModelArts

/...目录下，查找到summmary目录，有txt和csv两种保存格式。总体打分结果参考txt和csv文件的最后一行，举例如下： npu： mmlu：46.6 gpu： mmlu：47 NPU打分结果（mmlu取值46.6）和GPU打分结果（mmlu取值47）进行对比，误差在1%以内（计算公式：(47-46

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

job id is 6ABxxx [2022/08/12 00:03:25 GMT+0800][INFO]Request url is https://modelarts.xxx.xxx.com/v1/88exxxta/models?model_name=query_vec_recall_model

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
保存镜像时报错“too many layers in your image”如何解决？ - AI开发平台ModelArts

image”如何解决？问题现象保存镜像时报错“too many layers in your image”。原因分析用户创建Notebook时所选用的镜像是经过多次保存的自定义镜像或用户自行注册的镜像，基于该镜像所创建的Notebook已经无法再执行镜像保存的操作了。解决方法使用公共镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

如果训练启动脚本用的是sh文件，例如“main.sh”，则启动命令如下所示。 bash ${MA_JOB_DIR}/demo-code/main.sh 启动命令支持使用“;”和“&&”拼接多条命令，命令中的“demo-code”为存放代码目录的最后一级OBS目录，以实际情况为准。本地代码目录指定训练容器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ[

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

─────────────────────────────────╯ 具体支持如下使用场景：上传单个文件上传多个文件上传单个文件到指定仓库目录上传整个文件夹准备工作获取“repo_id”和待上传的文件名。获取“repo_id” 在AI Gallery页面的资产详情

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
Finetune训练 - AI开发平台ModelArts

启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志问题现象用户通过OBS导入模型时，选择使用基础镜像，用户自己编写了部分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查询服务监控信息 - AI开发平台ModelArts

model_version String 模型版本。 invocation_times Number 模型实例的总调用次数。 failed_times Number 模型实例调用失败次数。 cpu_core_usage Float 已使用CPU核数。 cpu_core_total

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限问题现象在导入AI应用时，提示用户账号受限。原因分析提示用户账号受限，常见原因有如下几种：导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

无法执行相关GPU命令，只能尝试释放D+进程。处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

'2'”为打印所有的通信信息。“os.environ['PS_RESEND'] = '1'”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息，Van实例会重发消息。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 1837

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务 - AI开发平台ModelArts

在ModelArts中训练好后的模型如何获取？ - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

标注声音分类数据 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

保存镜像时报错“too many layers in your image”如何解决？ - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线