搜索_华为云

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

"resource_requirements": [] } 其中，加粗的斜体字段需要根据实际值填写： “metadata”字段下的“name”和“description”分别为算法的名称和描述。 “job_config”字段下的“code_dir”和“boot_file”分别为算法的代码目

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型场景描述本地已有镜像，需要做云上适配，用于ModelArts模型训练。操作步骤参考如下Dockerfile，修改已有镜像，使其符合模型训练的自定义镜像规范。 FROM {已有镜像} USER root # 如果已存在 gid = 100 用户组，则删除

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在线服务预测报错DL.0105 - AI开发平台ModelArts

subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

oken字段上填入该租户在该region的domain级别的token。具体指导参见连接：获取IAM用户Token。 APP认证的方式：APP认证方式又可以细分为AppCode认证和APP签名认证。 AppCode认证需要在header的X-Apig-AppCode字段上填入绑定给该在线服务的APP的AppCode。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
解析Manifest文件 - AI开发平台ModelArts

、INFERENCE。指明该对象用于训练、评估、测试、推理，如果没有给出该字段，则使用者自行决定如何使用该对象。 inference_loc String 当此Manifest文件由推理服务生成时会有该字段，表示推理输出的结果文件位置。 id String 样本ID。 source_type

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
创建工作空间 - AI开发平台ModelArts

DELETING：正在删除。 DELETE_FAILED：删除失败。 status_info String 状态描述，默认为空。该字段会补充显示状态的详细信息。如删除失败时，可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用户列表。默认为空。需要

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
创建Standard专属资源池 - AI开发平台ModelArts

默认：系统随机分配一个不冲突的网段供用户使用，因后续不支持修改建议商用场景选择手动分配，确保网段符合用户诉求。自定义：需要自定义K8S容器网段和K8S服务网段。 K8S容器网段：集群下容器使用的网段，决定了集群下容器的数量上限。创建后不可修改。 K8S服务网段：同一集群下容器互相访问时使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
查询训练日志 - AI开发平台ModelArts

String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业运行失败排查指导 - AI开发平台ModelArts

or bucket not found.')”。原因：Moxing在进行文件复制时，未找到train_data_obs目录。处理建议：修改train_data_obs目录为正确地址，重新启动训练作业。另外在Moxing下载OBS对象过程中，不要删除相应OBS目录下的对象，否

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建自动模型优化的训练作业 - AI开发平台ModelArts

1-py_3.7-ubuntu_18.04-x86_64，并且优化的超参类型为float类型，ModelArts支持用户使用超参搜索功能。在0代码修改的基础下，实现算法模型的超参搜索。需要完成以下步骤：准备工作创建算法创建训练作业查看超参搜索作业详情准备工作数据已完成准备：已

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
从OBS下载文件 - AI开发平台ModelArts

失败响应参数说明参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。父主题： OBS管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
查询训练作业的运行指标 - AI开发平台ModelArts

String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
上传文件至OBS - AI开发平台ModelArts

失败响应参数说明参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。父主题： OBS管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

module name 'unidecode'” 问题现象从mindspore开源gitee中master分支下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name 'unidecode'。原因分析 requirements

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查看卡信息修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。删除已创建的pod。 kubectl delete -f config.yaml 将config.yaml文件中“limit”和“request”改为8。 vi config.yaml 图3 修改卡数重新创建pod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

n.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname # job名字，根据实际场景修改 namespace:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key 标志来选择用于训练的列。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
自动学习模型训练图片异常？ - AI开发平台ModelArts

针对不同的异常情况说明及解决方案参见表1。表1 自动学习训练中图片异常情况说明（图像分类和物体检测）序号图片异常显示字段图片异常说明解决方案字段解决方案说明 1 load failed 图片无法被解码且不能修复 ignore 系统已自动过跳过这张图片，不需要用户处理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练

总条数： 904

上一页
1
...
6
7
8
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

在线服务处于运行中状态时，如何填写推理请求的request header和request body - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

从OBS下载文件 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

上传文件至OBS - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

自动学习模型训练图片异常？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线