搜索_华为云

训练作业重调度 - AI开发平台ModelArts

当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

写说明中health参数说明。模型健康检查配置问题，需重新创建模型或者创建模型新版本，配置正确的健康检查，使用新的模型或版本重新部署服务。了解模型健康检查请参考制作模型镜像并导入中的“健康检查”参数说明。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理。大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
准备MaaS资源 - AI开发平台ModelArts

MaaS服务提供了按需套餐包，用户可以提前购买按需套餐包，从而获得灵活的、更高性价比的算力资源。当购买了套餐包，在使用公共资源池运行任务时，将会优先抵扣套餐包的配额，超出当前套餐包的额度或使用时段，将自动转为按需收费。关于套餐包的约束限制、资源包抵扣顺序和套餐包余量预警请参见套餐包。购买操作如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

SDK。（可选）Session鉴权 Session模块的主要作用是实现与公有云资源的鉴权，并初始化ModelArts SDK Client、OBS Client。 OBS管理概述 ModelArts SDK支持对OBS的SDK接口进行调用，包括创建OBS桶，上传/下载文件和文件夹，删除OBS对象和桶。

帮助中心 > AI开发平台ModelArts > SDK参考
管理Workflow工作流 - AI开发平台ModelArts

进入某条运行中的工作流，单击右上角的“停止”按钮，出现停止Workflow询问弹窗，单击确定。只有处于“运行中”状态的工作流，才会出现“停止”按钮。停止Workflow后，关联的训练作业和在线服务也会停止。复制Workflow 某条工作流，目前只能存在一个正在运行的实例，如果用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
查询训练作业版本详情 - AI开发平台ModelArts

训练作业的系统监控指标。具体请参见表6。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。 user_command String 自定义镜像训练作业的自定义镜像的容器的启动命令。 resource_id String 训练作业的计费资源ID。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练迁移适配 - AI开发平台ModelArts

accelerate==0.30.1 timm==0.9.16 准备数据集。下载Kaggle官网提供的imagenet-mini数据集，解压之后文件大小4.1GB。该数据集是从[imagenet-2012]数据集中筛选的少量数据集。准备预训练权重。下载Hugging Face权重。迁移适配。入口函数train

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
训练作业是否支持定时或周期调用？ - AI开发平台ModelArts

训练作业是否支持定时或周期调用？ ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时，可以按照业务需求进行调用。父主题：管理训练作业版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 管理训练作业版本
使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

ExportKeys.TF_SERVING) 如果标签发生变化当数据集中的标签发生变化时，需要执行如下语句。此语句需在“mox.run”之前运行。语句中的“logits”，表示根据不同网络中分类层权重的变量名，配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoi

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

针对此问题，需要根据选择的不同资源规格进行说明。如果使用免费规格，Notebook实例将在运行1小时后，自动停止。如果72小时内没有再次启动，会释放资源，即删除此Notebook实例。因此使用免费规格时，关注运行时间并注意文件备份。如果使用收费的公共资源池，未启用自动停止功

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
如何购买或开通ModelArts？ - AI开发平台ModelArts

如何购买或开通ModelArts？ ModelArts是一个即开即用的平台，无需购买或开通，直接进入ModelArts管理控制台，完成权限管理配置，然后选择所需功能，直接使用即可。 ModelArts平台仅针对使用计算规格的功能才涉及计费，公共资源池全部为按需模式，根据选用规格以及作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

large”。请减少预测请求内容后重试。当使用API调用地址预测时，请求体的大小限制是12MB，超过12MB时，请求会被拦截。使用ModelArts console的预测页签进行的预测，由于console的网络链路的不同，要求请求体的大小不超过8MB。图2 请求报错APIG.0201 APIG

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
更新训练作业描述 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。请求消息请求消息如表2所示。表2 请求参数参数是否必选参数类型说明 job_desc 是 String 对训练作业的描述，字符串的长度限制为[0, 256]。响应消息响应参数如表3所示。表3

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
VS Code背景配置为豆沙绿 - AI开发平台ModelArts

VS Code背景配置为豆沙绿在VS Code的配置文件settings.json中添加如下参数 "workbench.colorTheme": "Atom One Light", "workbench.colorCustomizations": { "[Atom One

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

-done.flag显示成功上传，但远端未接收到。解决方法关闭VS Code所有窗口后，回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Moxing安装文件如何获取？ - AI开发平台ModelArts

Moxing安装文件如何获取？ Moxing安装文件不支持下载和用户自主安装。在ModelArts的Notebook和训练作业镜像中预置了Moxing安装包，用户可以直接引用。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
Notebook实例重新启动后，需要删除本地known_hosts才能连接 - AI开发平台ModelArts

Notebook实例重新启动后，需要删除本地known_hosts才能连接可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”，如下参考所示： Host

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
服务预测失败 - AI开发平台ModelArts

在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XXXX类型的报错，表示请求在APIG（API网关）出现问题而被拦截。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
使用pip install提示Read timed out - AI开发平台ModelArts

在Notebook实例中，使用pip install时，提示“ReadTimeoutError...”或者“Read timed out...”的错误。解决办法建议先尝试使用pip install --upgrade pip，再使用pip install。父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误

总条数： 2668

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业重调度 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

准备MaaS资源 - AI开发平台ModelArts

文档导读 - AI开发平台ModelArts

管理Workflow工作流 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

训练作业是否支持定时或周期调用？ - AI开发平台ModelArts

使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

如何购买或开通ModelArts？ - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

VS Code背景配置为豆沙绿 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

Moxing安装文件如何获取？ - AI开发平台ModelArts

Notebook实例重新启动后，需要删除本地known_hosts才能连接 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

使用pip install提示Read timed out - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线