搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

预检失败&硬件正常场景三：环境预检测成功并进入用户业务阶段，硬件检测出现故障并且用户业务非正常退出，系统隔离所有故障节点并重新下发训练作业。图3 业务失败&硬件故障场景四：环境预检测成功并进入用户业务阶段，硬件无故障，当用户业务异常时系统以失败状态结束作业。图4 业务失败&硬件正常

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
约束与限制 - AI开发平台ModelArts

1个训练作业、Notebook实例或在线服务任务最多支持20个标签配额。否更多信息，请参见标签。功能限制表3 功能约束与限制功能使用限制 Standard专属资源池单次创建Standard专属资源池时，节点数建议不大于30，否则可能触发限流导致创建失败。更多信息，请参见创建专属资源池。只支持对状态为

 帮助中心 > AI开发平台ModelArts > 产品介绍
修改在线服务配置 - AI开发平台ModelArts

方式一：通过服务管理页面修改服务信息方式二：通过服务详情页面修改服务信息前提条件服务已部署成功，“部署中”的服务不支持修改服务信息进行升级。约束限制服务升级关系着业务实现，不当的升级操作会导致升级期间业务中断的情况，请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
测试用户权限 - AI开发平台ModelArts

测试用户权限由于权限配置需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。验证ModelArts权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
pipeline应用准备 - AI开发平台ModelArts

pipeline应用准备当前迁移路径是从ONNX模型转换到MindIR模型，再用MindSpore Lite做推理，所以迁移前需要用户先准备好自己的ONNX pipeline。下文以官方开源的图生图的Stable Diffusion v1.5的onnx pipeline代码为例进行说明。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
获取Workflow工作流列表 - AI开发平台ModelArts

是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 name 否 String 工作流名称。 description 否 String 工作流描述信息。 status 否 String 工作流状态。 labels

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
Step4 测试用户权限 - AI开发平台ModelArts

Step4 测试用户权限由于4中的权限需要等待15-30分钟生效，建议在配置完成后，等待30分钟，再执行如下验证操作。使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
总览Workflow工作流 - AI开发平台ModelArts

总览Workflow工作流功能介绍获取Workflow工作流统计信息。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{proje

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用MaaS压缩模型 - AI开发平台ModelArts

Llama2-13B 5~10分钟 60分钟 Llama2-70B 20~30分钟 3小时 Llama2-7B 5~10分钟 40分钟 Llama3-70B 20~30分钟 3小时 Llama3-8B 5~10分钟 40分钟 Qwen1.5-14B 5~10分钟 60分钟 Qwen1.5-72B

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建Notebook实例 - AI开发平台ModelArts

是否必选参数类型描述 script 否 String 自定义脚本内容（base64编码）或脚本绝对路径。 type 否 String 脚本类型： COMMAND script中需要指定脚本内容（base64编码）。 SCRIPT 默认值，script中需要指定脚本路径。表8 LeaseReq

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建并管理工作空间 - AI开发平台ModelArts

的子账号。当“授权对象类型”选择“IAM子用户”时，“授权对象”选择指定的IAM子用户，可选择多个。当“授权对象类型”选择“联邦用户”时，“授权对象”输入联邦用户的用户名或用户ID，支持配置多个。当“授权对象类型”选择“委托用户”时，“授权对象”选择委托名称，可选择多个。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
配额与限制 - AI开发平台ModelArts

配额与限制本节介绍ModelArts涉及的相关云服务的配额限制，帮助用户查看和管理自己的配额。什么是配额配额是在某一区域下最多可同时拥有的某种资源的数量。华为云为防止资源滥用，对云服务每个区域的用户资源数量和容量做了配额限制。如果当前资源配额限制无法满足使用需要，您可以申请扩大配额。

帮助中心 > AI开发平台ModelArts > 产品介绍
新建消息订阅Subscription - AI开发平台ModelArts

新建消息订阅Subscription 功能介绍为Workflow工作流添加消息订阅功能。工作流已订阅的事件发生时，会产生消息提醒。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

由于请求不经过推理平台，所以会丢失以下功能：认证鉴权流量按配置分发负载均衡告警、监控和统计图1 VPC直连的高速访问通道示意图约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

由于请求不经过推理平台，所以会丢失以下功能：认证鉴权流量按配置分发负载均衡告警、监控和统计图1 VPC直连的高速访问通道示意图约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
推理性能测试 - AI开发平台ModelArts

通过调用接口的方式进行测试。约束限制创建在线服务时，每秒服务流量限制默认为100次，若静态benchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Stand

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

invoke backend service due to connection refused. " 出现该报错有两种情况：流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg"："Due to

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
保存ckpt时超时报错 - AI开发平台ModelArts

他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2. 忽略该报错，因为报错不影响实际报错的权重。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2. 忽略该报错，因为报错不影响实际报错的权重。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2. 忽略该报错，因为报错不影响实际报错的权重。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法

总条数： 2247

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

测试用户权限 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

Step4 测试用户权限 - AI开发平台ModelArts

总览Workflow工作流 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

创建并管理工作空间 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

新建消息订阅Subscription - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线