搜索_华为云

包年/包月 - AI开发平台ModelArts
包年/包月 - AI开发平台ModelArts

/包月计费模式的业务场景：稳定业务需求：对于长期运行且资源需求相对稳定的业务，例如大模型训练单任务运行时间较长的场景，包年/包月计费模式能提供较高的成本效益。长期项目：对于周期较长的项目，例如科研类的模型训练，包年/包月计费模式可以确保在整个项目周期内资源的稳定使用。约束限制

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
模型训练使用流程 - AI开发平台ModelArts

两个过程可以相互转换。如开发阶段代码稳定后，则会进入实验阶段，通过不断尝试调整超参来迭代模型；或在实验阶段，有一个可以优化训练的性能的想法，则会回到开发阶段，重新优化代码。图1 模型开发过程 ModelArts提供了模型训练的功能，方便您查看训练情况并不断调整您的模型参数。您还可以基于不同的数据，选择不同规格的资源池用于模型训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？当前训练任务排队的逻辑是先进先出，前面的任务没运行完后面的任务不会运行，有可能会造成小任务被“饿死”，需要用户注意。饿死指的是前面的任务被一个大的任务堵着（例如是64卡），需要等空闲64卡这个任务才能运行，64卡的任务后面跟着1卡的。即使现

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
与其他云服务的关系 - AI开发平台ModelArts

Notebook实例中的数据或代码文件存储在OBS中。训练模型训练作业使用的数据集存储在OBS中。训练作业的运行脚本存储在OBS中。训练作业输出的模型存储在指定的OBS中。训练作业的过程日志存储在指定的OBS中。模型管理训练作业结束后，其生成的模型存储在OBS中，创

 帮助中心 > AI开发平台ModelArts > 产品介绍
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

原因分析出现该问题的可能原因：直接在OBS上写tensorboard文件，存在不稳定的风险。处理方法建议先将Tensorboard文件写到本地，然后再复制回OBS。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
ModelArts与其他服务的关系 - AI开发平台ModelArts

Notebook实例中的数据或代码文件存储在OBS中。训练模型训练作业使用的数据集存储在OBS中。训练作业的运行脚本存储在OBS中。训练作业输出的模型存储在指定的OBS中。训练作业的过程日志存储在指定的OBS中。 AI应用管理训练作业结束后，其生成的模型存储在OBS中，

帮助中心 > AI开发平台ModelArts > 常见问题 > 历史文档待下线
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据由于ModelArts本身没有数据存储的功能，ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，报错“ModelArts.4206”。原因分析 ModelArts.4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行，ModelArts对单个API的推理请求流量做了限制，同时为了保证推理服务可以稳定运行在合理区间，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
日志提示“no socket interface found” - AI开发平台ModelArts

L_IB_GID_INDEX、NCCL_IB_TIMEOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Lite Cluster高危操作一览表 - AI开发平台ModelArts

能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1 操作及其对应风险

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
Lite Cluster&Server介绍 - AI开发平台ModelArts

同计费类型/计费周期的资源，解决如下用户的使用场景：用户在包长周期的资源池中无法扩容短周期的节点。用户无法在包周期的资源池中扩容按需的节点（包括AutoScaler场景）。支持SFS产品权限划分支持SFS权限划分特性，可以实现训练场景中，挂载的SFS的文件夹能够权限控制，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
Lite Server高危操作一览表 - AI开发平台ModelArts

Server在日常操作与维护过程中涉及的高危操作，需要严格按照操作指导进行，否则可能会影响业务的正常运行。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
训练迁移快速入门案例 - AI开发平台ModelArts

因为自动迁移其实是对于torch运行环境中常用的GPU上的接口进行和昇腾设备的映射。原有的训练任务代码逻辑中例如数据集导入、预训练权重、GPU自定义算子的内容，以及对应的环境的超参数等内容都需要在实际的昇腾环境中进行调整。父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
ModelArts计费模式概述 - AI开发平台ModelArts

以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格，请参见ModelArts价格详情。包年/包月：一种预付费模式，即先付费再使用，按照订单的购买周期进行结算。购买周期越长，享受的折扣越大。一般适用于计算资源需求量长期稳定的成熟业务。按需计

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

韧性特指安全韧性，即云服务受攻击后的韧性，不含可靠性、可用性。本章主要阐述ModelArts服务受入侵的检测响应能力、防抖动的能力、域名合理使用、内容安全检测等能力。安全防护套件覆盖和使用堡垒机，增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它不仅比传统的WebUI更迅速，而且显存占用更为经济。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
创建Notebook实例 - AI开发平台ModelArts

image_id 是 String 待创建Notebook实例的镜像，需要指定镜像ID，ID格式为通用唯一识别码（Universally Unique Identifier，简称UUID）。镜像的ID可通过调用查询支持的镜像列表接口获取。 name 是 String 实例名称，长度

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练网络迁移总结 - AI开发平台ModelArts

确保算法在GPU训练时，持续稳定可收敛。避免在迁移过程中排查可能的算法问题，并且要有好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的优势。由于构造和运行机制的差别，整个

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导

总条数： 2291

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

包年/包月 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ - AI开发平台ModelArts

与其他云服务的关系 - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

ModelArts与其他服务的关系 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

ModelArts计费模式概述 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线