搜索_华为云

准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个O

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。 namespace 是用户创建的POD所在的命名空间。 app_kind

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
审计与日志 - AI开发平台ModelArts

事件名称部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service startOrStopService 启停边缘服务节点 service startOrStopNodesService

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

对于有多个测量维度的测量对象，使用接口查询监控指标时，所有测量维度均为必选。查询单个监控指标时，多维度dim使用样例：dim.0=service_id,530cd6b0-86d7-4818-837f-935f6a27414d&dim.1="model_id,3773b058-5

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
准备镜像环境 - AI开发平台ModelArts

创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat <<EOF > /usr/lib/systemd/system/buildkitd.service [Unit] Description=buildkitd After=network

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

{number} {service_type} service instances are allowed. {类型}服务实例总数超限，限制为{数量}。删除不再使用的服务或者联系服务运维人员增加服务实例的配额。 400 ModelArts.3523 Service {name} has

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
资源池监控 - AI开发平台ModelArts

PAAS.NODE：主机指标、网络指标、磁盘指标和文件系统指标的命名空间 PAAS.SLA：SLA指标的命名空间 PAAS.AGGR：集群指标的命名空间 CUSTOMMETRICS：默认的自定义指标的命名空间表6 dimensions 参数参数类型描述 name String

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

HCCL RANK_TABLE_FILE文件说明 Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息，用于Ascend芯片分布式通信，可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。 ModelArts提供的是模板二

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
查询支持的镜像列表 - AI开发平台ModelArts

"name" : "modelbox1.3.0-libtorch1.9.1-cuda10.2-cudnn8-euler2.9.6", "resource_categories" : [ "GPU" ], "service_type" : "TRAIN",

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
配置Lite Server存储 - AI开发平台ModelArts

高性能计算：主要是高带宽的需求，用于共享文件存储，比如基因测序、图片渲染这些。如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。如高性能计算、企业核心集群应用、企业应用系统和开发测试等。说明：高性能计算：主要是高速率、高IOPS的需求，用于作为高性能存储，比如工业设计、能源勘探这些。容量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the service failed due to connection

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Standard模型训练 - AI开发平台ModelArts

的模型提供训练作业的事件信息（训练作业生命周期中的关键事件点）、训练日志（训练作业运行过程和异常信息）、资源监控（资源使用率数据）、Cloud Shell（登录训练容器的工具）等能力，方便用户更清楚得了解训练作业运行过程，并在遇到任务异常时更加准确的排查定位问题父主题： Standard功能介绍

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
部署在线服务 - AI开发平台ModelArts

session = Session() predictor_instance = Predictor(session, service_id="your_service_id") 方式2：部署在线服务predictor 部署服务到公共资源池 1 2 3 4 5 6 7

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

选择“明细账单”，在账单列表中，单击复制资源名称。图5 复制资源名称登录ModelArts管理控制台，在左侧导航栏选择“AI专属资源池 > 弹性集群Cluster”，进入Standard资源池列表页面。在搜索框中输入2中复制的资源名称，单击图标即可查找到该资源。图6 查找资源单击操作列的“更多

 帮助中心 > AI开发平台ModelArts > 计费说明

总条数： 513

上一页
1
...
8
9
10
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备资源 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

审计与日志 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线