搜索_华为云

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
什么是ModelArts - AI开发平台ModelArts

件以及自研的加速插件。 ModelArts Lite-Cluster 面向k8s资源型用户，提供k8s原生接口，用户可以直接操作资源池中的节点和k8s集群。适用于已经自建AI开发平台，仅有算力需求的用户。要求用户具备k8s基础知识和技能。 ModelArts Edge 为客户提

 帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力，因此在多实例时需要自主制定负载均衡策略。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。裸机的本地磁盘为物理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
Lite Cluster使用流程 - AI开发平台ModelArts

ite Cluster的基本使用流程，帮助您快速上手。图1 资源池架构图如图所示为Lite Cluster架构图。Lite Cluster基于CCE服务实现对资源节点的管理，因此，用户首先需要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时，M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

- role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_name] # 指定从maos-node-agent-字符串开头的POD收集指标数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

d 8卡。购买并开通资源如果使用Cluster资源，请先阅读Lite Cluster资源开通，熟悉集群资源开通流程，再开始操作购买k8s Cluster资源。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

d 8卡。购买并开通资源如果使用Cluster资源，请先阅读Lite Cluster资源开通，熟悉集群资源开通流程，再开始操作购买k8s Cluster资源。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

d 8卡。购买并开通资源如果使用Cluster资源，请先阅读Lite Cluster资源开通，熟悉集群资源开通流程，再开始操作购买k8s Cluster资源。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
Lite Cluster&Server介绍 - AI开发平台ModelArts

ModelArts Lite Cluster面向k8s资源型用户，提供托管式k8s集群，并预装主流AI开发插件以及自研的加速插件，以云原生方式直接向用户提供AI Native的资源、任务等能力，用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
部署推理服务 - AI开发平台ModelArts

启动pod成功执行如下命令查看pod日志，如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明： ${pod_name}：pod名，例如图1${pod_name}为yourapp-87d9b5b46-c46bk。图2 启动服务成功

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

启动pod成功执行如下命令查看pod日志，如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明： ${pod_name}：pod名，例如图1${pod_name}为yourapp-87d9b5b46-c46bk。图2 启动服务成功

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
推理场景介绍 - AI开发平台ModelArts

Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.3版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 图1 启动pod成功执行如下命令查看pod日志，若打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明： ${pod_name}：pod名，例如图1${pod_name}为yourapp-87d9b5b46-c46bk。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
配置Lite Cluster存储 - AI开发平台ModelArts

表1 容器挂载存储的方式及差异容器挂载存储的方式使用场景特点挂载操作参考 EmptyDir 适用于训练缓存场景。 Kubernetes的临时存储卷，临时卷会遵从Pod的生命周期，与Pod一起创建和删除。使用临时存储路径 HostPath 适用于以下场景：容器工作负载程序生成的日志文件需要永久保存。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

VPC下创建弹性云服务器登录弹性云服务器ECS控制台，单击右上角“购买弹性云服务器”，进入购买弹性云服务器页面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
推理精度测试 - AI开发平台ModelArts

vllm_path：构造vllm评测配置脚本名字，默认为vllm。 host：与起服务的host保持一致，比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 1251

上一页
1
2
3
4
5
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线