检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点
件以及自研的加速插件。 ModelArts Lite-Cluster 面向k8s资源型用户,提供k8s原生接口,用户可以直接操作资源池中的节点和k8s集群。 适用于已经自建AI开发平台,仅有算力需求的用户。要求用户具备k8s基础知识和技能。 ModelArts Edge 为客户提
post(url, data=body) print(response.content) 由于高速通道特性会缺失负载均衡的能力,因此在多实例时需要自主制定负载均衡策略。 父主题: Standard推理部署
择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。 裸机的本地磁盘为物理
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
ite Cluster的基本使用流程,帮助您快速上手。 图1 资源池架构图 如图所示为Lite Cluster架构图。Lite Cluster基于CCE服务实现对资源节点的管理,因此,用户首先需要购买一个CCE集群。在ModelArts控制台购买Lite Cluster集群时,M
- role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_name] # 指定从maos-node-agent-字符串开头的POD收集指标数据
d 8卡。 购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。
d 8卡。 购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。
d 8卡。 购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。
ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见弹性集群k8s Cluster。 ModelArts
启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。 图2 启动服务成功
启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。 图2 启动服务成功
Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。 支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23
Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.3版本。 支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23
running”状态代表启动成功。 kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,若打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。
Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。 支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23
表1 容器挂载存储的方式及差异 容器挂载存储的方式 使用场景 特点 挂载操作参考 EmptyDir 适用于训练缓存场景。 Kubernetes的临时存储卷,临时卷会遵从Pod的生命周期,与Pod一起创建和删除。 使用临时存储路径 HostPath 适用于以下场景: 容器工作负载程序生成的日志文件需要永久保存。
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为“
vllm_path:构造vllm评测配置脚本名字,默认为vllm。 host:与起服务的host保持一致,比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port:服务端口,与启动服务时的端口保持,比如8080。 max_out_len:在运行类似mmlu