检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。
elif [[ -n "$VC_MAIN_HOSTS" ]]; then # 针对 Lite Cluster CCE 集群平台 # 获取 RANK_TABLE_FILE 的信息 RANKTABLE_RESULT=$(python $SHELL_FOLDER/
Step5 使用CCE进行部署 在CCE上创建工作负载,创建工作负载时所需的yaml文件可参考在Lite Cluster资源池上使用Snt9B完成推理任务。 在CCE上创建服务。 父主题: 文生图模型训练推理
上传镜像 操作场景 客户端上传镜像,是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。
elif [[ -n "$VC_MAIN_HOSTS" ]]; then # 针对 Lite Cluster CCE 集群平台 # 获取 RANK_TABLE_FILE 的信息 RANKTABLE_RESULT=$(python $SHELL_FOLDER/
本方案目前仅适用于企业客户,并且需要用户具备k8s集群相关技能。 资源规格要求 推理部署推荐使用“西南-贵阳一”Region上的Cluster资源。
父主题: Lite Cluster资源管理
父主题: Lite Cluster资源管理
Kubernetes的临时存储卷,临时卷会遵从Pod的生命周期,与Pod一起创建和删除。 使用临时存储路径 HostPath 适用于以下场景: 容器工作负载程序生成的日志文件需要永久保存。 需要访问宿主机上Docker引擎内部数据结构的容器工作负载。 节点存储。
释放Lite Cluster资源 针对不再使用的Lite Cluster资源,可以释放资源,停止计费相关介绍请见停止计费。 Lite Cluster资源池资源释放后不可恢复,请谨慎操作。
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。
购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。
购买并开通资源 如果使用Cluster资源,请先阅读Lite Cluster资源开通,熟悉集群资源开通流程,再开始操作购买k8s Cluster资源。 购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。
父主题: Lite Cluster资源管理
父主题: Lite Cluster资源管理
图1 Lite Cluster资源管理介绍 父主题: Lite Cluster资源管理
父主题: Lite Cluster
ctr -n k8s.io images pull {image_url} 使用 nerdctl 工具进行镜像拉取。 nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。