检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE 云容器引擎(Cloud Container Engine,简称CCE)是一个企业级的Kubernetes集群托管服务,支持容器化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。CCE官网文档可参考云容器引擎。
K8S标签:设置附加到Kubernetes对象(比如Pod)上的键值对。最多可以添加5条标签。使用该标签可区分不同节点,可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。 污点:默认为空。支持给节点加污点来设置反亲和性,每个节点最多配置5条污点。
Matmul_all_reduce融合算子 使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。
docker run方式启动任务。 Snt9B集群在纳管到CCE集群后,会安装容器运行时,下文以docker举例。仅做测试验证,可以不需要通过创建deployment或者volcano job的方式,直接启动容器进行测试。
其他方式 需要实际分析算子层面的差异,需要联系华为工程师进行具体分析。 父主题: 模型精度调优
ctr -n k8s.io images pull {image_url} 使用 nerdctl 工具进行镜像拉取。 nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
name String 算子名称。
图5 查看节点的yaml文件 父主题: Lite Cluster资源使用
其中Containerd调用链更短,组件更少,更稳定,占用节点资源更少,Containerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。若CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。
Matmul_all_reduce融合算子 使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。
unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务如产生产生mc2融合算子错误,可参考mc2融合算子报错 结合准备数据、准备权重、准备代码,将数据集、原始权重
图1 资源池详情-基本信息 单击基本信息列中对应的“CCE集群”,进入CCE集群详情页面,在“集群信息”找到“连接信息”。 图2 链接信息 使用kubectl工具。 若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。
模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.911中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP,AscendCloud-LLM关键文件介绍如下。
docker pull {image_url} 步骤三:上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.911-xxx.zip和算子包AscendCloud-OPP-6.3.911-xxx.zip到主机中,包获取路径请参见表2。
表4 CheckTaskStats 参数 参数类型 描述 accepted_sample_count Integer 通过的样本数目。 checked_sample_count Integer 已验收的样本数目。 pass_rate Double 样本的通过率。
URI POST /v2/{project_id}/datasets/{dataset_id}/workforce-tasks/{workforce_task_id}/acceptance 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集
elif [[ -n "$VC_MAIN_HOSTS" ]]; then # 针对 Lite Cluster CCE 集群平台 # 获取 RANK_TABLE_FILE 的信息 RANKTABLE_RESULT=$(python $SHELL_FOLDER/
elif [[ -n "$VC_MAIN_HOSTS" ]]; then # 针对 Lite Cluster CCE 集群平台 # 获取 RANK_TABLE_FILE 的信息 RANKTABLE_RESULT=$(python $SHELL_FOLDER/
id 否 String 算子ID。 name 否 String 算子名称。
pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name 容器名称。