检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
为CCE集群添加节点,请参考创建节点。 ServiceStage支持使用CCE集群下“弹性云服务器-虚拟机”、“裸金属服务器”类型的节点。 CCE集群节点支持的操作系统,请参考节点操作系统。 CCE集群节点容器引擎当前支持Docker和Containerd。
必须有_SUCCESS或 _FAILURE文件,标志用户镜像任务完成(或失败)。 可选有output_dir/auxiliary目录,用于存储附加文件。对格式没有限制。 人工打标支持 Input 程序必须能接受task_content_json,该参数以环境变量的形式引入镜像。
NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。
批量计算 在CCE集群中部署使用Kubeflow 在CCE集群中部署使用Caffe 在CCE集群中部署使用Tensorflow 在CCE集群中部署使用Flink 在CCE集群中部署使用ClickHouse 在CCE集群中部署使用Spark
容灾 CCE集群高可用推荐配置 在CCE中实现应用高可用部署 插件高可用部署
CCE.Pod 模型说明 CCE.Pod用于为云容器引擎服务(CCE)的集群创建kubernetes集群中的Pod资源。
CCE容器中域名解析的最佳实践 本文档重点介绍在CCE容器中如何配置域名解析。 服务 在创建工作负载(Deployment或ReplicaSet)之前,需要先创建与之相关联的服务。 因为Kubernetes在启动容器时,会为容器提供所有正在运行的服务作为环境变量。
昇腾迁移融合算子API替换样例 部分torch原生的API在下发和执行时会包括多个小算子,下发和执行耗时较长,可以通过替换成NPU API来使能融合算子,提升训练性能。
CCE.StatefulSet 依赖关系 CCE.NodePool 依赖关系 CCE.Deployment 依赖关系 CCE.Pod 依赖关系 RDS.PostgreSQL 被包含关系 CCE.Cluster 输出 属性 参数类型 描述 chargeMode 否 按流量计费还是按带宽计费
操作步骤 为CCE集群安装sermant-injector,请参考CCE部署场景接入指南。 为工作负载(deployment)中的微服务配置版本号或标签。 在下图所示位置为工作负载(deployment)配置环境变量,配置环境变量后,应用注册时,会使用该环境变量进行注册。
探针接入CCE 本章节指导您将探针接入CCE。 操作步骤 登录MAS控制台。 单击“混沌工程>探针管理”,进入“探针管理”页面。 在“我的应用”栏下选择所需安装的应用,该应用已纳管CCE资源。 选择“云容器引擎 CCE”页签。 单击操作列“安装探针”。
表关联作业算子列表(邀测) 功能介绍 查询表相关的作业算子列表,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 调用方法 请参见如何调用API。
解决方案 创建CCE集群,在购买BCS实例时选择已有目标集群: 登录CCE控制台,在云容器引擎界面单击“购买Kubernetes集群”,操作步骤请参考:快速创建Kubernetes集群。 父主题: 具体报错排查
操作步骤 为CCE集群安装sermant-injector,请参考CCE部署场景接入指南。 为工作负载(deployment)打上标签并重启相关服务。 在下图所示位置为工作负载(deployment)打上标签sermant-injection: enabled。
登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 父主题: 在CCE集群中部署使用Caffe
CCE服务委托授权 由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。
CCE服务委托授权 由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。
作业需要输出的文件类似如下结构: |--- /tmp/output 环境变量output_dir指定的输出目录 |--- opendata_to_platform.yaml 输出描述文件,详情见下文 |--- _SUCCESS