检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色,这两种角色的Pod要
3-r0及之后版本的集群中,CCE使用的数据盘支持采用容器引擎和Kubelet共享磁盘空间的方式,即不再划分容器引擎 (Docker/Containerd) 和Kubelet组件的空间。 Pod容器空间分配:即容器的basesize设置,每个工作负载下的容器组 Pod 占用的磁盘空间设置
将有可能被与该节点在同一局域网中的其他主机,或与该服务运行在同一节点上的容器所访问。如果端口1234上的服务不需要额外的认证(因为假设只有其他localhost进程可以),那么很容易受到利用此bug进行攻击。 华为云提醒使用kube-proxy的用户及时安排自检并做好安全加固。
0网络模式下,CCE对接VPC的SecurityGroup能力,华为云在kubernetes层面设计了一个以SecurityGroup为核心的新的crd资源对象。支持用户自定义特定需求的工作负载的安全组,并对外提供服务。 商用 10 CCE Turbo集群的ELB v3服务直通普通容器和安全容器
CCE节点镜像使用建议: 节点镜像推荐优先使用CCE服务维护的默认节点镜像。相关镜像经过严格的测试,且能获得最新的更新推送,具有更好的兼容性、稳定性和安全性。 如果您有特殊场景需要使用自定义镜像功能,请使用CCE提供的基础镜像来制作自定义镜像。暂不支持Huawei Cloud EulerOS
在Kubernetes中,StorageClass是一种资源对象,描述了集群中的存储类型“分类”,用于定义存储卷的配置模板。每个StorageClass对象都定义了一种存储方式,包括动态卷供应的配置参数,如卷的类型、访问模式、卷的生命周期策略等,在创建PVC/PV均需要指定StorageClass。
使用限制 单账号跟踪的事件可以通过云审计控制台查询。多账号的事件只能在账号自己的事件列表页面去查看,或者到组织追踪器配置的OBS桶中查看,也可以到组织追踪器配置的CTS/system日志流下面去查看。 用户通过云审计控制台只能查询最近7天的操作记录。如果需要查询超过7天的操作记录,您必
需要认证信息、密钥的敏感信息等的资源类型,内容由用户决定。 云硬盘存储卷:CCE支持将EVS创建的云硬盘挂载到容器的某一路径下。当容器迁移时,挂载的云硬盘将一同迁移。这种存储方式适用于需要永久化保存的数据。 文件存储卷: CCE支持创建SFS存储卷并挂载到容器的某一路径下,也可以
PVC。 对象存储卷使用约束如下: 使用对象存储时,挂载点不支持修改属组和权限。 使用PVC挂载对象存储时,负载每挂载一个对象存储卷,后端会产生一个常驻进程。当负载使用对象存储数过多或大量读写对象存储文件时,常驻进程会占用大量内存,为保证负载稳定运行,建议负载使用的对象存储卷数量
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个
包年/包月的集群或节点到期后会影响服务正常运行。如果您想继续使用,需要在指定的时间内为集群或节点进行续费,否则集群及节点等资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月的集群或节点,按需计费的资源不需要续费,只需要保证账户余额充足即可。 包年/包月的集群或节点在
type: ClusterIP 的服务。 LoadBalancer:使用云提供商的负载均衡器向外部暴露服务。华为云的Loadbalancer类型服务对接的ELB负载均衡服务。 ExternalName:将服务映射到 externalName 字段的内容(例如,映射到主机名api.foo
C网段和CCE集群容器网段能够互访。专线的创建方法请参见云专线快速入门。 操作步骤 CoreDNS的配置都存储在名为coredns的ConfigMap下,您可以在kube-system命名空间下找到该配置项。使用如下命令可以查看到默认配置的内容。 kubectl get configmap
一个基于Kubernetes的扩展套件,主要聚焦于云原生应用的自动化,比如部署、发布、运维以及可用性防护。 Gatekeeper 一个基于开放策略(OPA)的可定制的云原生策略控制器,有助于策略的执行和治理能力的加强,在集群中提供了更多符合Kubernetes应用场景的安全策略规则。 Kubernetes
CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问集群界面的节点监控是怎么样的原理,是否只报最大磁盘使用率的数据呢? 问题解答: CCE集群监控
StatefulSet是用来管理有状态应用的对象。和Deployment相同的是,StatefulSet管理了基于相同容器定义的一组Pod。但和Deployment不同的是,StatefulSet为它们的每个Pod维护了一个固定的ID。这些Pod是基于相同的声明来创建的,但是不能相互替换,无论怎么调度,每个Pod都有一个永久不变的ID。
给华为云CCE服务进行操作。关于资源委托详情,您可参考委托进行了解。 CCE自动创建的委托如下: cce_admin_trust:具有除IAM管理外的全部云服务管理员权限,用于调用CCE依赖的其他云服务资源。 cce_cluster_agency:仅包含CCE组件依赖的云服务资源
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
容器网络:为集群内容器分配IP地址,负责容器的通信,当前支持多种容器网络模型,不同模型有不同的工作机制。 服务网络:服务(Service)是用来解决访问容器的Kubernetes对象,每个Service都有一个固定的IP地址。 在创建集群时,您需要为各个网络选择合适的网段,确保各网段之间不存在冲
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。