检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
势: 全托管免运维:ELB属于全托管免运维的云服务,不占用工作节点。 高可用性:ELB支持多可用区的同城双活容灾,无缝实时切换。完善的健康检查机制,保障业务实时在线。 自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。
2为默认模式表示当前卡还没被用于XGPU设备分配 xgpu_device_health Gauge XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题: 仪表盘
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
ubernetes Certified Service Provider,KCSP),是国内最早投入Kubernetes社区的厂商,是容器开源社区主要贡献者和容器生态领导者。华为云也是CNCF云原生计算基金会的创始成员及白金会员,云容器引擎是全球首批通过CNCF基金会Kubernetes一致性认证的容器服务。
sysctl -p echo 4194304 > /sys/fs/cgroup/pids/kubepods/pids.max 执行如下命令检查是否修改成功,当返回值与修改值一致时说明修改正确。 # sysctl kernel.pid_max kernel.pid_max = 4194304
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
快照”; 使用 restic备份 时,提供对EVS、SFS、SFS Turbo、OBS类型的PV卷做数据备份,并上传到OBS备份仓库中; 开源的restic会对备份时间点的数据做自有快照,并上传数据,不影响用户后续数据的读写,但restic不做文件内容的校验和业务一致性校验,其特性遵循restic约束;
空闲节点缩容并发数,默认值:10。 unremovableNodeRecheckTimeout 否 int 节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0
问题现象: 在CCE集群中新增节点时创建失败。 解决方法: 您可单击集群名称,查看“集群信息”页面。在“网络信息”中单击“节点默认安全组”后的按钮,检查集群的节点默认安全组是否被删除,且安全组规则需要满足集群安全组规则配置。 如果您的账号下含有多个集群,需要统一管理节点的网络安全策略,您也
应的安全组规则进行安全加固。 详情请参见如何加固CCE集群的自动创建的安全组规则? 节点应按需进行加固 CCE服务的集群节点操作系统配置与开源操作系统默认配置保持一致,用户在节点创建完成后应根据自身安全诉求进行安全加固。 CCE提供以下建议的加固方法: 通过“创建节点”的“安装后
段配置需要执行的操作,例如启动命令、启动后处理和停止前处理,详情请参见设置容器生命周期。 健康检查(可选):根据需求选择是否设置存活探针、就绪探针及启动探针,详情请参见设置容器健康检查。 环境变量(可选):支持通过键值对的形式为容器运行环境设置变量,可用于把外部信息传递给Pod中
已配置存根域:如果配置了存根域和上游DNS服务器,DNS查询将基于下面的流程对请求进行路由: 查询首先被发送到coredns中的DNS缓存层。 从缓存层,检查请求的后缀,并根据下面的情况转发到对应的DNS上: 具有集群后缀的名字(例如“.cluster.local”):请求被发送到coredns。
容器隧道网络在节点网络基础上通过隧道封装网络数据包。当从容器访问同一VPC下的其他资源时,节点访问权限的有效性决定了容器访问的通畅性。因此,如果出现访问不通的情况,需要检查与确认被访问服务的安全组配置是否允许容器所在节点的访问。 VPC网络 在VPC网络中,使用VPC路由功能来转发容器的流量。容器网段与节点所
执行如下命令,新建用于存放该应用的目录。例如目录设为apptest。 mkdir apptest cd apptest 使用xShell工具,将已下载的依赖文件存放到apptest目录下。 解压缩依赖文件。 tar -zxf apache-tomcat-7.0.82.tar.gz
group强制停止该容器。 运行容器的节点本身资源不足(OOM),则节点内核会选择停止一些进程来释放内存,可能会导致容器被终止。 容器健康检查失败,kubelet会停止该容器。 其他外部进程强制停止容器,例如恶意脚本。 139 分段错误(SIGSEGV) 表示容器收到了来自操作系
规则详情: 参数 说明 场景示例 规则名称 自定义告警规则的名称 CoreDNS内存使用率超过百分之八十 描述(可选) 添加告警规则描述。 检查CoreDNS容器内存使用率是否大于80%。 告警规则(PromQL) 输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例。 本例
Ingress控制器插件。 集群中已安装云原生监控插件(部署模式需要选择“本地数据存储”)。 已使用kubectl命令行工具或CloudShell连接集群。 已安装压力测试工具Apache Benchmark。 创建业务负载和对应的Service 本文以两个服务通过Nginx Ingress实现对外的流量路由为例进行演示。
请参见采集NGINX Ingress访问日志。 ICAgent和云原生日志采集插件比较 表1 ICAgent和云原生日志采集插件比较 采集工具 ICAgent 云原生日志采集插件 日志存储位置 LTS AOM 1.0 LTS AOM 2.0 支持采集内容 容器标准输出 容器内日志文件
若您的集群对接了对象存储服务,且需同步搬迁至上云,可以使用对象存储迁移服务 OMS,帮助您将对象存储中的数据在线迁移至对象存储服务。其他存储类型暂未提供官方工具支持。 请由运维或者开发人员进行对象存储数据的迁移,详情请参见创建单个迁移任务。完成迁移后,可参考对接已有对象存储挂载到应用实例。 目前对
云原生成本治理,因此需要获得该权限。 CCE Tenant Guest 云原生成本治理支持对集群关联的 OBS、DNS 等全局资源配置进行检查,提前发现配置问题,因此需要获得该权限。 CCE CCE Administrator 云原生成本治理在运行过程中需要访问 CCE 获取集群