检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
示例二中,Pod的CPU申请值为20U,设置拓扑策略为“best-effort”,它将被调度到node-3,因为node-3可以在单个NUMA节点上分配Pod的CPU请求,而node-2需要在两个NUMA节点上执行此操作。 确认NUMA使用情况 您可以通过lscpu命令查看当前节点的CPU概况: # 查看当前节点的CPU概况
rnetes核心资源的度量数据。 登录集群节点,准备一个算力密集型的应用。当用户请求时,需要先计算出结果后才返回给用户结果,如下所示。 创建一个名为index.php的PHP文件,文件内容是在用户请求时先循环开方1000000次,然后再返回“OK!”。 vi index.php 文件内容如下:
修改CCE集群所在的VPC子网的DNS配置,这样新创建的Node节点的/etc/resolv.conf文件中会直接刷新成指定的域名解析服务器地址。 此方法需要确保节点能够正常使用IDC的域名解析服务器解析华为云内网域名,否则会导致节点无法创建。建议在调试无问题后再修改VPC子网的DNS配置。 图3 子网的DNS配置
Pod实例画像的周期,单位为秒,支持范围是60-2592000,即1分钟到1个月。对于指标采集累积时长未达到周期的Pod,将使用Pod资源请求量来计算节点的资源用量。 因此,初始启用基于Pod实例画像的算法,未达到画像周期之前,节点的超卖量会为0。 使用示例 使用基于Pod实例画像的资源超卖前
0控制台,单击左侧导航栏中的“指标浏览”。 选择对接AOM的Prometheus实例,并选择“按普罗语句添加”。 例如查询CoreDNS接受到的请求数响应成功率,对应的PromQL语句如下: sum(rate(coredns_dns_responses_total{instance=~"10
rnetes核心资源的度量数据。 登录集群节点,准备一个算力密集型的应用。当用户请求时,需要先计算出结果后才返回给用户结果,如下所示。 创建一个名为index.php的PHP文件,文件内容是在用户请求时先循环开方1000000次,然后再返回“OK!”。 vi index.php 文件内容如下:
集群ID 默认取值: 不涉及 target_cluster_id 是 String 集群ID,获取方式请参见如何获取接口URI中参数。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式) 约束限制:
U虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510.47.03,驱动程序默认会占用280MiB;而该显存占用与厂商的驱动程序版本也有一定相关性,例如535系列驱动比470系列占用更多。
9镜像中有进行安全增强,移除系统中部分非安全或过期知名证书配置,部分第三方镜像在其他类型节点上未报错,在EulerOS 2.9系统报此错误属正常现象,也可通过下述解决方案进行处理。 解决方案: 确认报错unknown authority的第三方镜像服务器地址和端口。 从"实例拉取镜
并允许外部网络通过集群节点的公网IP和自动分配的对外端口号来访问Flink JobManager服务。该节点访问类型Service会将外部请求转发给相应的容器。 登录CCE控制台,进入“工作负载 > 无状态负载”页面,选择flink-jobmanager,单击“访问方式”页签,服务模块单击“创建服务”。
参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式) 约束限制:
可以设置真实负载阈值生效方式为硬约束,CPU真实负载阈值和内存真实负载阈值在60~80之间设置。 配置案例2 随着集群状态,工作负载流量与请求的动态变化,节点的利用率也在实时变化,集群有可能会再次出现负载极端不均衡的情况,在业务Pod允许被驱逐重新调度的场景中,通过负载感知和热点
约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 接入管理 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1
登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点重启 CCE 节点重启立即触发告警 登录集群查看告警节点状态,并确保节点正常启动可用,关注重启原因 节点kubelet故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可
工作负载创建完成后,可以通过访问工作负载验证部署是否成功。 在上面的部署中选择节点访问方式(NodePort),使用节点的“IP:端口”访问工作负载,如果能正常访问,则说明工作负载部署成功。 访问地址可以在工作负载详情页的访问方式页签下获取。 父主题: 实施步骤
TensorFlow的作业包含Ps和Worker两种不同的角色,这两种角色的Pod要配合起来完成整个作业,如果只是运行一种角色Pod,整个作业是无法正常执行的,而默认调度器对于Pod调度是逐个进行的,对于Kubeflow作业TFJob的Ps和Worker是不感知的。在集群高负载(资源不足)
创建工作负载”,完成工作负载创建。 在创建成功页面单击“返回工作负载列表”,查看工作负载状态,若显示为“运行中”则jenkins应用已可以正常访问。 登录并初始化Jenkins 在CCE控制台,单击左侧栏目树中的“服务”,在“服务”页签下查看jenkins的访问方式。 图6 访问8080端口对应的访问方式
选择“自定义规格”时,您可根据需求调整插件实例数和资源配额。实例数为1时插件不具备高可用能力,当插件实例所在节点异常时可能导致插件功能无法正常使用,请谨慎选择。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需
选择“自定义规格”时,您可根据需求调整插件实例数和资源配额。实例数为1时插件不具备高可用能力,当插件实例所在节点异常时可能导致插件功能无法正常使用,请谨慎选择。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需
15到1.23版本的集群中显示。 策略成功触发后,在此缩容/扩容冷却时间内,不会再次触发缩容/扩容,目的是等待伸缩动作完成后在系统稳定且集群正常的情况下进行下一次策略匹配。 伸缩配置 该设置仅在1.25及以上版本的集群中显示。 系统默认:采用社区推荐的默认行为进行负载伸缩,详情请参见社区默认行为说明。