检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件安装Prometheus,详情请参见Installation。 操作步骤 分别获取目标集群的bearer_token
表1 StorageClass StorageClass名称 对应的存储资源 csi-disk 云硬盘 csi-disk-topology 延迟绑定的云硬盘 csi-sfs 文件存储 csi-obs 对象存储 csi-sfsturbo 极速文件存储 通过如下命令将所需的Storag
在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每
mespace,请不要备份名称为paas.elb的Secret。因为paas.elb的内容是会定期更新,备份后再恢复时可能已经失效,会影响网络存储相关功能。 挂载到容器的持久化存储。 由于Restic工具限制,不支持进行HostPath类型存储迁移,解决方法请参考无法备份HostPath类型存储卷。
高优先级业务正常调度。详情请参见优先级调度与抢占。 集群默认调度器设置为Volcano调度器时支持该配置。 基于优先级抢占调度能力与Pod延迟创建能力不可同时开启。 资源利用率优化调度(Volcano调度器支持) 装箱策略(Binpack) 启用该能力后,调度器优先选择具有最多请
MA节点之间进行内存访问时会产生延迟,开发者可以通过优化任务调度和内存分配策略,来提高内存访问效率和整体性能。 在云原生环境中,对于高性能计算(HPC)、实时应用和内存密集型工作负载等需要CPU间通信频繁的场景下,跨NUMA节点访问会导致增加延迟和开销,从而降低系统性能。为此,v
容器组(Pod)是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器(Container)、存储资源(Volume)、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式: Pod中运行一个容器。这是Kubernetes最常见的用法,您可以
sysctl fs.inotify.max_user_watches netdev_max_backlog /etc/sysctl.conf 网络协议栈收包队列大小,参数值过小时极易不足。 查看参数: sysctl net.core.netdev_max_backlog net.core
Worker),使用默认调度器,有可能会出现(a)、(b)、(c)三种情况的任意一种情况,(c)才是最想要的调度结果。因为在(c)中,Ps和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高
tabilization-window这两个启动参数代表缩容冷却时间和扩容冷却时间,这样保证在冷却时间内,跳过扩缩容。1.14版本之后引入延迟队列,保存一段时间内每一次检测的决策建议,然后根据当前所有有效的决策建议来进行决策,从而保证期望的副本数尽量少地发生变更,保证稳定性。 忍
待纳管的云服务器所在VPC和子网需修改成节点池相同的VPC和子网。 更多操作指导请参见ECS切换虚拟私有云。 登录ECS控制台。 单击目标云服务器“操作”列下的“更多 > 网络/安全组 > 切换VPC”。 设置切换VPC参数。 虚拟私有云:选择需要切换的VPC。 子网:选择需要切换的子网。 私有IP地址:根据需求选择自动分配或使用已有IP。
自定义监控数据需要保留的天数,默认为15天。 存储 支持云硬盘作为存储,按照界面提示配置如下参数: 可用区:请根据业务需要进行选择。可用区是在同一区域下,电力、网络隔离的物理区域,可用区之间内网互通,不同可用区之间物理隔离。 子类型:支持普通IO、高IO和超高IO三种类型。 容量:请根据业务需要输入存储容量,默认10G。
<pod-name> FailedAttachVolume 请检查Everest插件状态和节点网络连接,同时确保节点具有正确的权限。 FailedMount 请检查Everest插件状态和节点网络连接,同时确保节点具有正确的权限。 InvalidDiskCapacity 请检查节点的磁
性,以及“ps”与“ps”之间的反亲和性,可使“ps”和“worker”尽量调度到同一台节点上,从而提升“ps”和“worker”之间进行网络和数据交互的效率,进而提升计算效率。然而Kubernetes默认调度器在调度Pod过程中,仅会检查Pod与现有集群下所有已经处于运行状态P
保持默认,单击保存。 登录Gitlab启用webhook功能。 开启本地请求,因为 GitLab 10.6 版本以后为了安全,不允许向本地网络发送 WebHook 请求。 登录到 Gitlab-> java-demo项目中,左边列选择 Settings->webhook,在URL和
请更换其他可用的集群规格,或联系技术支持。 400 CCE.01400005 Container network CIDR blocks conflict. 容器网络网段冲突。 请参考返回的message检查容器网段。 400 CCE.01400006 Content type not supported
belet共享磁盘空间说明。 npd插件:需升级至1.18.10及以上版本 log-agent插件:需升级至1.3.0及以上版本 容器隧道网络集群升级至1.19.16-r4、1.21.7-r0、1.23.5-r0、1.25.1-r0及之后的版本时,会移除匹配目的地址是容器网段且源
同理,删除subpath类型的卷也不会实际删除后端的SFS Turbo资源。 创建subpath类型SFS Turbo存储卷 创建SFS Turbo资源,选择网络时,请选择与集群相同的VPC与子网。 新建一个StorageClass的YAML文件,例如sfsturbo-subpath-sc.yaml。
同理,删除subpath类型的卷也不会实际删除后端的SFS Turbo资源。 创建subpath类型SFS Turbo存储卷 创建SFS Turbo资源,选择网络时,请选择与集群相同的VPC与子网。 新建一个StorageClass的YAML文件,例如sfsturbo-subpath-sc.yaml。
节点规格为“磁盘增强型”或“超高I/O型”时,有一块数据盘可以是本地盘。 本地磁盘实例有宕机风险,不保证数据可靠性,建议您使用云硬盘存储您的业务数据。 网络配置 表4 网络配置参数 参数 参数说明 虚拟私有云 默认为集群所在VPC,不可修改。 节点子网 节点子网默认使用创建集群时的子网配置,也可以选择其他子网。