检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
WLM 负载管理 CPU管控 空间管控 异常规则 资源监控
28.4-r0及以上。 选择某个企业项目后,节点池下的节点将会创建在该企业项目下。您可以通过企业项目服务(EPS)管理集群及其他资源(节点、ELB、以及节点的安全组等)。了解更多企业项目相关信息,请查看企业管理。 节点配置: 配置节点云服务器的规格与操作系统,为节点上的容器应用提供基本运行环境。
服务场景 服务场景概述 启动ECS实例 关闭ECS实例 重启RDS实例 修改ECS非管理员密码 重启CCE工作负载 清理磁盘空间 父主题: 运维管理(日落)
产品组件 CSS服务支持Kibana和Cerebro组件。 Kibana Kibana是一个开源的数据分析与可视化平台,与Elasticsearch搜索引擎一起使用。通过Kibana可以搜索、查看存放在Elasticsearch索引中的数据,也可以实现以图表、地图等方式展示数据。
在ERS管理已纳管的容器集群 将华为云上购买的CCE集群纳管后,可以进行统一管理,本章节介绍部分主要管理操作。 查看集群详情 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 弹性资源服务(ERS)”。 选择左侧导航栏的“集群列表”。 在集群列表单击需查看详情的集群名称,进入集群详情页面。
在CCE集群节点中安装Agent 导入对象存储卷 创建配置项 创建Agent守护进程集工作负载 父主题: 容器化部署数据库安全审计Agent
基础设施监控 工作负载监控 集群监控 主机监控 进程监控 云服务监控
Istio-ingressgateway高可用性配置指导 网关工作负载 网关Service
卓越架构技术框架简介 卓越架构技术框架(Well-Architected Framework)聚焦客户业务上云后的关键问题的设计指导和最佳实践。 以华为公司和业界最佳实践为基础,以韧性、安全性、性能效率、成本优化与卓越运营五个架构关注点为支柱,打造领先的卓越架构技术框架,支撑客户
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
启动:与数字人服务开启会话,同时指定需要使用的数字人形象。 回复文本:将配置的文本提供给数字人服务进行视频后播放,回复文本中可以添加参数变量,数字人服务会根据变量返回的值动态生成视频。 结束:与数字人服务结束会话。 数字人形象:当“操作”为“启动”时显示,选择您在“配置中心>流程配置>资源管理>2D数字人 ”中配置的资源。
于CSE的介绍,请参见微服务引擎CSE。 NACOS:使用NACOS作为配置管理服务。NACOS提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据及流量管理。 调用链 不启用:不启用调用链。 华为云APM:使用应用性能管理服务APM作为调用链。APM您的
"key_name": "$key_name" } } iptype:弹性公网IP地址类型,“5_bgp”表示全动态BGP。 chargemode:带宽的计费类型,取值包括“traffic”(按流量计费)和“bandwidth”(按带宽计费)。 name:带宽名称。
支持更新实例名称,长度限制为128个字符, 支持大小写字母、数字、中划线和下划线。 storage_new_size 否 Integer EVS实例支持动态扩充的容量,单位GB。只允许扩容,不允许缩容,最大允许扩容至4096GB。 hooks 否 CustomHooks object 支持更新实例启动脚本。
1:系统处于关闭状态 2:系统处于开启状态,但未触发 3:系统被触发,处于作用状态 最小值:0 最大值:3 scs 否 Integer 参数说明:车辆动态稳定控制系统状态。 取值范围: 0:系统未装备或不可用 1:系统处于关闭状态 2:系统处于开启状态,但未触发 3:系统被触发,处于作用状态
选择需要过滤的维度。 维度过滤设置 只关注维度部分取值时,可以设置该参数对维度取值进行过滤。 指标类型 选择指标类型。 算法类型 选择固定阈值或动态阈值,固定类型还需要设置阈值的上限、下限和预估维度数。
不共享主session下对象(包括session级别变量、本地临时变量、全局临时表的数据等)。 自治事务理论上限为10000,实际上限为动态值,参考GUC参数max_concurrent_autonomous_transactions描述。 自治事务受通信缓冲区影响,返回给客户
安全运维 变更作业流程 通过脚本在平台进行现网变更,避免在服务器控制台直接操作引发现网故障,并且执行平台操作需符合1+1 check流程,一人实施,另外一人监控和检查,保证流程合规、安全合规、质量合规。 提权操作的控制 依据风险分层分级和权限SOD原则,对权限以及授权过程进行控制
安全运维 变更作业流程 通过脚本在平台进行现网变更,避免在服务器控制台直接操作引发现网故障,并且执行平台操作需符合1+1 check流程,一人实施,另外一人监控和检查,保证流程合规、安全合规、质量合规。 提权操作的控制 依据风险分层分级和权限SOD原则,对权限以及授权过程进行控制