检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标签作为一种常见的成本分配方式,可以灵活匹配组织内多种分配场景(比如产品、应用、责任人),但在实施标签过程中,企业会发现有各种不利因素导致标签的标记覆盖率下降,例如: 实施标签工作量大:云上创建的资源不断增加,资源数量巨大,且每个资源需打多个标签 标签实施不一致:业务部门执行进展不一、添加的标签key&value错误、部分资源无人认领未打标签
为了方便运维人员获取知识,学习和解决问题,运维知识管理能力变得必要。运维知识管理应集成丰富的运维知识,可以帮助运维人员快速解决问题,提高工作效率。一般通过运维知识库系统承载,运维人员可以轻松地查找和获取各种运维知识,包括网络配置、服务器管理、数据库维护等方面的知识。下面将介绍运维知识库系统的五个主要功能和优势。
源时,应用的关键节点应使用主备或集群资源,如CCE高可用集群、RDS主备实例、DDS集群、DCS主备或集群实例等。对于运行在CCE集群上的工作负载,也需要配置多个,以避免单个节点故障就导致业务中断。 单节点实例通过多实例实现高可用:当云服务只支持单节点发放,则需要应用层来实现多个
无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收集运营/运维数据)分析团队工作对业务成果的影响,从而可以在实际工作中确定不同任务的优先级,并适时改进。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
风险等级 中 关键策略 每个华为云提供的云服务都有一组特定于资源功能的指标,用于呈现有关资源的使用情况。通过收集资源性能数据,可以深入了解工作负载的运行状况和行为。 指标作用: 帮助你了解资源的运行状况和性能, 在云监控平台上配置对应的告警策略和配置指标看板。 通过跟踪分析网络路径上的流量来优化网络性能。
战,处于被动响应和疲于应付的工作状态,效率低下,人为失误多,故障处理难度大。标准化运维体系是对有效经验总结后,运维活动例行化的高效管理。通过对运维活动的标准化、流程化和工具化管理,实现从无序向有序演进,达到运维操作团队运作“最佳秩序”,简化运维交付工作,降低技能依赖,提高运维效率,降低运作成本。
对您的身份提供者和IAM中配置的身份进行审计,这有助于验证只有经过授权的身份才能访问您的工作负载。 使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。 使用数据加密服务DEW中的凭据管理服务(CSMS)定期轮换凭证。
数据库资源: 兼容性:一般原则是平替迁移,选择云上数据库,是为了利用云上服务使得生产工作更聚焦到应用层,上云前系统中数据库的选型已经过业务实践的检验,基于对兼容性的考量(避免迁移上云后,数据库层与应用层不兼容),上云过程中采用云上同样生态的数据库进行平替,是首要的决策依据。 可迁
评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。 网络延迟:评估工作负载所需的延迟,使用专用虚拟网络和主干网络,而不是遍历公共Internet。此方法可降低工作负载的延迟。 吞吐量:
号下云资源的权限,无需在每个账号的IAM系统分别创建IAM用户并配置权限,简化多账号环境下身份权限管理的工作量。 统一身份管理系统与IAM身份中心建立身份联邦,这样无需分别与每个账号的IAM系统进行身份联邦。 相关云服务和工具 IAM身份中心 IAM Identity Center
根据业务情况,手工变更节点规格或增加节点数量。 CCE工作负载的CPU /内存/GPU/GPU缓存使用率过高 检测:通过AOM监控CCE工作负载的CPU/内存/GPU/GPU缓存使用率。 恢复: 根据业务情况,手工调整工作负载的资源配额或增加工作负载个数。 父主题: CCE云容器引擎
收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶颈、解决问题、优
在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属于运维的一部分,内容可参考卓越运营支柱部分“运维准备和变更管理”。
从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内,降低故障影响范围,防止产生级联故障。 通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。 RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署 RES10-03
个Region故障而导致所有业务中断。 在多AZ部署能满足需求的情况下,应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现,只有工作负载具有极高的可用性要求或者其他业务目标时,才考虑多Region架构。 父主题: RES01 冗余
SEC01 云安全治理策略 企业安全的最终目标不会随着采用云服务而改变,但实现这些目标的方式将会改变。为了安全地操作、管理您的工作负载,您必须对安全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。
预留实例是将函数实例的创建和释放交由用户管理,当您为某一函数创建了预留实例,函数工作流收到此函数的调用请求时,会优先将请求转发给您的预留实例,当请求的峰值超过预留实例处理能力时,剩余部分的请求将会转发给按量实例,由函数工作流自动为您分配执行环境。如果业务流量不均衡,存在波峰波谷情况,且对冷启
账号。下表是这些IT职能账号的详细说明。 除了上述账号之外,每个组织有且仅有一个管理账号,管理账号不建议部署任何云资源,主要是做好以下管理工作: 统一组织和账号管理:创建和管理组织结构和组织单元,在组织单元下面创建成本账号,或者邀请已有账号作为组织单元的成员账号。 统一财务管理:
选择合适的存储云服务 了解数据特征(如可共享、大小、访问模式、延迟、吞吐量和数据持久性),以便为您的工作负载选择合适的专用数据存储。 PERF03-05 选择合适类型的存储云服务 父主题: PERF03 性能建模
COST06 使用不同计费模式优化成本 COST06-01 了解云上不同计费模式的特点 COST06-02 为工作负载选择合适的计费模式 COST06-03 跟踪并监控权益商品的使用情况 父主题: 成本优化支柱