检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COST03-03 公共成本分配 风险等级 中 关键策略 跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比,将带宽费用拆分到不同的业务团队。 跨团队共享使用的CCE集群服务,应按照各团队分配和使用的CPU/内存等比例,将容器集群成本(包含CCE、ECS、EVS等服务成本)拆分到各个业务团队。
导致变更规格和迁移失败。应从设计源头上避免此类问题带来的影响。 设计合理的Key中元素的数量。 对于集合和列表类的数据结构(例如Hash,Set,List等),避免其中包含过多元素,建议单Key中的元素不要超过5000个。 建议 由于某些命令(例如HGETALL)的时间复杂度直接
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收集运营/运维数据)分析团队工作对业务成果的影响,从而可以在实际工作中确定不同任务的优先级,并适时改进。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
关联源代码版本和部署的应用版本,使用代码质量最佳实践 风险等级 高 关键策略 在代码开发阶段,需要开展代码协作设计和管理。使用现代化的代码仓管理代码,确保代码合并后,代码将保持一致,并且不会丢失任何更改。通过正确的版本控制,同时,现代化的代码仓可以方便设置代码版本,关联源代码版本和部署的
同意及撤销的机制。 修改用户个人空间的行为(如系统或应用配置变更、下载软件、对用户系统或软件升级),须得到用户的同意。 对未成年人提供服务或收集了包含年龄信息的个人信息时,需要实现从未成年人的监护人处获取同意的功能。 数据控制者应提供对用户的同意和撤销同意行为进行记录的机制。 父主题:
将监管、行业和内部合规性要求纳入需求范围中,同时在需求排序的时候,给予这些需求足够的时间和重视。 同时从可维护性来看,较之于一次性颠覆性的大范围应用/软件更新,小步快跑,持续迭代地进行云上软件的更新更有利于运维,因为一则小范围的云上软件更新和部署更不容易引起大范围事故,其次,不停地迭代更新也有效地保证了开发,运维团
值得注意的是,成本优化不是一锤子买卖,团队对责任的接受,实施包括指标自身的完善都需要一个过程。 KPI指标应该随着阶段的演变而演变,以建立不断成功,不断进步的心态,而不是一次性推动成熟。在实施过程中,更多应该将错误视为学习和改进流程的机会,这将减少不成熟的团队和管理团队对成本
成本优化的负责人可以是了解整个组织和云财务的个人或团队。而整个团队的成员需要包含相关决策部门和实施部门的人员,典型的团队成员通常包括来自企业的核心决策者(CXO),财务、开发,运维/运营,数据分析团队的人员。 这个团队可以是一个虚拟团队,该团队在企业开始实施成本优化的时候,建立
开发、数据库等场景)主要消耗内存和存储维度的容量。 存储密集型业务(如大型数据库、大数据分析、大规模文件存储、编译构建等场景)可能会比较消耗存储的带宽。 根据业务的特征选择合适的虚拟机类型和规格。具体的虚拟机类型规格请参考官方文档。 相关云服务和工具 弹性云服务器 ECS 裸金属服务器
COST01 规划成本优化相应的组织机构和流程 COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配 COST01-02 规划IT治理体系,提高管理效率 COST01-03 明确团队责任,建立和维护成本意识文化 COST01-04 指定云资源管理策略和相应的权限管理机制 父主题:
COST07-03 考虑不同的云资源技术选型 风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
到支持,并获得一个固化的流程框架来衡量成本优化活动的成果。 简单的成本优化量化目标/成果就是报告成本节省优化的费用, 例如,您可以建立报告,在不牺牲质量或产出的情况下,给公司或者组织带来多少成本的节省。 此外优化的量化目标也可以包含效率的提升,例如,从传统IT架构向容器化,Ser
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
混沌工程度量指标 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。 故障场景的命中率:分析故障场景中,真实发生的比率。 应急预案的质量:用于度量应急预案有效性和执行效率。 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风险消
RES02-01 识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份频率;
关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会受到组织结构的影响,需要匹配企业管理模型,帮助企业以多层级组织的方式管理人
根据某项功能的使用频率来选择。常见的快速通道如,页面快速导航键、DB的索引等。 重要事情优先 把资源优先用于或者集中在重要的任务处理上,确保重要任务的完成;如果不能在可用的时间内完成所有事情,被忽略的是最不重要的任务。主要用于处理瞬时突发负载导致超出系统处理的容量的情况,一般给重
(Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。 可用性 (Availability)
故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,