检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。 使用数据加密服务DEW中的凭据管理服务(CSMS)定期轮换凭证。 使用IAM委托。委托操作权限给云服务或者其它账号。 相关云服务和工具 数据加密服务
设计原则 组织,流程和成本管理相匹配 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。 流程上,需要把成本管理作为各个上云流程中必备的一环; 组织上,需要投入适当的时间,资源和人力用于建立云财务管理的能力。
HSS:帮助客户方便地管理主机、容器的安全风险,实时发现勒索、挖矿、渗透、逃逸等入侵行为,是等保合规、护网、重保必备服务。 漏洞管理服务 CodeArts Inspector:面向软件研发和服务运维提供的一站式漏洞管理能力,通过实时持续评估系统和应用等资产,内置风险量化管理和在线风险分析
内部知识管理类应用典型部署架构(99.9%) 内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下:
信息管理类应用典型部署架构(99.95%) 信息管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受一定的恢复时间和恢复点,其可用性目标通常要求达到99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中
国家已启动“东数西算”工程,将东部发达地区的数据,传输到西部算力资源丰富的地区进行运算、存储。西部数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区
围应用/软件更新,小步快跑,持续迭代地进行云上软件的更新更有利于运维,因为一则小范围的云上软件更新和部署更不容易引起大范围事故,其次,不停地迭代更新也有效地保证了开发,运维团队成员能够时刻处于练兵状态,不至于对运维的流程,最佳实践比较陌生。要保证云上应用进行迭代更新,那么从需求阶
软件开发生产线(CodeArts) 资源编排服务(RFS) 云运维中心(COC) 云监控中心(CES) 云日志服务(LTS) 应用运维管理(AOM2.0) 应用性能管理(APM) 云堡垒机(CBH) 应用管理与运维平台(ServiceStage) 多活高可用(MAS) 父主题: 卓越运营支柱
存至OBS,以保存更长时间。 资源分组:资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控:站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。
等具有优良安 全功能的常用云服务。 确定性运维体系建设 IT运维行业正在面临着颠覆性的变化,我们正在从保障设备稳定的防守型运维转向支撑业务敏捷的进攻型运维,从关注自身网络转向关注客户应用,从系统维护工程师转向研发工程师,这个转型的过程对运维提出艰巨挑战的同时,也给每个组织和个人提供
数据冗余:可以通过定期备份和多副本备份等方式实现以提高数持久度,并确保数据一致性。 冗余的增加,意味着成本的增加;因此在应用高可用设计时需要综合考虑冗余对成本的影响。 故障全面检测 故障检测是故障管理的前提,检测全面与检测快速都很重要,通常情况下故障检测全比故障检测快重要。 故障检测涉及以下方面: 检测范围:
实施部门的人员,典型的团队成员通常包括来自企业的核心决策者(CXO),财务、开发,运维/运营,数据分析团队的人员。 这个团队可以是一个虚拟团队,该团队在企业开始实施成本优化的时候,建立相应的成本管理流程,例如,将成本支出纳入应用、业务全生命周期的关键评估指标,推动各个分歧(如成本归属)的解决。
OPS01-02 规划标准化的运维组织 风险等级 高 关键策略 承载卓越运营,应该建立适应您实际的运维组织。运维组织的团队之间具有明确的流程,规定了团队之间的协作方式,例如规定不同团队的响应时间、服务级别目标(SLO) 或服务等级协议(SLA),同时应该记录团队间沟通信息,确保有足够的数据用于后续的改进。
提供故障检测和缓解措施 针对每种故障模式,需要分析如何检测和恢复,提出改进建议措施,并在系统复杂度和成本之间进行综合考虑,优先解决严酷度高的故障模式。 相关云服务和工具 云运维中心 COC:支持故障模式管理。 父主题: RES06 故障检测
过收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理 AOM 应用性能管理 APM 云日志服务LTS 父主题: 性能数据采集
名词解释 确定性运维 确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。
/var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
Engineering)是通过故障注入,验证故障快速恢复能力及系统可靠性的实践活动。 风险等级 高 关键策略 通过混沌工程的方法模拟可能出现的故障,进而综合验证系统在不同故障场景下的容错能力、监控能力、应急响应能力、定界定位、快速恢复等确定性恢复能力。 验证高可用设计:业务系统在规划设计阶段进
及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制定应急恢复管理方案:所有应急恢复团队人员都需要进行应急恢复培训,熟悉应急恢复处理流程和恢复方法。 父主题: RES12 应急恢复处理
有资源的访问权限授予统一资源管理组,则可以使用IAM项目进行授权,避免在各个企业项目中逐一授权,简化授权操作。 相关云服务和工具 统一身份认证服务 IAM 企业项目 EPS 云堡垒机CBH:使用CBH限制对运维账号的使用和访问。CBH可用于集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。