检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
出超时时间才返回超时异常,造成业务卡顿,长时间不退出等问题,无法实现failfast,影响业务体验。建议结合业务实际场景配置超时时间,避免超时时间配置过大。 Serverless函数代码最佳实践 如果业务可以异步实现,那么不需要关心函数的性能(除了优化成本之外)。Function
500错误)和隐式失败(如HTTP 200中包含了错误内容)。 饱和度:侧重在对系统中最为受限的瓶颈资源的监控。 对于基于Java的应用系统,华为云用户可使用APM服务实现基于调用链的业务延迟和错误率监控。函数服务FunctionGraph、微服务引擎CSE提供了流量、延迟和错误率监控能力。基于API网关暴露
公司创建独立的成员账号以承载本地化的应用系统。 针对企业的IT部门,在华为云上创建对应的组织单元,并按照IT职能创建对应的成员账号,一方面实现IT管理领域的职责和权限隔离,另一方面对企业内多个成员账号进行统一的IT管理。上述参考架构中创建了两个OU,安全OU下面创建用于安全运营和
申请多个AZ的多个实例承载相同业务,并利用跨AZ的ELB实现跨AZ的负载均衡和自动故障切换,或由应用层实现跨AZ多实例的自动故障切换能力,来实现跨AZ高可用。 相关云服务和工具 华为云大部分云服务支持创建多可用区实例,可实现在一个可用区故障时能自动快速切换,不影响实例对外提供服务
用开源模块。 标准化人工步骤:如果存在与部署和维护相关的人工步骤,要尽可能减少这类活动。在运维指南和标准操作程序中,清楚地记录人工步骤,并实现标准化,以确保安全、一致地执行任务。 回收闲置资源:由于配置管理工具及其限制等原因,有时 IaC 工具无法自动删除资源。例如,假设需要从虚拟机迁移到
在系统和架构设计、实现方案设计及编码实现上采取有效的技术手段来保证。 一般认为,性能问题通常由于体系架构或设计问题造成,而不是低效的编码引起的。性能问题在开发过程的早期已经引入,而大部分开发团队直到集成测试,或更晚的时候才予以考虑。实际情况并非完全如此,编码实现阶段引入的性能问题
行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13 过载保护
RES14-04 提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需
云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。 SEC01-01 建立安全管理团队 SEC01-02 建立安全基线 SEC01-03 梳理资产清单
风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。 确定性故障管理 统一事件中心:提供事件发
减少了客户运维起步的资源投入,降低了运维成本 运营分析能力提升:基于可视化图表和开箱即用的仪表盘等强大功能,快速实现对业务的运营分析 排障能力提升:云端多维度监控实现对业务立体运维,结合自动告警规则达到对故障的快速感知定位处理 父主题: 参考案例
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
RES14-02 自动化变更 自动化变更是指自动化提供并管理应用程序的环境(计算、存储、网络、中间件服务等)、安装、配置,实现Infrastructure as a Code;以解决手工部署中易于出错、依赖个人能力,手工配置中变更无法跟踪、难以回滚等难题。 风险等级 高 关键策略
经验有效推广。 风险等级 高 关键策略 故障发生后,通过对现网重大故障处理过程 Review 及根因进行分析和改进总结,规范整个恢复过程,实现对可用性和技术能力的提升。故障复盘的技术过程按照 RASA 法、Review(回顾)、Analyze(分析)、Summary(总结)、Action(行动)。
通过自动化显著提升效率的任务:高价值的自动化需要最少的管理开销,并显着提高效率。例如,如果可以通过自动化数据库条目每天为运营团队节省一个小时,那么就可以有更多时间实现自动化做持续改进。 设计建议 管道定义、执行和管理:使用持续集成和持续交付 (CI/CD) 工具(例如 华为云CodeArts Pipeline)自动定义管道及其运行方式
应用系统采用无状态应用+有状态数据库的分层部署架构。 应用系统在其他云与华为云中各部署一套完整系统;华为与采用跨AZ部署,可以实现云内应用层跨数据中心双活;云间数据单元化部署,并支持将它云数据实时同步到华为云,实现双活容灾,在第三方云故障的情况下能快速容灾切换到华为云。 接入层(外部GSLB、API网关):通
可靠性功能 集群HA Kafka实例通过副本冗余方式实现实例容灾,当检测到leader副本故障后,快速完成副本选主,保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ
、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证平均恢复时长(MTTR)的长效收敛,实现故障的快速恢复。 设计建议 父主题: OPS07 进行故障分析和管理
日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接入方式实现海量日志接入LTS,支持日志搜索引擎、SQL分析引擎、日志加工引擎,详细请参考下图。 端云全场景日志接入:40+云服务、主机/容器、移动端
容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应