检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
行联调测试,验证不同团队代码之间的业务交互流程是否正确。但是测试环境和生产环境的配置不尽相同。 而预生产环境使用与生产环境相同的部署配置、安全控制、步骤和程序,在预生产环境中测试发布过程。验证所有部署步骤是否按预期完成,如检查依数据、配置和服务。通过集成功能测试,和各种非功能测试
概念 提供按需扩展的高性能文件存储,可为云上多个云服务器提供共享访问。弹性文件服务就类似Windows或Linux中的远程目录。 提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,
应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库的分层部署架构。
分析、业务完整性分析均造成一定影响 业务挖掘分析难:日志数据无法直接写入DLI,需投递到Kafka后,再被DLI消费,链路长,且成本高 解决方案: 业务价值: 端侧日志全面采集接入,自定义域名上报:集成LTS提供的多端SDK,全面采集端侧日志,接入LTS,且支持上报服务端域名自定
应急恢复回溯 在业务进行应急恢复处理后,需要对事件进行回溯并进行优化,以避免故障的再次发生。 风险等级 高 关键策略 对问题进行定位和修复,优化产品能力,减少同类事件的发生。 针对应急恢复过程进行总结,优化恢复过程。 父主题: RES12 应急恢复处理
持续集成可以通过执行以下操作更快地交付高质量的软件: 针对代码运行自动化测试,以便尽早检测到重大更改。 运行代码分析以确保代码标准、质量和配置。 运行合规性和安全检查以确保软件不存在已知漏洞。 运行验收或功能测试以确保软件按预期运行。 对检测到的问题提供快速反馈。 在适用的情况下,生成包含更新代码的可部署资产或包。
RES12-03 定期应急恢复演练 定期测试突发事件应急恢复处理,以便在出现问题后能进行高效的恢复处理。 风险等级 高 关键策略 每年至少进行一次应急恢复演练;通过演练可提升操作人员的熟练程度。 演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。
采取共享资源的设计,通过协作减少争用延时从而改善整体性能;如多个进程可以从一个数据库的同一部分读取。 并行处理:当并行处理过程的增速能抵消通信开销和资源争用延迟时,执行并行处理。 分散负载原则:通过在不同时间或者不同位置处理冲突负载,从而分散负载:将资源划分为成一些相对独立的小资源组,不同进程/线程可以独
靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。详见“OBS的持久性和可用性如何?”。 数据备份和恢复 OBS支持多版本控制,可以在一个桶中保留多个版本的对象,以便方便地检索和还原各个版本,在意外操作或应用程序故障时快速恢复数据。
化服务,提供跨区域、跨服务的集中标签管理和资源分类功能。 优化顾问结合华为云最佳实践与用户的配置和使用情况进行分析,为客户提供包括可靠性、安全、性能、成本等维度的自助检查与优化建议,从而帮助客户实现高效运营与成本节约。 父主题: 成本优化支柱
预留IP资源以便扩展和高可用 RES06您如何进行故障检测处理? 故障模式分析 面向所有故障进行检测 支持亚健康检测 RES07 您如何监控应用系统资源? 定义关键指标与阈值并监控 日志统计监控 监控到异常后发送消息通知 监控数据存储和分析 端到端跟踪请求消息 RES08 您如何减少依赖影响? 减少强依赖项
议设置自动备份策略进行备份。 此外,用户也可使用第三方备份软件进行备份。 华为云中云服务的数据备份到OBS存储中,可高度保障用户的备份数据安全。 相关云服务和工具 云备份 CBR 云数据库 RDS 分布式缓存服务 DCS 父主题: RES02 备份
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。
RES07-05 端到端跟踪请求消息 端到端跟踪请求消息的处理流程,便于分析和调试问题,并提高处理性能。 风险等级 低 关键策略 消息跟踪需要包含消息处理流程中所有组件,以便跟踪结果完整,从而进行准确分析和定位。 相关云服务和工具 应用性能管理 APM:支持调用链追踪,能够针对应
预警增强:对于某些影响业务方的操作,提供预警。 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
加或删除资源。 先负载均衡后流控:多个并行处理单元场景下,优先考虑负载均衡,避免单个处理单元资源受限导致业务受损;然后进行过载控制保护,使得整个系统的处理能力最大化。 及早控制:系统过载时,应尽可能在业务流程处理前端或业务处理较早的处理模块或底层协议层次上控制业务接入,避免中间控制带来不必要的性能消耗。
景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力,包括小批量流式处理、离线批处理、SQL查询
况下,可以自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要支持虚拟机重启后业务自动恢复的功能,并能容忍虚拟机HA期间业务处理性能短暂下降或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。