检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES02-03 定期进行备份数据恢复 通过定期恢复测试,可以验证备份数据的完整性与恢复处理过程是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建
数据库故障或数据损坏时,可以通过备份文件恢复数据库,从而保证数据可靠性。 云数据库 TaurusDB支持同区域备份与跨区域备份;跨区域备份是将备份文件存放到另一个区域存储,某一区域的实例故障后,可以在异地区域使用备份文件在异地恢复到新的云数据库 TaurusDB实例,用来恢复业务。
数据主体有权访问其个人隐私数据是指根据相关的隐私保护法律和规定,个人拥有权利要求数据处理者提供关于其个人数据的访问权限。 风险等级 高 关键策略 向用户提供查询、更新个人数据的功能,且必须是实时、无成本,符合主体参与原则。 数据主体访问个人数据之前必须有认证机制。 记录数据的录入或者更新的时间。 建议
bbitMQ 会把消息转存到磁盘,转存过程会耗费大量时间,造成消息处理速度下降或直接阻塞生产流程。因此队列中堆积过多的消息容易对 broker 产生负面效应。除此之外,如果节点崩溃后重启,过多的数据会使得重建索引需要消耗大量时间,集群模式下的节点间同步数据也会非常耗时。 使用惰性队列提升稳定性
通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。 相关云服务和工具: 优化顾问 OA 云监控服务
消费者一次能消费到的最大消息数量,默认为500,如果每条消息处理时间较长,建议调小该值,确保在max.poll.interval.ms时间内能完成这一批消息的处理。 max.poll.interval.ms 300000 两次消费拉取请求允许的最大时间间隔,默认为300秒,超过这个时间会认为消费者异常。 fetch
的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据 KPI,识别关键指标和数据源。客户满意度可能是各种指标的组合,例如呼叫等待或响应时间、满意度评分以及提出的问题类型。 父主题: OPS08 度量运营状态和持续改进
可以设置自动备份的周期,还可以根据自身业务特点随时发起备份,选择备份周期、修改备份策略。 支持按备份集和指定时间点的恢复。在大多数场景下,用户可以将732天内任意一个时间点的数据恢复到云数据库RDS新实例或已有实例上,数据验证无误后即可将数据迁回云数据库RDS主实例,完成数据回溯。
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中每多一个
风险等级 高 关键策略 使用IAM用户组控制人员的访问权限,并设置权限的到期时间。 如果用户组的职责产生变化,应该及时调整用户组的权限。 当账号委托给另一个账号时,设置到期时间。 通过IAM用户的“最近一次登录时间”,判断该用户是否为长期未登录的用户,及时管理他们的身份凭证及权限。 相关云服务和工具
器的某一路径下;CCE通过云硬盘EVS服务提供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。 健康检查 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也
方式,例如规定不同团队的响应时间、服务级别目标(SLO) 或服务等级协议(SLA),同时应该记录团队间沟通信息,确保有足够的数据用于后续的改进。 例如一种运维组织设计是:将运维组织分为一线、二线和三线阶梯型运维支持团队,一线受理客户的服务请求,第一时间将大部分的服务请求闭环。二线
HANA等数据库备份,以及云上同步和管理线下备份软件OceanStor BCManager和VMware虚拟机的备份数据。CBR支持一次性备份和周期性备份两种配置方式。目前备份时间只支持整点,可以同时选择多个整点进行备份,即最小RPO=1小时,用户需要根据数据重要性选择合适的备份周期。 数据库自动备份:RDS、DDS
且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。 演练期间可检查灾难恢复计划执行顺序及恢复时间并进行优化。
COST06-02 为工作负载选择合适的计费模式 风险等级 中 关键策略 分析工作负载的每个组件。确定组件和资源是长时间运行(应享受承诺折扣,包年包月或购买资源包),还是短时间动态运行(采用 Spot 或按需定价)。使用成本管理工具中的建议对工作负载执行分析,并对这些建议应用业务规则以实现高回报。
点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中,以便在缓存实例发生异常后能够从备份数据进行恢复。DCS实例支持定时和手动两种
免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系统繁忙时,可等待一段时间后重试,否则无需重试。 请求SDK
set一次设置多个,同时这样存储也能节省内存。 设置合理的过期时间。 合理设置Key的过期时间,将过期时间打散,避免大量Key在同一时间点过期。 建议 设置过期时间时,可以在基础值上增减一个随机偏移值,避免在同一个时间点大量Key过期。大量Key过期会导致CPU使用率冲高。 命令使用规范
电商类应用典型部署架构(99.99%) 电子商务类应用用于外部客户,需要提供较高的可用性,并能承受组件故障,其可用性目标通常要求达到99.99%,即每年故障时间可以为52.56分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断3次,每次应急恢复决策时长为10分钟,恢复处理时
访问到关键系统和敏感数据。如需要临时权限,应仅向用户授予有限的时间段内执行特定任务的权限,并且在任务完成后,应撤销访问权限。 风险等级 高 关键策略 按照IT工作职能划分用户组,将用户加入到与其匹配的用户组中。用户组是IAM用户的集合,IAM可以通过用户组功能实现用户的授权。 优先基于用户组授权,而不是基于用户授权。