检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES03-03 对接容灾仲裁,支持自动切换 针对有状态的主备类型业务,在跨AZ部署并支持自动切换时,需要对接容灾仲裁,以避免出现双主或双备,从而在AZ间链路中断的情况下,业务能自动切换到一个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类型业务提供容灾仲裁
责任共担模型 基于华为在安全、合规、隐私及数据保护领域积累多年的技术和治理能力,华为云为您提供安全、可靠、可信赖的基础设施和服务。华为云提出“七层防线+一个中心”的网络安全建设框架,通过多重、多方面的安全防线来成体系保障云上业务的安全性。 华为云把安全合规作为首要任务,安全是华为云和您之间的共同责任
被依赖项本身的功能受损时,提供缺省处理,以便应用系统仍可继续正常运行;由于缺省处理可能与实际配置有差异,此时需要告警以便通知系统管理员解决问题。 父主题: RES08 依赖减少与降级
标准化运维体系是对有效经验总结后,运维活动例行化的高效管理。通过对运维活动的标准化、流程化和工具化管理,实现从无序向有序演进,达到运维操作团队运作“最佳秩序”,简化运维交付工作,降低技能依赖,提高运维效率,降低运作成本。
对于在Web应用场景使用的语言如Java、Python,还要考虑安全会话管理、防SQL注入、防跨站脚本攻击XSS、防跨站请求伪造CSRF等编码规范。 对于C/C++语言,要考虑缓冲区溢出漏洞、命令注入、危险函数、内存泄露、指针越界、数组读写越界等安全风险。
在实施过程中,更多应该将错误视为学习和改进流程的机会,这将减少不成熟的团队和管理团队对成本优化的恐惧心理。指标自身也需要不断优化,一开始可以从比较保守的目标开始推动,避免IT成本迅速下降造成的业务风险。而后不断迭代预算分配、IT 支出和预测,不断优化这些指标。
云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES11 可靠性测试
RES02 备份 对于应用系统中的重要数据,需要提供备份功能,以便在病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份
基础概念 指标 概念解读 性能 性能是指软件系统或软件对应其及时性要求的符合程度。及时性用响应时间或吞吐量来衡量。 响应性 响应性是系统实现其响应时间或吞吐量目标的能力。 响应时间(RT) 用户感受系统为其服务所耗费的时间。不同业务系统的响应时间期望值不同,如互联网业务多为500ms
Kafka性能优化 Kafka性能优化 优化客户端配置 生产者配置建议 可参考配置建议。 消费者配置建议 参数 推荐值 说明 max.poll.records 500 消费者一次能消费到的最大消息数量,默认为500,如果每条消息处理时间较长,建议调小该值,确保在max.poll.interval.ms
RES04 跨Region/跨云容灾 为了预防区域级灾难发生,或业务跨云容灾需求,需要构建容灾系统提供较为完善的数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对于跨
RES08-01 减少强依赖项 系统内组件之间强依赖时,一个组件故障会对其他组件造成直接影响,影响系统可用性。 风险等级 中 关键策略 可以通过以下技术将强依赖项转换为非强依赖项: 提高关键依赖项的冗余级别,降低该关键组件不可用的可能性。 与依赖项的通信采用异步消息并支持超时重试,
RES06-02 面向所有故障进行检测 针对所有故障场景,都需要能自动检测,以便及时发现和恢复故障。 风险等级 高 关键策略 所有故障都必须有检测。 支持按不同维度进行故障检测,如Region、AZ、服务、方法、实例或容器ID等,检测维度与故障恢复方式对齐。 检测到故障后需及时告警或自动恢复
设定这些目标和阈值可以帮助我们更好地监控和管理性能,并采取优化措施。这不仅可以提高系统的性能,还可以提高用户满意度。
选择合适的存储云服务 了解数据特征(如可共享、大小、访问模式、延迟、吞吐量和数据持久性),以便为您的工作负载选择合适的专用数据存储。 PERF03-05 选择合适类型的存储云服务 父主题: PERF03 性能建模
PERF05-01 设计优化 风险等级 中 关键策略 快速通道模式 通过减少支配性工作量负载的处理量,只剩下必要的部分,来改进响应的时间。一个软件可以有多项功能,只有几个是被经常使用的,经常使用的功能构成支配性工作量负载。快速通道模式减少这些功能的处理量,或简化其处理过程。快速通道通过简化执行路径的方式来实现
常见故障模式 BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率 恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:
基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 某公司核心业务专注于IT信息传播、技术交流、教育培训和专业技术人才服务。拥有超过3200万注册会员、超过1000家企业客户及合作伙伴。 客户痛点: 端侧采集工具不统一,不支持自定义域名上报,问题定位复杂 Web、IOS、
RES14 配置防差错 配置防差错是针对配置过程中因人输入了错误的配置数据导致系统和业务受损或失效场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更
SEC09-02 安全事件记录及分析 在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析