检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC07-05 传输数据的加密 对传输中的数据进行加密处理,以确保数据在传输过程中不被未经授权的访问者所窃取、篡改或查看。 风险等级 高 关键策略 使用加密协议:确保在数据传输过程中使用安全的加密协议,以加密数据并保护其在传输过程中不被窃取或篡改。使用最新的TLS版本(如TLS
通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角色的配置范围进行约束,避免越权配置导致错误。 查改分离:通过产品界面设计将配置界面分层分级,查看与修改分离等降低人为配置失误风险。 配置校验:通过配置生效机制设计确保在配置生效前进行必要的校验,避免错误配置生效。 删除保护:在删除资源
运维人员可以轻松地查找和获取各种运维知识,包括网络配置、服务器管理、数据库维护等方面的知识。下面将介绍运维知识库系统的五个主要功能和优势。 丰富的知识资源:运维知识库系统收集整理了大量的运维知识和经验,涵盖了各个领域和层次的内容。用户可以通过系统进行检索,查找到相关的知识和解决方
努力。开发团队需要在开发阶段考虑性能因素并进行优化;运营团队则需要在运营阶段持续监控和优化性能。记录并公开性能目标,以便开发和运营团队便捷查看性能目标,可以帮助开发和运营团队更好地理解和达成共同的目标。 评估客户反馈 客户反馈对于任何组织都至关重要,我们非常重视客户声音及客户满意
PERF03-06 选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:
卓越架构技术框架简介 卓越架构技术框架(Well-Architected Framework)聚焦客户业务上云后的关键问题的设计指导和最佳实践。 以华为公司和业界最佳实践为基础,以韧性、安全性、性能效率、成本优化与卓越运营五个架构关注点为支柱,打造领先的卓越架构技术框架,支撑客户
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
COST07-02 释放闲置资源 风险等级 中 关键策略 持续监控资源的闲置情况(如ELB无流量,EVS盘无挂载,EIP没有绑定到虚机),释放资源,或者监控资源使用只是在某个固定的时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为
OPS08-01 使用度量指标衡量运营目标 风险等级 高 关键策略 定义清晰的运营成功的目标和 KPI,设置基线作为参考点并定期重新评估。与业务领导者和利益相关者确定服务的总体目标。确定各个运营团队的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据
RTO与RPO 灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备
什么是应用韧性 应用韧性是应用系统在运行过程中面对各种异常场景,如基础设施故障(如数据库异常)、外部攻击(如网络DDoS攻击超出预定限额流量)、外部依赖故障(如依赖系统访问超时或不可用)、地域灾难(如大面积停电、洪水)等,仍能提供和维持可接受的服务水平的能力,对系统至关重要。 系统韧性设计主要涉及以下两个方面:
SEC06-05 执行渗透测试 渗透测试是一种安全评估方法,模拟攻击者的行为,通过模拟真实的攻击场景来评估系统、应用程序或网络的安全性。渗透测试旨在发现系统中的安全漏洞、弱点和潜在的安全风险,以帮助组织改进其安全措施、加固防御,并保护系统免受真实攻击的威胁。 风险等级 高 关键策略
RES11-05 红蓝攻防 通过红蓝攻防,可以模拟各种复杂的攻击场景,帮助全面评估应用韧性,及时发现并解决潜在风险。 风险等级 高 关键策略 蓝军从第三方角度发掘各类脆弱点,并向业务所依赖的各种软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。
SEC10-05 建立复盘机制 建立安全事件复盘机制可以帮助团队从过去的安全事件中学习经验教训,并改进未来的安全措施。 风险等级 中 关键策略 确定复盘的目的:在进行复盘之前,明确目的是非常重要的。确定您希望从这次安全事件中学到什么,以及如何改进未来的安全措施。 收集事实和数据:
通过AOM助力系统运维能力提升,降低运维成本与难度 某平台服务的认证驾驶员用户1000万人,货主用户500万人,集团业务覆盖全国339个主要城市,覆盖线路数量超过11万条,实现了全国多中心运营的架构。 客户痛点: 多云双活场景运维难保障:大规模集群场景,单个云厂商灾备不足以保障业
RES06-01 故障模式分析 故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部
具来识别常见的安全问题和漏洞,确保代码的安全性和合规性。 应用其他测试方法:除了工具的使用,还需要在应用程序级别进行测试,如使用模糊测试来查找和修复潜在的漏洞和错误。 相关云服务和工具 企业主机安全 HSS 父主题: SEC05 运行环境安全
仅仅记录日志并不足够,还需要对日志进行有效的管理和分析。如果日志太多,将会成为一个负担,因为它们需要占用存储空间,并且需要花费很长时间来查找有用的信息。因此,需要对日志进行过滤和归档,以便更好地管理它们。 设计建议 可参考LTS最佳实践 父主题: OPS06 可观测性体系
OPS04-04 自动化工程运维任务 在日常开发工作中,尽可能自动化一切,以减轻管理负担并最大限度地减少人为错误。为了最大限度地提高自动化投资的价值,优先考虑简单、程序化且长期的任务。应用自动化并不是一种全有或全无的策略。即使需要人工干预的工作流(例: 决策点),也可以从自动化中受益。
RES03-03 对接容灾仲裁,支持自动切换 针对有状态的主备类型业务,在跨AZ部署并支持自动切换时,需要对接容灾仲裁,以避免出现双主或双备,从而在AZ间链路中断的情况下,业务能自动切换到一个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类