检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云服务等场景的指标信息,不能满足大屏展示需要 告警通知能力不足:自建运维平台告警通知能力不能完全满足多场景通知的需要,且没有告警降噪能力 解决方案: 业务价值: 降低了运维成本与难度:降低了运维多套系统的难度,减少了客户运维起步的资源投入,降低了运维成本 运营分析能力提升:基于可
针对具体故障进行检测时,根据检测的类型通常可以分为资源检测、功能检测和业务检测。 资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。 功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现
等组网,系统架构分析服务间依赖关系,确定周边依赖服务。 硬件规格:所需服务器的数量、规格以及硬件配置,包括 CPU 主频/核数、内存容量、磁盘类型与容量、存储池类型与容量,网卡带宽等。 软件环境:软件版本与配置,如操作系统版本、服务版本、数据库版本、以及影响性能的相关配置。 4.完成测试设计
就绪探针:readinessProbe,用于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程在,但是并不能对外提供服务。这种场景下该检查方式就非常有用。如果容器的就绪
登陆时需要设置密码,另外在管理员自定义新用户的密码时可选择强制用户在激活后修改默认密码。 集中的身份管控: 使用单点登录:考虑使用单点登录解决方案,集中管理用户的身份认证信息,简化用户登录流程,提高安全性和用户体验。 多账号场景,对账号的集中管控。 相关云服务和工具 IAM身份提供商
路径,帮助我们了解系统的执行情况。 对于构建在云上的应用,通过可观测性,可以快速发现和解决系统故障,从而提高系统从故障中的恢复速度。进一步地,可以提前发现系统的问题,例如性能,容量瓶颈,提前解决问题。更进一步地,您可以通过联动可观测性带来的告警和上文中的自动化流程,通过主动式响应
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
增加或减少,从而实现系统业务处理能力的伸缩。 当节点故障或资源不足时,系统需要自动检测和扩展节点,以实现自动横向扩缩容,自动增加资源容量,解决业务处理能力不足的问题,无需人工干预。 华为云提供AS弹性伸缩服务,可以根据伸缩组内的负载情况,及伸缩规则,自动调整ECS实例、带宽等资源
Saturation and Errors Method)对资源监控,包含: 使用率Utilization:覆盖系统资源,包括但不限于CPU、内存、网络、磁盘等。 饱和度Saturation:针对资源的饱和度,如CPU队列长度,注意与业务监控的黄金指标相区分。 错误Errors:资源处理错误,如网络丢包率等。
使用云平台工具和其他经过行业验证、集成到平台中的工具:云平台提供的工具可以使 IaC 的部署变得简单直接。利用这些工具而不是开发自己的解决方案。云平台包含满足您大多数需求的内置功能,并且由平台提供商不断更新,随着平台的发展而变得更加有用。 标准化模块化方案:模块可以使基础设施
(避免迁移上云后,数据库层与应用层不兼容),上云过程中采用云上同样生态的数据库进行平替,是首要的决策依据。 可迁移性:针对数据库上云迁移,解决方案要具备平滑迁移的能力;结合数据库迁移服务所提供的能力,评估迁移上云过程中,数据库的切换对业务系统中其他组件的影响(如服务中断的影响、数
别数据库中的敏感数据,并支持从海量数据中自动发现并分析敏感数据使用情况,基于数据识别引擎,对结构化数据和非结构化数据进行扫描、分类、分级,解决数据“盲点”。 父主题: SEC07 通用数据安全
华为云服务的安全特性:在云服务模式下,如何保障云上安全,成为大多数企业和客户的首要关注问题。华为云致力于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全及基础设施安全,同时也为致力于为客户提供先进、稳定、可靠、安全的产品及服务。文档中说明了如何配置华为云服务以满足您的安全性目标。
韧性的侧重点不同。可靠性工程的目标是尽可能减少系统中的故障,保证系统无故障运行。而韧性工程,接受故障总会发生的现实,关注的是如何降低故障带来的损失以及如何从故障中恢复。 父主题: 基本概念
能上,减少用于维护和处理突发事件的时间,从而带来运行良好的系统和平衡的工作负载,尤其是卓越的客户体验。卓越运营支柱融合了这些优秀实践,聚焦如何正确地构建软件,高效地运维软件,持续提供卓越的客户体验,包含:组织团队、设计工作负载、大规模运营工作负载和随时间变化改进工作负载的最佳实践。
多者结合:同时使用以上的两种或多种方式分隔工作负载。 相关云服务和工具 虚拟私有云 VPC 企业项目 EPS 统一身份认证服务 IAM 华为云Landing Zone解决方案 组织 Organizations 资源治理中心 RGC 资源访问管理 RAM 父主题: SEC01 云安全治理策略
动分析,以确认事件的严重性和后续步骤。 决策支持:基于分析结果,决定是否需要进一步的人工介入,或是调整自动化响应策略。 自动化恢复:对于已解决的事件,自动化执行系统恢复、数据恢复或服务重启。 生成报告:自动化生成事件处理报告,包括事件详情、响应行动、处理结果和建议措施。 合规性检
员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧急情况。团队应清楚知道如何应对安全威胁和处理安全事件。 父主题: SEC01 云安全治理策略
检测范围:识别并跟踪检测所有组件,有重大影响的故障模式需要重点检测。 亚健康检测:对不引起系统故障却导致系统或服务KPI下降的亚健康异常需要能检测,如网络时延变大、磁盘变慢、内存泄露等亚健康故障。 备用检测:冗余系统中,主备用模块的故障都需要检测,避免静默故障。 有特殊寿命器件:应及时监控有特殊寿命(如本
需要在计划采用云服务时尽早考虑安全性。 云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。 SEC01-01 建立安全管理团队 SEC01-02