检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动化响应安全事件 自动化的响应工作流是安全自动化的核心组成部分,旨在减少安全事件的响应时间,并提高处理效率。 风险等级 高 关键策略 定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或事件制定具体的响应动作,例如隔离、修复、通知、调查等。
不同的VPC中,每个VPC具有独立的网络空间,实现网络隔离。 通过企业项目分隔工作负载:企业项目是云服务资源的逻辑集合,将工作负载部署在不同的企业项目中,实现资源的分组管理和权限控制。 通过多账号分隔工作负载:将不同的工作负载部署在不同的华为云账号中,每个账号具有独立的身份验证、
银行,投资,金融,政府,电信,关键企业应用 系统的可用度依赖于系统内各业务单元的可用度。各业务单元之间典型的可靠性模型有两类: 串联模型:组成系统的所有单元中任一单元的故障都会导致整个系统故障的称为串联系统。 可靠性数学模型: 举例:假定系统存在2个串联单元,每个单元的可用度均为99.9%,则系统可用度为
采用Grid架构,可将应用系统内的工作负载的故障影响限制在有限Grid业务单元中。 风险等级 高 关键策略 应用系统采用多个功能相同的Grid业务单元,每个Grid业务单元具备完整业务功能,处理整个业务负载中的一个子集,不涉及与其他Grid业务单元的交互;在一个Grid业务单元发生
识别标签缺失和错误:在确定需要进行标签治理后,需要首先识别所有未打标签的资源和标签key&value错误的资源,然后从费用最高的资源开始逐步治理。建议利用云厂商提供的工具或者自建工具,通过自动化规则的方式,在资源创建的时候,就判断标签是否规范。另外一个更好的方式通过权限管理,识别资源创建人和组织,自动为资源打上标签。
例如,在云账号申请和云资源申请的时候,就需要建立完善的流程,以便于将组织,项目和其所使用的云账号,云资源进行关联,并确保每个部门或团队都对其使用的资源负责。而在最终的企业财务层面,引入云财务管理的能力,也有助于理解企业的每个子部门的产出和成本的关系,甚至于清晰地了解企业每挣一块钱,最终的云成本是多少
用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。 可参考CES的最佳实践,https://support.huaweicloud.com/be
记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网络攻击特别是新型网络攻击行为和异常行为的识别和分析。 风险等级 高 关键策略 在发生安全事件之前,可以
Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。
请内存的地方,均表现为一个tensor的申请释放)。 tensor的生命周期使用类似智能指针的引用计数方式来管理,且打通了Python与C++的通道,即:一个Python的tensor对象关联一个C++的tensor对象,Python的tensor对象的消失会触发C++的tens
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接
当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。 应用层进行过载保护,保障优先业务的运行。 生产消息失败 检测:生产消息失败 恢复: 应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。 当多次重试后仍无法
应用层进行过载保护,保障优先业务的运行。 OBS对象上传/下载失败 检测:对象上传/下载失败。 恢复: 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 当OBS桶由于过载导致网络限制时,可参考“OBS桶流量过载”的处理。 OBS桶内数据被误删 检测:NA
针对具体故障进行检测时,根据检测的类型通常可以分为资源检测、功能检测和业务检测。 资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。 功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故
选择合适网络服务资源 选择合适的网络服务资源是一个复杂的过程,需要考虑许多因素。以下提供了一些主要因素: 评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。 网络
有投诉或提出质询的权利。如:产品的最终用户,公司的雇员等。 数据控制者 单独或者与他人共同确定个人数据处理的目的和手段的自然人、法人、公共机构、政府部门或其他机构。对个人数据的处理有控制权,承担个人数据保护的主要责任。 数据处理者 代表数据控制者处理个人数据的自然人、法人、公共
分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍