检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
LTS助力某公司高效完成日常业务运维与等保合规 某公司是一家拥有IT,汽车及新能源三大产业群的新技术民营企业。2022年8月,公司入选2022年《财富》世界500强排行榜。 客户痛点: 业务部门较多,日志量较大,项目管理较为困难 云服务资源种类数量较多,监控指标和运维日志不熟悉,运维难度大 等保合规要求日志长时
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接
RES07-02 日志统计监控 应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。
建立安全基线 建立符合合规性要求、行业标准和平台建议的安全基线,安全基线是团队内对安全的底线要求。根据基线定期衡量您的工作负载架构和运行情况,持续保持或改善工作负载的安全状况。 风险等级 高 关键策略 确定合规性要求:了解您的工作负载必须符合的组织、法律和合规性要求。 相关云服务和工具 华为云合规中心
OPS06-04 规范化应用日志 日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障,以帮助诊断问题和解决故障。 风险等级 高 关键策略 对于一个系统来说,日志是非常重要的。它可以记录在系统中发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可观测
于数据的威胁程度。常见的安全日志如主机安全日志、操作系统日志、堡垒机日志、IAM日志、WAF攻击日志、CFW日志、VPC流日志、DNS日志等。当系统出现错误或安全事件时,通过执行彻底地跟踪、告警和分析,可以较快地确定导致威胁的原因。 确保日志存储时长满足需求。主机和云服务的日志数
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
Web、IOS、安卓、百度小程序、微信小程序等多类端侧日志无法使用同一家厂商工具采集,问题定位分析时,需在多个工具间需来回切换,增加了定位复杂度,且无法自定义日志上报的服务端域名,合规性受到部分用户质疑 端侧日志上报慢且易丢失:上报速度小时级,也极易出现丢失,对问题端到端定位分析、业务完整性分析均造成一定影响
监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具 LTS云日志服务:支持日志分析与数据转储
具备集中式的身份管理、认证和授权能力,保证企业用户根据权限访问受信任的云端和本地应用系统,并对异常访问行为进行有效防范。 资源治理中心 RGC:提供搭建安全、可扩展的多账号环境并持续治理的能力。 资源访问管理 RAM:为用户提供安全的跨帐号共享资源的能力。您可以创建一次资源,并使
能力。通过云监控服务和云日志服务的结合,用户可以针对日志内容进行监控统计、设置告警规则等操作,降低用户监控日志的运维成本,简化用户使用监控日志的流程。 事件监控:事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。
SEC03-01 定义权限访问要求 明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
启用关键操作通知功能。启用云审计服务CTS的关键操作通知功能后,CTS会对这些关键操作通过消息通知服务(SMN)实时向相关订阅者发送通知。 开启审计日志转储,将CTS的审计日志存储到OBS。依据您的合规性、业务要求设置日志保留时长。 对审计日志进行保护并定期备份,避免受到未预期的删除、修改或覆盖。可以
SEC04-02 控制网络流量的访问 控制网络流量以确保网络分区之间的流量是可预期的、允许的。依据零信任原则,需在网络级别验证所有的流量出入。确保网络设备的业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互联
工具或者开源的APM工具和分析性能数据(指标、日志、调研链) 使用基于日志调用链框架:这些框架具备日志生成、日志格式化、日志上下文关联分析登能力。 通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议开发人员可以添加自定义代码采集独有的性能指标。 使用业界可观测的标准。请考
关键字的进程个数。主要关注:运行中进程数、空闲进程数、僵死进程数等指标 日志监控 配置日志服务从日志中提取指定的关键词,便于您使用监控服务对日志中的关键指标进行监控及告警。主要关注:访问日志数量、错误日志数量、日志大小等指标 自定义监控 自定义监控展示用户所有自主定义上报的监控指
全运营账号和日志账号能够统一汇聚其他账号的安全态势、安全审计日志等数据,安全运营账号的安全策略和事件响应指令也可以统一下发给其他账号。为了保护该账号下开通的云服务,我们建议在该账号下开通相关的安全云服务,见下表最右边的列: 账号名称 履行的职能 责任团队 建议开通的云服务 建议开通的安全云服务
警问题,清除明确的告警误报。 设计建议 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。 预警增强:对于某些影响业务方的操作,提供预警。
Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
并根据事件的优先级进行分类。 隔离与控制:自动隔离受感染的设备或网络段,防止威胁扩散。 自动修复:对于已知的漏洞或问题,自动化执行补丁安装、配置更改或清除恶意软件。 取证与记录:自动收集与事件相关的日志、网络包和其他证据,保存为后续分析使用。 通知与沟通:向指定的安全团队成员发送