检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
在进行重试处理时,API及命令调用会重复发送,服务方会多次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂等性,会导致客户端难以重试或重试的处理更复杂。
据库行为,形成细粒度的审计报告,对风险行为和攻击行为进行实时告警,对数据库的内部违规和不正当操作进行定位追责,保障数据资产安全。 启用数据库安全审计告警。通过设置告警通知,当数据库发生设置的告警事件时,用户可以收到 DBSS 发送的告警通知,及时了解数据库的安全风险。 使用云堡垒
云服务的状态变化触发告警规则设置的阈值时,系统通过短信、邮件通知或发送消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。 监控面板:为用户提供在一个监控面板跨服务、跨维度查看监控数据,将用户关注的重点服务监控指标集中呈现,既能满足您总览云服务的运行概况
高 关键策略 可以通过以下途径实现故障的快速发现: 监控:应用系统需要提供业务监控信息,以便实时了解系统运行状态;维护团队需要有专人观测,并在发现故障发生时,需要及时响应。 告警:应用系统在检测到故障后需要及时告警,并能通过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。
CES:使用CES获取安全事件的告警通知。CES提供对监控指标的告警功能,当云服务的状态变化触发告警规则设置的阈值时,系统提供邮件和短信通知,用户可以在第一时间知悉业务运行状况,还可以通过HTTP、HTTPS将告警信息发送至告警服务器,便于用户构建智能化的程序处理告警。 父主题: SEC09
ELB采用集群化部署,支持多可用区的同城多活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提高了业务的可靠性。当异常的后端服务器恢复正
考对应组件的调优。本文档重点讨论上述的1,2,3部分的性能调优的内容,并结合MapReduce/Spark的进行调优说明。 批处理业务 批处理主要特点是耗时时间长,消耗的资源比较多,主要的调优和设计推荐如下: 尽量使用ORC File, 配上合适的压缩算法, 主要可选的压缩算法为
个项目/业务/应用全生命周期的云开销。 企业的项目/业务是随时间变化而变化的,一般而言,新兴业务/项目常有更多云资源扩容的需求,而稳定的业务/项目则可以更多考虑单位收益的云成本是否可以持续优化,而处于生命周期末尾的项目/业务则需要考虑逐步释放不再需要的资源。 企业制定预算时,应该
可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。 可参考CES的最佳实践,https://support
K、多账号汇聚,满足全场景客户丰富的日志接入需求。 海量日志存储搜索:百亿日志秒级搜索,千亿日志迭代搜索,PB级智能冷存储。 SQL统计和可视化图表:100+SQL函数、多种可视化图表、10多种开箱即用仪表盘。 实时日志告警:自定义告警内容,短信/邮件/微信/钉钉/HTTP多渠道通知。
业务数据不均衡原因 业务中部分Topic的流量远大于其他Topic,会导致节点间的数据不均衡。 生产者发送消息时指定了分区,未指定的分区没有消息,会导致分区间的数据不均衡。 生产者发送消息时指定了消息Key,按照对应的Key发送消息至对应的分区,会导致分区间的数据不均衡。 系统重新实现了分
有投诉或提出质询的权利。如:产品的最终用户,公司的雇员等。 数据控制者 单独或者与他人共同确定个人数据处理的目的和手段的自然人、法人、公共机构、政府部门或其他机构。对个人数据的处理有控制权,承担个人数据保护的主要责任。 数据处理者 代表数据控制者处理个人数据的自然人、法人、公共
VM中使用一个内部队列,这会消耗一定的资源。大多数场景下,使用最多5个优先级就够了。 如何确定消息大小 如何选择发往RabbitMQ的消息长度是一个常见问题。记住,每秒钟发送的消息数比消息大小更容易达到瓶颈。虽然发送大消息不是一个好的做法,但是发送多条小的消息也可能不是一个好的选择。更好的方法是生产者把
康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 父主题: RES10 故障隔离
事件的优先级进行分类。 隔离与控制:自动隔离受感染的设备或网络段,防止威胁扩散。 自动修复:对于已知的漏洞或问题,自动化执行补丁安装、配置更改或清除恶意软件。 取证与记录:自动收集与事件相关的日志、网络包和其他证据,保存为后续分析使用。 通知与沟通:向指定的安全团队成员发送警报,
Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用进行全方位监控,帮助您快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。目前支持JAVA、Python、Node
等。 配置IAM的网络访问控制策略。限制用户只能从特定 IP 地址区间、网段及 VPC Endpoint 访问华为云。 多个账号或多个IAM用户间使用不同的密码。 禁止将用户的密码共享给其他人,而是为每个管理或使用华为云资源的人创建一个单独的用户。 修改新用户的默认密码。使用IA
启用关键操作通知功能。启用云审计服务CTS的关键操作通知功能后,CTS会对这些关键操作通过消息通知服务(SMN)实时向相关订阅者发送通知。 开启审计日志转储,将CTS的审计日志存储到OBS。依据您的合规性、业务要求设置日志保留时长。 对审计日志进行保护并定期备份,避免受到未预期的删除、修改或覆盖。可以同步
当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。 应用层进行过载保护,保障优先业务的运行。 生产消息失败 检测:生产消息失败