检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
软件系统类故障 应用程序类 表1 应用程序类参数配置 故障类型 故障模式 设置参数 进程 杀进程 process 进程持续异常,即使重新拉起也会被再次杀掉 process Java程序类 表2 Java程序类参数配置 故障类型 故障模式 设置参数 Java进程 Java进程内存溢出
选择“远程安装”。 选择UniAgent版本。 选择安装机及CCE。 选一台已经安装了UniAgent的主机作为安装机,安装机通过代理的方式作为中间桥梁安装UniAgent到同一个VPC下的其他主机。 添加UniAgent主机,配置如下信息。 添加任意一台CCE集群中的主机节点即可。 表1
使用MAS实现API异常监控 概述 API监控可实现监控用户业务APIG入口的可用性。配置告警前提下,当APIG异常时,API监控在监测到该异常后会立即发送告警通知给用户。 本章通过完成一个样例帮助您快速熟悉使用API监控实现API异常监控的过程。使用API监控的步骤如下所示: 步骤一:创建MAS应用
输入值必须在3000到100000之间。 健康精度 探测的健康精度。配置为1,表示多活实例的监控集群中只要有一个worker探测到数据库,则认为探测成功;当探测失败时,由Leader做故障处理。 输入值必须为1或2。 说明: “API监控”仅需配置“健康精度”,无需配置其他参数。 父主题:
支持带注入故障的实例创建,包含延时(波动)、预设异常的故障配置。 single-read-write 单读写类似于主备库,MAS监控各节点健康状态,active节点故障自动切换至其他节点,保证多活容灾能力,节点之间用DRS进行数据同步,保证数据一致。 读操作:同步路由到active的mysql。
支持带注入故障的实例创建,包含延时(波动)、预设异常的故障配置。 single-read-write 单读写类似于主备库,MAS监控各节点健康状态,active节点故障自动切换至其他节点,保证多活容灾能力,节点之间进行数据同步,保证数据一致。 读操作:同步路由到active的Redis。
合,包括了流量入口、多活分区、数据同步、数据监控等内容。用户可以创建多个命名空间,用于逻辑隔离不同的资源。一般推荐按照企业的系统划分,比如OA系统,支付系统等可以各建一个命名空间。 实例 MAS向用户提供服务的最小资源单位。 购买一个多活管理中心即创建一个多活实例,多活实例是一个
同城多活:多活业务中各多活子信息系统均处于同一地理区域,建议物理距离<50KM。 异地多活(规划中,暂不可选):多活业务中至少一个多活子信息系统与其他子系统处于不同地理区域,建议物理距离>300KM。 异地容灾:多活业务中至少一个多活子信息系统与其他子系统处于不同地理区域,建议物理距离>300KM。
配额说明 配额是指您在MAS系统中可创建的资源数量限制,具体的资源配额限制如表4-1 MAS配额规格所示。 表1 MAS配额规格 资源名称 配额(个) 备注 命名空间 10 系统支持的命名空间数量。 多活管理中心 10 系统支持的多活实例数量。 应用 200 单个实例支持的应用数量。
主动注入故障识别并修复系统未知隐患的工程实践。MAS-CAST混沌工程服务提供丰富的故障模式库,通过混沌实验编排攻击目标、攻击策略进行故障注入,支持添加背景流量和资源监控,同时在故障注入能力的基础上,通过体系化的流程和规范来创建故障演练,从而验证和提升系统可靠性和技术团队应急响应能力。
选择被监控的APIG部署的环境。 局点 被监控的APIG所在区域。 连接地址 协议选择http或https,地址填写APIG的连接地址。 请求路径 APIG的健康检查路径信息。 请求方法 可选择GET、POST、DELETE、PUT、PATCH方法。 响应码 根据监控的APIG的接口实际需求配置,例如200。
创建故障演练 故障演练是一种通过注入大规模的体系化故障来模拟各类真实的系统故障,从而验证系统可靠性和技术团队应急响应能力的工程实践。 创建演练 登录MAS控制台。 单击“混沌工程>故障演练”,进入“故障演练”页面。 单击右上角的“创建演练”,进入“创建演练”页面。 图1 创建演练
查看实验报告 混沌实验/组报告提供详细的实验评估报告,涵盖执行结果、PerfTest背景流量业务指标以及AOM系统资源监控信息。 故障演练报告提供整体的和应用维度的故障注入、故障感知、故障定界、业务恢复等演练数据。 查看实验报告 登录MAS控制台。 单击“混沌工程>实验报告”,进入“实验报告”页面。
应用场景 本次商城应用改造是基于github上50k+star的mall后台管理系统及对应前端项目进行改造来对接SDK。 后端项目地址:https://github.com/macrozheng/mall 前端项目地址:https://github.com/macrozheng/mall-admin-web
登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“事件监控”,进入“事件监控”页面。 在“事件监控”页面,默认展示近24小时的所有系统事件与自定义事件。 单击具体事件右侧的操作列的“查看监控图表”,可查看具体事件的监控图表。 父主题: 事件监控
构建高可用性系统的需求。 软件开发工具包(SDK):SDK 的全称是 Software Development Kit,是一种被用来辅助开发某类软件而编写的特定软件包。 RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。
在事件列表页面,单击页面右上角的“创建告警规则”。 根据界面提示,配置告警规则名称、告警策略、告警通知等参数,其中: 告警类型:选择“指标”或“事件”。 事件类型:选择“系统事件”。 事件来源:选择“MAS”。 图1 创建告警规则 其他参数请参考创建事件监控的告警通知,告警规则创建完成后,当事件监控指标触发设定
Service,CTS)可以记录MAS相关的操作事件,用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 开通了云审计服务后,系统开始记录MAS资源的操作。云审计服务管理控制台保存最近7天的操作记录。 开通云审计服务 云审计服务的开通请参见开通云审计服务。 开通云审计
MAS自定义策略 如果系统预置的MAS权限,不满足您的授权要求,可以创建自定义策略。目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可以
化场景。 分区化管理+应用数据多活,可扩展性强,可以随时增加新的分区,可靠性高。 场景五:混沌工程 适用于向被测系统主动引入故障,通过故障注入、故障演练的方式提升系统可靠性。 图1 MAS应用场景