检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关键角色,确保从责任主体上保障工作负载的安全性。 风险等级 高 关键策略 明确职责和角色:确定团队成员的职责和角色,包括安全架构设计、安全测试、安全运营等方面的角色。每个角色应清晰定义其职责范围和任务。 跨职能团队:组建一个跨职能的安全管理团队,涵盖安全运营、安全架构、安全合规等
SEC10-04 安全事件演练 安全事件演练是一种模拟性的活动,旨在让组织成员在一个模拟的安全事件场景下进行实际操作和应对,以测试和提高其应对安全事件的能力。通过安全事件演练,组织可以评估其安全事件响应计划的有效性,发现潜在的问题并进行改进,提高团队的准备性和反应能力。 风险等级
卓越运营支柱简介 在华为公司,卓越运营代表着质量、效率和可持续的卓越客户体验。它帮助改进设计、开发、测试、部署、发布和运维活动,持续实现高质量的交付结果,推动了持续集成和持续交付(CI/CD)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少
通常是指基于对复杂系统外部输出的了解,能够了解其内部状态或状况的程度。系统越可观测,定位问题根本原因的过程就越快速越准确,而无需进行额外的测试或编码。 风险等级 高 关键策略 可观测体系是围绕确定性恢复命题展开的,决定了确定性恢复能力构建与 SLO 达成。可观测体系能够直接决定一些故障的恢复时长,如下图所示,MTTR
选择合适规格的RabbitMQ 选择合适的关系型数据库 选择合适的非关系型数据库 PERF04 如何进行性能分析? 定义性能验收标准 选择合适的测试方式 性能测试步骤 资源性能数据采集 应用性能数据采集 建立性能可观测性体系 PERF05 如何进行性能优化? 设计优化 通用算法优化 WEB场景资源优化
如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用于作为高性能存储,比如工业设计、能源勘探这些。 容量 PiB级别 EiB级别 TiB级别 时延 3~10ms 10ms 亚毫秒级 IOPS/TPS 单文件系统 10K 千万级 单盘 128K
集群HA ELB采用集群化部署,支持多可用区的同城多活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提高了业务的可靠性。
选择合适的RocketMQ 风险等级 中 关键策略 RocketMQ服务提供了多个维度定义规格,如资源规格、代理个数、存储容量、单个代理TPS、单个代理Topic数上限、单个代理消费组数上限等,建议根据不同版本涉及的具体规格情况选择合适的RocketMQ服务。 详细版本与对应支持规格参数请参考官方文档。
通常需要通过代码采集,例如嵌入代码片段或将工具集成到应用程序代码中。通过应用的性能数据,可以识别性能瓶颈、评估系统行为、识别可用性风险、规划容量等指标。 常用应用性能监控策略有: APM 工具:可用使用云上APM 工具或者开源的APM工具和分析性能数据(指标、日志、调研链) 使用
OPS01-03 规划标准化的运维流程和运维工具 风险等级 高 关键策略 流程和工具是经验的承载,通过标准化的流程,可以大幅降低在运维过程中因为个人的因素受到的影响和无序化。 通过标准化的、统一的运维工具,向运维人员提供集中、统一维护界面及清晰易上手的操作手册,方便运维人员的集中维护,提高运维效率。常见的运维流程有:
行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。
您如何进行故障隔离? 应用控制平面与数据平面隔离 应用系统多位置部署 采用Grid架构 健康检查与自动隔离 RES011 您如何进行可靠性测试? 混沌测试 压力负载测试 长稳测试 灾难演练 红蓝攻防 RES012 您如何进行应急恢复处理? 组建应急恢复团队 制定应急预案 定期应急恢复演练 出现问题后尽快恢复业务
主动监控成本 风险等级 中 关键策略 不要只在出账后或收到异常通知时再查看成本和用量,应使用工具定期检查成本。定期监控和主动分析成本,有助于您及时识别成本趋势,避免异常发生。 相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。
e/Spark引擎的相关参数,主要是Job数量,Map数量,Reduce数量。 通用测试标准 Hive性能上业界主要是拿TPC-DS来跟同类型的产品或者自己的老版本进行对比。标准测试仅做为性能测试的一些参考。 指标观测方法 通用指标的观测 集群机器的CPU,内存,IO的使用情况可
、超过1000家企业客户及合作伙伴。 客户痛点: 端侧采集工具不统一,不支持自定义域名上报,问题定位复杂 Web、IOS、安卓、百度小程序、微信小程序等多类端侧日志无法使用同一家厂商工具采集,问题定位分析时,需在多个工具间需来回切换,增加了定位复杂度,且无法自定义日志上报的服务端域名,合规性受到部分用户质疑
的应用相比,应更经常、更彻底地审核占总成本 50% 的应用。优化时要考虑的另一个因素是实施更改的工作量。如果测试和验证变更的成本很高,优化的频率应该降低。您应该反方向考虑是否可以通过替身自动化测试和验证能力,从而进一步降低人力成本。 此外,由于成本优化带来可能带来的资源冗余度的下降,故而也应该综合考虑业务的趋势。
的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可
安全合规使用开源软件 SEC06-02 建立安全编码规范 SEC06-03 实行代码白盒检视 SEC06-04 应用安全配置 SEC06-05 执行渗透测试 父主题: 应用安全
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现即为功能输出和预期不一致。在产品上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务