检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink性能优化 概述 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pi
概念表 概念 解释 韧性 (Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。
OPS06-06 实施分布式跟踪 Trace是一系列因果相关的分布式事件的表示,这些事件编码了流经分布式系统的端到端请求流。 风险等级 高 关键策略 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。 设计建议
RES11-02 压力负载测试 通过施加超出系统容量的业务压力,验证云服务的过载保护、业务隔离和优雅降级等能力。为全面验证系统整体的容量规划和业务依赖,云服务应用通常采用全链路压测进行测试。 风险等级 高 关键策略 模拟大量接口消息进行压力测试。 模拟各种业务场景进行压力测试。 持续自动测试。
应用性能管理(APM) 华为云应用性能管理服务(Application Performance Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用
PERF04-02 选择合适的测试方式 风险等级 高 关键策略 性能测试的常见方式如下,需要注意的是,各种测试方式并不是正交的,而是有耦合关系的: 性能验收:性能验收测试的运行环境必须是确定的,验证系统在确定的场景条件下是否达到了其宣称的能力规格。 负载测试:是在被测系统上进行负
人工智能性能优化 1.训练优化模型性能提升实践 参数调优策略:调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需
OPS03-03 进行性能压测 风险等级 高 关键策略 性能压测主要通过自动化的测试工具模拟多种正常、峰值以及异常负载条件来对系统的各项性能指标进行测试。通常把性能测试、负载测试、压力测试等统称为性能压测。广义而言,是为保证系统运行后的性能可以满足用户需求,而开展的一系列测试组织工作。
SEC09-02 安全事件记录及分析 在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网
设计原则 建立持续改进的团队文化和标准化运维体系 在卓越运营中,团队文化建设至关重要。运营是一门不断改进的艺术。只有不断从已有事故中学习经验,持续学习和改进,才能最终达到卓越运营。故而,团队应该培养持续学习和改进的文化,此外,在事故发生时,应该以对事不对人的态度,思考系统的改进,
RES10-03 采用Grid架构 采用Grid架构,可将应用系统内的工作负载的故障影响限制在有限Grid业务单元中。 风险等级 高 关键策略 应用系统采用多个功能相同的Grid业务单元,每个Grid业务单元具备完整业务功能,处理整个业务负载中的一个子集,不涉及与其他Grid业务