检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
等。 云服务资源性能优化步骤包括: 识别性能瓶颈: 通过监控和分析云服务资源使用情况,找出性能瓶颈。 优化资源配置: 根据性能瓶颈,调整云服务资源的配置,如 CPU 、内存、网络等。 使用缓存: 使用缓存技术,如 CDN 、 Redis 等,提高数据访问速度。 代码优化: 对云服
COST05-01 分析业务趋势和优化收益 风险等级 高 关键策略 云成本是一个综合工程,也是一个定期审核、回顾和执行的流程,除了考虑优化带来的收益以外,还需要考虑相关成本,例如,因为优化带来的人员和时间成本。 为了降低整体成本,优化的工作量必须与潜在的节省额成比例。优化可以从应用占成本的比例考虑。
COST05 优化指定策略和目标 COST05-01 分析业务趋势和优化收益 COST05-02 建立可以量化的优化目标 COST05-03 定期回顾和审核 父主题: 成本优化支柱
关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
SEC08-01 明确隐私保护策略和原则 明确隐私保护策略和原则是指在处理个人数据时,明确规定和遵守的保护个人隐私数据的总体策略和原则。 风险等级 高 关键策略 明确个人数据的分级及影响。个人数据包括:自然人的email地址、电话号码、生物特征(指纹)、位置数据、IP地址、医疗信
COST03-03 公共成本分配 风险等级 中 关键策略 跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比,将带宽费用拆分到不同的业务团队。 跨团队共享使用的CCE集群服务,应按照各团队分配和使用的CPU/内存等比例,将容器集群成本(包含CCE、ECS、EVS等服务成本)拆分到各个业务团队。
OPS08 度量运营状态和持续改进 OPS08-01 使用度量指标衡量运营目标 OPS08-02 进行事故复盘和改进 OPS08-03 知识管理 父主题: 卓越运营支柱
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可
规划企业组织,将组织结构,流程和成本管理相匹配 2. 规划IT治理体系,提高管理效率 3. 明确团队责任,建立和维护成本意识文化 4. 指定云资源管理策略和相应的权限管理机制 COST02 您是否有预算规划管理机制? 1.建立云预算与预测流程 2.精细化预算管理和跟踪 COST03 您是否将成本分配到组织单元?
对数据操作实施监控 静态数据的加密 传输数据的加密 SEC08 如何进行数据隐私保护设计? 明确隐私保护策略和原则 主动通知数据主体 数据主体的选择和同意 数据收集合规性 数据使用、留存和处置合规性 向第三方披露个人数据合规性 数据主体有权访问其个人隐私数据 SEC09 如何进行安全感知及威胁检测?
问题和检查项 问题 检查项/最佳实践 PERF01 如何确立流程与规范? 全生命周期性能管理 应用性能编程规范 PERF02 如何进行性能规划? 定义性能目标 容量规划 PERF03 如何进行性能建模? 选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务
问题和检查项 在迈向卓越运营的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有的检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 OPS01 您是否已经建立持续改进的团队文化和标准化运维体系? 1. 建立持续学习和改进的文化
不同流量模型业务的网络共享带宽隔离 预留IP资源以便扩展和高可用 RES06您如何进行故障检测处理? 故障模式分析 面向所有故障进行检测 支持亚健康检测 RES07 您如何监控应用系统资源? 定义关键指标与阈值并监控 日志统计监控 监控到异常后发送消息通知 监控数据存储和分析 端到端跟踪请求消息 RES08
COST07 管理和优化资源 COST07-01 持续监控资源利用率指标 COST07-02 释放闲置资源 COST07-03 考虑不同的云资源技术选型 COST07-04 合理降配低负载资源或升配高负载资源 父主题: 成本优化支柱
等能力做“在线验证”,实现持续性的动态风险治理。混沌演练和高可用设计共同成为系统稳定性的“双引擎”。 系统风险消减、业务快速恢复:分析系统潜在风险(故障场景),制定应急预案,验证故障场景的覆盖率和命中率,验证应急预案的质量和执 行效率,做到“少出事”和“出了事快速恢复”,实现确定性恢复的目的。
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
OPS08-02 进行事故复盘和改进 事故分析的目的是:规范和指导重大事故发生后,优化事故的输入、输出,确保事故回溯工作有效开展,回溯报告中发现的问题有效整改,总结的经验有效推广。 风险等级 高 关键策略 故障发生后,通过对现网重大故障处理过程 Review 及根因进行分析和改进总结,规范整个
RES15-04 灰度部署和升级 原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,
OPS07 进行故障分析和管理 OPS07-01 创建可操作的告警 OPS07-02 创建监控看板 OPS07-03 支持事件管理 OPS07-04 支持故障恢复流程 父主题: 卓越运营支柱