检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要定期审计和实施凭证轮换,以帮助降低长期凭证相关风险。 对您的身份提供者和IAM中配置的身份进行审计,这有助于验证只有经过授权的身份才能访问您的工作负载。 使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。
在阈值规则发生变化时,可以以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。 相关云服务和工具 消息通知服务 SMN 云运维中心 COC:支持人员管理、排班管理和通知管理,可以根据通知规则自动将消息发送给要通知的人员。 父主题: RES07 监控告警
级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效、安全、一致创建、管理和升级云服务资源,能有效提升资源管理效率,并降低资源管理变更带来的安全风险。 父主题: 卓越运营云服务介绍
影响。 合规性:在一些行业和法规中,对数据隔离和访问控制有严格要求。通过分隔工作负载,可以更容易地满足合规性要求,保护敏感数据和确保数据隐私。 管理性:通过分隔工作负载,可以更轻松地管理和维护系统。每个工作负载都有独立的配置和管理需求,分隔可以简化管理流程并降低操作风险。 灵活性
y。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理 AOM 应用性能管理 APM 云日志服务LTS 父主题: 性能数据采集
关键策略 分析工作负载的每个组件。确定组件和资源是长时间运行(应享受承诺折扣,包年包月或购买资源包),还是短时间动态运行(采用 Spot 或按需定价)。使用成本管理工具中的建议对工作负载执行分析,并对这些建议应用业务规则以实现高回报。 相关服务和工具 为提高成本效率,华为云根据您过去
客户可感知的观测对象分类如下: 可观测分层 功能 / 主要指标 IT 资源监控 IT 资源监控对 IT 资源的性能和容量进行监视和报告,确保您的业务稳定可靠运行 应用监控 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。在应用层,主要监控业务层、
周期不断完善和改进,减少不必要的开支并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司结合云业务成本运营经验和业界最佳实践总结并提炼出体系化实践与建议,包括:提升成本管理效率、合理选择
ServiceStage主要包含如下能力: 应用管理:支持应用生命周期管理、环境管理。 微服务应用接入:支持Java Chassis、Spring Cloud微服务框架。配合微服务引擎可实现服务注册发现、配置管理和服务治理,请参考微服务开发指南。 应用运维:通过日志、监控、告警支持应用运维管理。 父主题: 卓越运营云服务介绍
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
FinOps是“Finance”和“DevOps”的结合,目的是解决企业管理云成本难题。FinOps基金会将FinOps定义为“不断发展的云财务管理纪律和文化实践,通过帮助工程、财务、技术和业务团队在数据驱动的支出决策上进行协作,使组织获得最大的业务价值”。企业云资源消费贯穿用云的整个过程,管理云成本也需要持续迭代优化。
需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。 每个恢复操作动作必须明确无歧义,可指导操作人员。 相关云服务和工具 云运维中心 COC:支持应急预案管理。 父主题: RES12 应急恢复处理
设计原则 建立持续改进的团队文化和标准化运维体系 在卓越运营中,团队文化建设至关重要。运营是一门不断改进的艺术。只有不断从已有事故中学习经验,持续学习和改进,才能最终达到卓越运营。故而,团队应该培养持续学习和改进的文化,此外,在事故发生时,应该以对事不对人的态度,思考系统的改进,
batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需要考虑进行profiling,采集性能数据后从更底层的算子、通信、调度和内存等维度将性能进行拆解分析,训练脚本中加入profili
定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或事件制定具体的响应动作,例如隔离、修复、通知、调查等。 优先级与分级:根据事件的严重性和紧急程度,定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)、U
风险等级 中 关键策略 对于被依赖项本身,为减少由于服务故障或运行缓慢对依赖它的组件的影响,需要考虑使用以下技术和原则: 减少被依赖项本身的外部依赖。 优化性能,减少消息响应时延和负载。 使用优先队列,优先处理高优先级用户的请求,以便在流量过载时不影响应用系统的核心功能。 流量过载时支持功能逐步降级。
要。 配置测试变量和参数: 在测试脚本中配置变量和参数,以模拟真实场景请求。 包括多用户登录、查询数据或随机化等参数,以模拟不同的用户行为和工作负载响应。 脚本自动化: 脚本自动化,根据反馈、测试结果或更改要求不断优化和更改测试脚本。 考虑优化脚本逻辑、参数化和错误处理,或添加额
全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。 存储时长满足等保要求:支持存储时长最大为365天,
应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制定应急恢复管理方案:所有应急恢复团队人员都需要进行应急恢复培训,熟悉应急恢复处理流程和恢复方法。 父主题: RES12 应急恢复处理
每年最大不可用时间 典型IT服务 99% 3.65天 批处理,后台任务,数据抽取 99.9% 8.76小时 内部知识管理系统,项目跟踪系统 99.95% 4.38小时 客户账户管理,信息管理 99.99% 52.56分钟 电商,B2B web服务,大流量媒体/内容网站 99.999% 5.26分钟