检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC03-01 定义权限访问要求 明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
COST05-01 分析业务趋势和优化收益 风险等级 高 关键策略 云成本是一个综合工程,也是一个定期审核、回顾和执行的流程,除了考虑优化带来的收益以外,还需要考虑相关成本,例如,因为优化带来的人员和时间成本。 为了降低整体成本,优化的工作量必须与潜在的节省额成比例。优化可以从应用占成本的比例考虑。
LTS助力某公司高效完成日常业务运维与等保合规 某公司是一家拥有IT,汽车及新能源三大产业群的新技术民营企业。2022年8月,公司入选2022年《财富》世界500强排行榜。 客户痛点: 业务部门较多,日志量较大,项目管理较为困难 云服务资源种类数量较多,监控指标和运维日志不熟悉,运维难度大
PERF03-01 选择合适类型的计算云服务 风险等级 中 关键策略 根据应用的特征选择合适的计算云服务。选择计算云服务主要考虑以下两个因素: 应用本身的部署形态 上云时,业务的迁移方式(例如:业务是简单的迁移上云,还是本身要做改造) 如果业务本身在IDC部署模式是虚拟机部署,应
COST07-01 持续监控资源利用率指标 风险等级 高 关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
应用运维管理(AOM2.0) 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
RES06-03 支持亚健康检测 系统内组件有可能完全故障,也有可能处于亚健康状态;亚健康是指系统整体业务未超标,但系统中局部实例业务超标。亚健康更多是个相对概念,相对历史表现的统计,或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时,系统也需要及时进行隔离或恢复处理,避免对业务造成影响。
可靠性功能 集群HA CCE集群支持3个Master节点高可用部署,确保集群的可靠性。 数据备份和恢复 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下;CCE通过云硬盘EVS服务提供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。
韧性支柱简介 韧性支柱旨在帮助企业构建具有高可用的应用系统架构,提高工作负载的韧性,使之在面对各种异常场景时仍能提供和维持可接受的服务水平。韧性支柱结合了华为公司韧性设计经验和业界最佳实践,总结并提炼出一系列设计原则与最佳实践,用以帮助企业利用华为云平台基础设施达到高可用、面向各
RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。
RES08-03 减少被依赖项故障的影响 被依赖项自身的可用性需要增强,以减少对依赖它的组件的影响。 风险等级 中 关键策略 对于被依赖项本身,为减少由于服务故障或运行缓慢对依赖它的组件的影响,需要考虑使用以下技术和原则: 减少被依赖项本身的外部依赖。 优化性能,减少消息响应时延和负载。
SEC10-03 自动化响应安全事件 自动化的响应工作流是安全自动化的核心组成部分,旨在减少安全事件的响应时间,并提高处理效率。 风险等级 高 关键策略 定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或
卓越运营支柱简介 在华为公司,卓越运营代表着质量、效率和可持续的卓越客户体验。它帮助改进设计、开发、测试、部署、发布和运维活动,持续实现高质量的交付结果,推动了持续集成和持续交付(CI/CD)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少
OPS06-01 建立可观测性体系 可观测性(observability)最初是系统理论中的一个概念,指系统的状态能否被外部观察到和重现。随着云原生、微服务架构的发展,IT系统对可观测性的需求日益增强。业界对可观测性的定义:通常是指基于对复杂系统外部输出的了解,能够了解其内部状态
SEC10-05 建立复盘机制 建立安全事件复盘机制可以帮助团队从过去的安全事件中学习经验教训,并改进未来的安全措施。 风险等级 中 关键策略 确定复盘的目的:在进行复盘之前,明确目的是非常重要的。确定您希望从这次安全事件中学到什么,以及如何改进未来的安全措施。 收集事实和数据:
工作负载级参考架构 对于一些中小企业,使用华为云单账号即能满足其IT系统管理的诉求。客户会把所有工作负载部署在一个账号内。以下是一个单账号的工作负载级的安全参考架构。 该架构主要的安全设计如下: 网络安全 防DDoS攻击使用AAD服务 Web类攻击采用WAF防护 采用SSL证书进行通信加密
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成
可用性需求 根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的
RES06-01 故障模式分析 故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部