检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、统一资产管理、多终端访问协议、文件传输、会话协同等功能于一体。通过统一运维登录入口,基于协议正向代理技术和远程访问隔离技术,实现对服务器、云主机、数据库、应用系统等云上资源的集中管理和运维审计。 父主题: 卓越运营云服务介绍
性能数据,可以深入了解工作负载的运行状况和行为。 指标作用: 帮助你了解资源的运行状况和性能, 在云监控平台上配置对应的告警策略和配置指标看板。 通过跟踪分析网络路径上的流量来优化网络性能。 相关云服务和工具 云监控服务 CES 父主题: 性能数据采集
参考架构 概述 内部工具或公测类应用典型部署架构(99%) 内部知识管理类应用典型部署架构(99.9%) 信息管理类应用典型部署架构(99.95%) 电商类应用典型部署架构(99.99%) 金融类核心应用典型部署架构(99.999%) 跨云场景典型部署架构(99.99%) 父主题: 韧性支柱
户通常会提出以下疑问: 是否有一个全局性的视图可以表达构建安全工作负载的整体情况? 在多账号环境以及单账号环境中应该使用哪些云服务? 如何从全局到局部、自顶向下及从不同视角考虑工作负载的安全? 基于以上诉求,我们构建了安全参考架构。安全参考架构旨在帮助客户有效地使用华为云服务构建
在后端节点故障的情况下,需要自动将业务分发给其他健康节点处理,以避免业务失败。 相关云服务和工具 弹性负载均衡 ELB:支持业务负载均衡处理,还支持后端服务器健康状态检测,自动隔离异常状态的ECS。 父主题: RES13 过载保护
验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审 (PRR)、性能压测,确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高可用等多维度设计演练场景,先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练,对架构高可用、监控、PRR
全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。 云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安
地恢复到新的云数据库 TaurusDB实例,用来恢复业务。 详见“备份原理”。 自动扩缩容 云数据库 TaurusDB服务支持自动扩缩容,可自动扩缩规格和增删只读节点。详见“设置自动变配(自动扩缩容)”。 跨AZ容灾 云数据库 TaurusDB实例支持将实例的节点分别部署在多个可用区。
韧性的侧重点不同。可靠性工程的目标是尽可能减少系统中的故障,保证系统无故障运行。而韧性工程,接受故障总会发生的现实,关注的是如何降低故障带来的损失以及如何从故障中恢复。 父主题: 基本概念
VPC访问:函数提供了指定VPC访问的能力,但在冷启动时会初始化到该VPC网络的网络链路造成额外的冷启动时延。 如果需要访问公网,且对带宽有要求的生产业务可以通过配置绑定了NAT网关的VPC来访问公网;如果函数没有网络访问场景的,不建议配置VPC。 参考配置网络。 超时时间 如果函数配置的超时时间比较长的话,且函数
功能/模块被执行频度等指标。 通过优化提高效率 在初始阶段设置的目标考虑到各种约束和业务目标,随着业务的增长应不断进行调整。为了进一步优化性能效率,需要清楚地了解系统的使用方式、演变过程,以及平台或技术是如何随时间变化的。需要预留足够的时间来进行持续的性能优化,可以构建性能驱动的
RES15 升级不中断业务 软件版本在重新部署或升级过程中,需要尽可能避免业务中断,减少业务影响。 RES15-01 自动化部署和升级 RES15-02 自动化检查 RES15-03 自动化回滚 RES15-04 灰度部署和升级 父主题: 变更防差错
上资源的集中式管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。 合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。 全方位变更管理
SEC06-05 执行渗透测试 渗透测试是一种安全评估方法,模拟攻击者的行为,通过模拟真实的攻击场景来评估系统、应用程序或网络的安全性。渗透测试旨在发现系统中的安全漏洞、弱点和潜在的安全风险,以帮助组织改进其安全措施、加固防御,并保护系统免受真实攻击的威胁。 风险等级 高 关键策略
调用链跟踪、延迟和流量监控。 2、服务监控 由于服务实例的冗余配置和应用系统的容错保护,业务指标正常并不意味着服务实例状态一定正常。例如,在配置了ELB的虚拟机集群中,ELB会主动隔离异常节点,虽然业务会在正常节点上分担,但应用系统实际已损失了部分处理容量。因此,云服务状态监控必不可少。
避免启动依赖及循环依赖。若应用系统由于某些原因导致重启时,若依赖于其他依赖项启动或加载关键配置数据,可能会导致应用系统长时间停在启动状态而无法响应外部消息。针对这种情况,应用系统应该先使用缺省配置启动,再检查依赖项的状态或加载最新配置数据,以恢复正常运行。 父主题: RES08 依赖减少与降级
是没释放的内存(注意:是在host上申请释放,不代表device状态)。active对应host上还未释放的内存+还在被别的流占用的内存。 举例,一个tensor在streamA上申请了,让供streamB做allreduce的集合通信操作,然后tensor进过一次add后被释放
OPS07-03 支持事件管理 风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并
n容灾等高可用能力的基础设施与云服务,便于客户构建高可靠的系统。例如: EVS云硬盘、OBS对象存储采用分布式存储,可避免单个硬盘、单个服务器或单个机架等硬件故障的影响。 RDS数据库提供自动数据备份、跨AZ和跨Region的数据复制与切换。 不过,即使应用系统利用云平台能力具有
消息队列性能优化 以下章节我们结合一些具体建议和指标来说明如何针对消息队列的使用进行性能优化。 Kafka性能优化 RabbitMQ性能优化 父主题: 云服务性能优化介绍