检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本模式要求将组合调用居多的一些子功能,合并起来使用。聚合这个模式要求尽量将相关或紧耦合的功能放到一个对象中,使用本地接口,避免在外部接口或重开销的接口(如CORBA接口),呈现小粒度对象。聚合模式使用更粗粒度的对象,经常被访问的数据应当组合成一个聚合物,以消除对少量信息的频繁请求。
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
份时间点相关;不同类型的数据,允许丢失数据量可以不同,即RPO不同;为了保证数据备份的RPO目标,需要采用定期自动备份,而不要依赖人工进行手工备份。 RES02-01 识别和备份应用中所有需要备份的关键数据 RES02-02 自动数据备份 RES02-03 定期进行备份数据恢复 父主题:
原则上不允许上线。 2)持续导入服务可服务性、运维需求基线,实现标准化、减少例外操作,帮助服务快速上云。 3)持续提升自动化验证能力,减少手工评估,提升产品的交付与运维效率。 相关云服务和工具 COC PRR评审 父主题: OPS05 运维准备和变更管理
组织级参考架构 华为云提供了Landing Zone解决方案帮助企业客户在云上构建架构卓越、安全合规、易扩展的多账号运行环境,首要环节是规划组织和账号架构。按照康威定律,企业在华为云上的组织和账号架构要与企业的组织和业务架构总体保持一致,但也不要完全照搬复制。华为云提供以下参考架
服务提供了缺省自动备份功能,实例每5分钟自动进行一次增量备份,以保证数据库的可靠性。 DCS备份:DCS服务针对非单机实例提供了自动备份和手工备份功能,建议设置自动备份策略进行备份。 此外,用户也可使用第三方备份软件进行备份。 华为云中云服务的数据备份到OBS存储中,可高度保障用户的备份数据安全。
CPU 和内存造成较高的负担,RabbitMQ management 接口的响应速度也会受到影响。 自动为临时队列分配队列名 如果使用临时队列(包括排他队列、自动删除队列、非持久化队列),可以调用不带参数的接口queueDeclare()让 RabbitMQ 自动为你分配一个队列名。
据恢复。 监控告警 进行简单的监控,检查应用系统是否能正常返回消息。 弹性扩缩容 提供常见故障处理runbook,以便在容量不足等场景可以手工扩容。 变更防差错 软件更新采用离线更新,安装和重启应用需要停机,根据runbook进行应用的部署与回滚。 应急恢复处理 指定应用系统责任
设计原则 由于故障不可避免,如硬件故障、软件错误、网络延迟、突发流量等,因此在设计高可用应用系统时,必须考虑所有的硬件及系统包括的软件都可能会失效,包括IaaS、PaaS、SaaS及应用系统本身。韧性设计的目标不是试图防止这些故障的发生,而是为了在这些故障发生时,能最大程度地减轻
双DC专线冗余:用户数据中心与华为云VPC之间采用两条DC专线互通;其中两条物理专线接入同区域的两个华为云专线接入点,并通过BGP路由协议接入同一个VPC,用户可设置虚拟接口的优先级以决定业务的主备链路。具体的方案参见“用户通过双专线双接入点BGP协议访问VPC”。 双VPN冗余:用户数据中心与华为云VPC之间
故障的情况下能快速将业务恢复到另一个Region。 接入层(外部DNS、API网关):通过外部DNS进行域名解析,在一个Region故障时手工将业务流量切换到另一个Region。 应用层(负载均衡器、应用软件及虚拟机):对于无状态应用,通过ELB负载均衡器进行故障检测与负载均衡,
行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现即为功能输出和预期不一致。在产品上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:
最小化权限:给予用户或实体最小必要权限来执行其工作,以降低潜在的安全风险。 最小化暴露面:对不同的访问区域和访问对象,仅暴露最小的服务端点和最少的服务应用接口。 最小化凭证:尽量消除对长期的、静态凭证的依赖。 数据安全保护原则(Data Security) 数据分类分级,定义不同级别的数据防护措施。
在IDC/其他云故障的情况下能快速容灾切换到华为云。 接入层(外部DNS、API网关):通过外部DNS进行域名解析,在IDC/其他云故障时手工将业务流量切换到华为云。 应用层(负载均衡器、应用软件及虚拟机或物理主机):对于无状态应用,通过负载均衡器进行故障检测与负载均衡,在华为云
Spark的特点如下: 通过分布式内存计算和DAG(无回路有向图)执行引擎提升数据处理能力,比MapReduce性能高10倍到100倍。 提供多种语言开发接口(Scala/Java/Python),并且提供几十种高度抽象算子,可以很方便构建分布式的数据处理应用。 结合SQL、Streaming、
应用使用支持跨AZ的服务进行跨AZ部署,ELB、RDS跨AZ部署,AZ故障时自动恢复。有状态ECS通过SDRS进行跨AZ容灾,在AZ故障时手工切换。 监控告警 进行站点运行状态检查,在发生故障时告警;针对ECS、RDS实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 针对
库。用CMDB来追踪资产(例如产品、系统、软体、设备、人员)的状态,例如这些资产在特定的时间点是否存在,以及各资产之间的关系,并通过公开的接口支持IT管理各种业务数据消费。 MTTR MTTR(Mean Time to Repair)平均恢复时长,平均修复时间指从故障发生到验证确认故障恢复的耗时。MTTR
基于调用链的业务延迟和错误率监控。函数服务FunctionGraph、微服务引擎CSE提供了流量、延迟和错误率监控能力。基于API网关暴露接口的应用,可使用APIG服务提供的流量、延迟和错误率监控能力。如果云服务现有能力不能满足系统要求,用户也可以自行埋点或基于Zipkin开源框架实现调用链跟踪、延迟和流量监控。
即使在部分自动化流程中依然需要人工干预,例如决策点。在决策点前的自动化流程依然可以确认人员权限,向人员提供必要的上下文和信息,以便做出明智的决策,比之纯手工流程,最大程度避免了错误。 通过可观测性进行持续改进 可观测性是指通过观察系统的外部输出,推断其内部状态的能力。一般来说,云上应用的可观测
池分为小内存池与大内存池,block是pytorch向device驱动申请内存的粒度,整存整取。用户/Pytorch代码向内存池申请内存的接口归一为tensor的申请释放(这点最开始也不是很好理解,也就是说:任何一个pytorch代码申请内存的地方,均表现为一个tensor的申请释放)。