检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ive的调优分为以下几个部分: 接入层:主要包括用户的连接性能,如网络速度、认证、连接并发数。 HiveServer:以SQL的优化为主,执行计划是SQL优化的主要手段,通过接口查看Hive对整个SQL语句是如何进行任务的分解和编排,并结合MapReduce/Spark的执行情况针对性的进行任务的优化。
韧性的侧重点不同。可靠性工程的目标是尽可能减少系统中的故障,保证系统无故障运行。而韧性工程,接受故障总会发生的现实,关注的是如何降低故障带来的损失以及如何从故障中恢复。 父主题: 基本概念
、存储。西部数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。 相关服务和工具
能上,减少用于维护和处理突发事件的时间,从而带来运行良好的系统和平衡的工作负载,尤其是卓越的客户体验。卓越运营支柱融合了这些优秀实践,聚焦如何正确地构建软件,高效地运维软件,持续提供卓越的客户体验,包含:组织团队、设计工作负载、大规模运营工作负载和随时间变化改进工作负载的最佳实践。
指定云资源管理策略和相应的权限管理机制 风险等级 高 关键策略 由于成本优化是跨组织多个业务部门的事项,而云资源是云上成本的主要开销,故而应该制定策略,确定您的组织应该如何管理资源。如上文所说的,可以使用账号隔离不同组织/部门的资源,甚至于在同一个组织/部门内部,开发,测试,核心业务,非核心业务,也使用不同的账号和环境。
跨云容灾方案 当重要应用系统已经在IDC或其他云上部署,并需要容灾到华为云,以提供高可用的容灾方案。假定应用系统在IDC或其他云上可以达到99.9%的可用性,则在容灾到华为云后,能提供99.99%的可用性。 跨云应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用
分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个
自己的身份,包括密码、指纹、短信验证码、智能卡、生物识别等多种因素组合,从而提高用户账户的安全性。 安全威胁 安全威胁指的是可能导致系统、网络或数据遭受损害、被破坏或被访问的潜在危险因素或事件。安全威胁可以是意外的,也可以是有意的,可能会导致系统遭受攻击或受到损害。安全威胁可以是
RES14-02 自动化变更 自动化变更是指自动化提供并管理应用程序的环境(计算、存储、网络、中间件服务等)、安装、配置,实现Infrastructure as a Code;以解决手工部署中易于出错、依赖个人能力,手工配置中变更无法跟踪、难以回滚等难题。 风险等级 高 关键策略
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
、带外网络流入速率等指标 用户线下 组件监控 对用户的线下组件统一监控,主要支持:线下 Grafana 对接、线下自建 Prometheus 对接、业务监控、应用监控、线下 IDC 监控和线下中间件监控 网络性能 管理监控 功能:对客户端 - 网 - 边 - 云全链路网络进行监控
s使用的正常现象。Redis使用受到网络传输、客户端设置超时时间等因素影响,可能出现单个请求超时问题。 恢复: 应用层进行重试,以应对暂时性故障,如DCS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当DCS实例由于过载导致网络限制时,可参考“DCS的CPU /内
建立安全响应团队 建立安全事件响应团队,明确各角色与职责。 风险等级 高 关键策略 安全事件响应团队一般包含如下角色及职责: 安全响应专家:主导网络安全事件调查,负责对事件进行定级、通报、攻击溯源以及确定影响范围,制定应急处置措施,推动服务控制风险。 攻击溯源专家:根据攻击的IOC信息
网络带宽:根据预测的需求,计算所需的网络带宽,例如需要进行大规模的数据传输或者实时的网络通信,可能需要选择高速网络 了解资源限制 容量规划时了解和合理使用资源限制非常重要,常见的资源限制包括进程、线程、CPU使用率、内存使用量、磁盘空间等。资源限制的主要目的是保证系统的稳定性,防止某些进程或应用程序占
aling(以round-robin的形式将元素分区到下游操作的子集中)、广播分区(广播每个元素到所有分区)、自定义分区。 配置netty网络通信:可在客户端的“conf/flink-conf.yaml”配置文件中进行修改适配。 指标观测方法 性能衡量指标包含吞吐量、资源利用率、伸缩性。
ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务,训练任务默认使用Volcano
存放的是二进制数据,无法直接存放文件,如果需要存放文件,需要先格式化文件系统后使用。 访问方式 在ECS/BMS中通过网络协议挂载使用,支持NFS和CIFS的网络协议。需要指定网络地址进行访问,也可以将网络地址映射为本地目录后进行访问。 可以通过互联网或专线访问。需要指定桶地址进行访问,使用的是HTTP和HTTPS等传输协议。
安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少或防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复 故障快恢是以故障模式库为基础,建立应急预案,提升故障恢复效率、降低故障恢复时长
压力测试:指在一定的软件、硬件及网络环境下,模拟大量的虚拟用户向测试环境产生负载,使测试环境处于极限状态下并长时间连续运行,以测试硬件设备或云服务在高负载情况下是否能够稳定工作。压力测试强调在极端情况下系统的稳定性。 容量测试:指在一定的软件、硬件及网络环境下,构造不同数量级别的测试
需要在计划采用云服务时尽早考虑安全性。 云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。 SEC01-01 建立安全管理团队 SEC01-02