云服务器内容精选

  • 云卓越中心的演进 上述CCoE组织是针对企业大规模上云、用云和管云而建立的全功能团队,企业并不需要在云化转型早期就组建一个完整的CCoE组织。 云化转型早期主要是把第一批业务系统迁移或直接部署在云上,这个时候可以建立一个小型化CCoE组织,如下图所示,把必要的角色加入进来,足以支撑第一批业务系统的云化就可以。 我们认为在早期的小规模CCoE组织中应该包含指导委员会、云项目经理、应用架构师、应用开发工程师、应用测试工程师、云架构师、调研评估工程师、迁移实施工程师等关键角色。通过这些角色的协同努力将第一批业务系统逐步云化,快速获取业务收益,从而推动企业将更多的业务系统逐步云化。 图1 小型化CCoE组织架构 当企业云化转型的规模逐步变大,云化转型进入运维治理阶段的时候,可以将小型化的CCoE组织逐步扩大,增加更多的运维治理阶段所需的关键角色,如云基础设施管理员、云网络管理员、数据库管理员、 应用运维管理 员、云治理专家、安全运营工程师、云成本运营工程师等,逐步演进到如下全功能的CCoE组织。 图2 全功能CCoE组织架构 父主题: 云卓越中心
  • 确定性运维 确定性运维是华为云基于自身多年的云服务运维经验沉淀的一套运维理念、方法论和最佳实践,可以帮助企业在云上高效运维自建和采购的业务系统,确保这些业务系统在云上能够持续高效稳定运行。 确定性运维旨在构建可防、可控、可治的运维管理体系。通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障。同时也要有技术手段对可能发生的故障进行管理,将故障间隔、故障影响范围及故障恢复时间做到可防、可控、可治。总而言之,要把数字化转型和业务快速发展带来的“不确定性”通过运维变成“确定性”。 在确定性运维的推动下,企业可以实现资源的高效利用。通过合理的资源规划、分配和调度,企业能够避免资源的浪费和闲置,提高资源的利用率。此外,确定性运维还能够通过自动化、智能化的手段,降低运维成本,提高运维效率,为企业节省大量的人力和物力。 构建确定性运维体系是一个系统性和综合性的工程,需要从质量文化、高可用架构、动态风险治理以及智能运维工具这四个方面全方位入手,如下图所示。 图1 确定性运维框架 质量文化是基础 质量文化是确定性运维的基石。一个注重质量的文化能够激发团队成员对运维工作的责任感和使命感,从而确保工作的精细化和标准化。以下是一些构建高质量文化的最佳实践: 自上而下,从最高层面强调和践行质量的重要性,并将其纳入核心价值观。 构筑开发与运维团队共同的质量目标和方法。 在运维团队开展组织变革,不断提升组织能力,牵引用软件工程的方法解决问题,从“消防员”向“建构师”转型。 高可用架构是前提 高可用架构是确定性的前提,通过设计合理的架构,可以降低系统故障的风险,缩短故障恢复的时长,并且控制故障的影响范围,高可用架构的设计与落地需要关注如下三点: 瞄准SLO 的目标,运用科学的方法进行架构的设计,对可用性架构的选择以及落地时间进行管理。 在产品规划设计、上线运行阶段,给运维团队授予相应的责权利,对开发和商用计划有所制约,确保可用性需求落地。 在产品运行维护期间,有计划地对高可用设计进行验证,以确保系统符合设计要求。 动态风险治理是保障 动态风险治理是应对不确定性和突发事件的重要保障手段。其本质也是对变更、故障模式、业务运行数据的识别开展全生命周期的主动运维和能力构建: 针对变更作业的风险,开展全面的能力建设,包括版本发布架构体系建设、账号权限管理、自动化变更能力建设等。 针对已知和未知的故障风险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力。 业务运行态数据的智能运营,是指导团队开展工作持续改进的核心基础能力,需要构建一套实时的采集以及数据运营系统,以支撑业务决策。 智能运维是未来 智能运维工具能够提高运维工作的效率和质量,降低人力成本。尤其是AI 时代,通过引入自动化、智能化等技术手段,团队可以更加高效地管理和维护系统,有几个原则: 选择合适的工具和技术,确保其与业务需求和技术栈相匹配,如自动化部署、故障预测、智能定界定位等。 将工具与现有系统进行整合,根据实际需求进行定制和优化,以满足特定的运维需求。 关注新兴技术和发展趋势,不断更新和升级智能运维工具,提升运维水平。 关于确定性运维的详细实践指南,请参考华为云发布的《确定性运维白皮书--稳定可靠篇2.0》。 父主题: 运维治理
  • 概述 上云调研不是一次完成的,而是持续整个上云过程,需要进行多次调研,持续迭代,每个阶段调研的信息都不同。本章主要介绍调研分析的思路和方法,在上云的每个阶段都可以参考此方法进行调研。如果上云工作不是企业自己主导,企业也可以基于此调研思路更好地配合第三方进行高效调研。但注意,同一阶段,能合并调研的要尽量合并调研,减少调研次数,尤其是访谈次数。 基础环境的调研:是在云上架构设计之前进行的,包括整体IT技术架构以及IT治理现状和需求。 应用的调研:持续整个上云过程,在评估规划阶段只需要调研业务全景图,而在迁移试点和大规模上云阶段,则需要打开到每个应用系统的详细技术架构,收集每个应用系统的技术组件的详细信息,如组件版本信息,组件相关配置参数等。 大数据调研:先调研大数据的整体技术架构,然后逐步打开调研详细的信息。 每次的调研工作按照以下6步执行: 根据上云阶段,确定调研目的,梳理需要调研的信息。 对齐已有信息,避免重复调研。 对准调研目标,识别还缺哪些信息,为什么要调研这些信息,以及这些信息的获取方式。 基于企业组织架构和分工,判断能提供这些信息的干系人。 制定调研访谈提纲和调研模板,制定沟通策略和计划。 依照干系人认可的授权方式获得需要的信息,并进行信息的整理,完成调研。 图1 调研方法 调研的总体思路是先易后难,先粗后细,持续迭代,具体含义如下: 先易后难(调研的方式):是指调研方法的难易,调研有多种方法,我们要优先选择简单快速的调研方式。 先粗后细(调研的内容):是指调研到的信息详细程度,评估规划阶段获取的信息比较粗,实施阶段获取的信息最为详细。 持续迭代(调研的过程):是指调研不是一次完成的,需要持续迭代,尤其在大规模迁移阶段,详细信息的调研可按迁移批次有序执行。 父主题: 调研评估
  • 安全参考框架 基于上述安全设计原则,华为云推荐采用“一个中心 + 七层防线”的安全参考框架和华为云提供的云原生安全服务来构筑企业的云上安全防护体系,如下图所示。该安全框架完全遵守了纵深防御原则,将各种安全防护措施有机组合起来,针对保护对象(企业的关键业务系统和核心数据),因地制宜的部署合适的安全措施,形成多层安全防线,各层安全防线能够相互支持和补救,避免攻击者突破单层防线后畅通无阻,层层阻击,为防御方检测响应赢得时间。 图1 一个中心和七层防线 物理安全防线 华为云建设和运营的数据中心都严格实施了五层安全防护,包括机房容灾、人员管理、运维审计、数据销毁和物理隔离、CCTV和门禁等防护措施,华为云的租户无需关注数据中心的物理安全。但对于部署在企业自建机房的专属云,企业需要自己做好物理安全防护。 身份认证防线 需要基于零信任理念做好身份认证和权限管理,授权要遵从最小授权的原则,用户认证默认要启用多因素认证,管理好特权账号,对用户在云平台上的任何操作进行记录和审计。建议参考官网提供的 IAM 最佳实践。 网络防线 核心是要做好网络边界防护和内网东西向的访问控制。 网络边界防护:网络边界主要指的是企业内部网络与外部网络的边界,典型的场景如互联网接入、VPN、专线接入。客户可以基于华为云提供的 云防火墙 (Cloud Firewall,CFW)、VPC的安全组和ACL实施网络边界访问控制。CFW内置了网络入侵检测、入侵防御的功能。网络边界的策略应该严格按照白名单开通,应该禁止对外开放高危端口和协议。 东西向网络防护:应该对不同的业务按密级实施分层分级管理,如将不同密级的业务部署在不同的VPC中,通过VPC实施大的网络安全域隔离,通过CFW实施东西向VPC网络之间访问控制,并通过VPC的安全组和ACL在VPC内进一步实施网络微分段隔离。 应用防线 面向互联网发布的应用应该默认部署WAF防护。应用的安全是设计出来的,要重视在软件安全工程上的投入,提高应用的内生安全能力。从安全风险的角度,应优先关注面向外部网络暴露的应用,同时要识别内部核心关键应用,对这些应用优先实施针对性的安全加固。 主机防线 在主机层面进行入侵检测往往是最有效的,主机上要全面覆盖主机安全产品,主机安全产品可以帮助做好主机的漏洞管理,安全配置管理等基础性工作。 数据防线 要做好数据资产的主动发现和分类分级,围绕数据全生命周期开展数据安全治理工作,对重要数据使用过程中考虑脱敏、加密、审计等措施,对重要数据做好备份。基于身份控制策略、网络控制策略和资源控制策略构筑坚固的数据安全边界,保障敏感数据不泄露。 运维防线 要限制只能从安全的网络环境发起运维活动,并为运维人员建立专门的运维访问通道,如让运维人员使用专门的运维服务、 堡垒机 接入运维,尽量减少黑屏运维操作,降低运维活动过程中的不确定性,确保运维的活动可审计可追溯。 一个中心 安全防护三分在于技术,七分在于运营,只有各层防线的安全产品得到正确的配置和良好的维护,才能有效的发挥出安全防护的效果。通过一个统一的安全运营平台,将各种安全产品能力有机的整合起来,将安全防护的效果最大化。 纵深防御体系的建设往往需要经历一个漫长的过程,很难一蹴而就,在建设的过程中需要考虑安全、效率、成本和体验方面的平衡。企业应该例行开展安全风险评估,针对TOP安全风险实施针对性的安全加固,持续提升安全防护的能力,并通过红蓝对抗等机制来检验安全防护体系的有效性。 父主题: 安全架构设计
  • 统一财务管理 我们建议您在企业中心创建子账号时,选择财务托管模式。建立财务托管关系之后,财务管理员可以在主账号中统一管理子账号的资金、账单及发票,子账号的云资源消费统一由主账号支付。华为云统一开票给主账号,华为云的交易主体是主账号。如下图所示。 图4 多账号的统一财务管理 财务托管模式下,主账号可以针对子账号执行以下统一财务管理。 共享商务:主子账号间商务实现默认共享,避免客户重复申请子账号商务,大大降低客户成本。 统一支付:子账号无须通过主账号手工划拨现金、信用和代金券的方式进行消费,子账号消费统一由主账号支付,大幅降低财务操作负担。 一站式账单管理:主账号可以查询所有子账号的账单,也可以将多个子账号的账单合并至一个账单。 统一发票:主账号可针对单个子账号的消费开票,也可以将所有子账号的费用合并开票。 统一成本管理:主账号统一管理所有子账号的成本,包括统一预算管理、统一成本预测、统一成本分析、统一成本监控和统一成本优化等,大幅提升集团企业客户的成本管理效率。
  • 统一运维管理 以运维监控账号为中心,在这里集中部署云运维中心(Cloud Operation Center,COC)和应用运维管理服务(Application Operations Management, AOM ),针对其他子账号进行统一的监控和运维管理,如下图所示。 运维监控账号中的AOM服务与其他账号下的AOM服务进行协同,可以统一接入其他账号下的各个云服务的监控指标数据,并在运维监控账号中统一查看这些指标数据,在此基础上进一步统一配置告警规则。具体实施步骤请参考通过多账号聚合Prometheus实例实现指标数据统一监控。 运维监控账号中的COC服务当前可以统一纳管其他账号下的云资源进行统一的资源管理,也可以将运维指令下发给其他账号执行。 图3 多账号的统一运维管理
  • 统一安全管理 以安全运营账号为中心,在这里集中部署 安全云脑 (SecMaster)、 数据安全中心 (Data Security Center,DSC)、数据库安全服务(Database Security Service,DBSS)、 数据加密 服务(Data Encryption Workshop, DEW)、 云证书管理服务 (Cloud Certificate Manager,CCM)和主机安全服务(Host Security Service,HSS)等,针对其他子账号进行统一的安全管理,如下图所示。 安全运营账号中的SecMaster服务可以与部署在其他账号下的安全云脑和HSS服务进行协同,无需登录到其他账号,在安全运营账号中就可以对其他账号进行统一的安全运营,包括统一云上资产管理、统一的安全态势管理、统一安全信息和事件管理、统一的安全编排与响应等活动。安全运营账号的DSC服务可以对所有成员账号进行统一的数据安全防护,包括针对所有成员账号的统一数据安全风险识别和统一数据保护(数据水印、数据脱敏)。安全运营账号的DBSS服务可以基于Agent采集模式,在网络可达的前提下,实现跨账号的数据库审计和统一信息展现。安全运营账号的CCM服务可以集中申请SSL证书,然后通过 RAM 服务共享给其他账号使用。安全运营账号的DEW服务可以集中创建KMS秘钥,然后通过RAM服务共享给其他账号使用。 图1 多账号的统一安全管理 网络安全防护相关的服务,如WAF、Anti-DDoS和网络防火墙等服务,按照就近部署原则集中部署在网络运营账号,以保护网络运营账号中的NAT网关和弹性公网IP等网络连接资源。
  • 统一合规审计 审计人员以日志账号为中心对所有成员账号进行统一的操作审计,而无需逐个登录到成员账号,如下图所示。统一的操作审计包括对所有成员账号统一配置追踪器和关键操作通知。 在日志账号的 CTS 中统一创建组织追踪器,汇聚各个成员账号中CTS收集的审计日志,配置将组织追踪器的审计记录转储到日志账号的LTS中。 在上述LTS中可以集中查看所有成员账号的审计记录。 在LTS中还可以针对关键操作(如创建、删除资源)配置告警通知。 图2 多账号的统一操作审计 审计人员还可以基于Config服务提供的组织合规规则和组织合规规则包对成员账号进行统一的资源配置审计,统一呈现所有成员账号中不合规的资源配置。
  • 云化成熟度评估模型 华为云参考了云采用开放联盟(OACA)的云化成熟度模型、CNCF云原生成熟度模型、中国信标委ITSS(IT服务标准)、DCMM等标准和评估模型,同时结合华为云大量政企客户深度云化的最佳实践设计了云化成熟度评估模型。在设计该模型的时候遵守以下五大原则。 业务驱动:评估模型要以业务驱动力为中心,要求云化目标要与公司业务战略和业务目标对齐,云化转型最终要取得业务收益,而不仅是技术收益。 全要素:评估模型要全面涵盖组织(People)、技术(Technology)和流程(Process)三个要素,而不仅仅是技术能力的评估。 全堆栈:评估模型要涵盖全技术堆栈,包括卓越架构(Well-Architected Framework)、云基础设施、应用现代化、大数据与AI、运营运维、安全防护等技术领域。 全旅程:评估模型要涵盖云化转型的端到端旅程,包括制定战略、顶层规划、方案设计、采用实施、运维治理等阶段。 一体化:评估模型要考虑云上云下、多云之间、云内跨Region、云内多账号之间的一体化管理能力。 基于上述原则,华为云设计了以下10个评估维度。 图1 云化成熟度评估模型的10个评估维度 云化业务收益 这个维度主要评估组织通过云化转型所能够实现的业务收益和财务收益,包括提升业务敏捷性、提升业务连续性、降低TCO、加速业务创新、提升可持续性等。这个维度放在首位是因为业务收益是最重要的维度,如果没有实现业务收益,其他维度做得再好也是徒劳。 战略与业务 主要评估组织在云化转型中的战略规划能力,云化战略是否与整体业务战略和目标保持一致,是否识别了关键的业务驱动力,是否制定了清晰的云化战略、云化目标和迁移策略等。同时也评估组织在制定云化战略时的前瞻性、全面性和可行性,以及对行业趋势和云技术趋势的把握。 组织与流程 主要评估组织在云化转型过程中,组织结构、人员技能、工作流程等方面的适应性和变革能力,衡量组织是否具备支持云化转型的组织架构和人才队伍,是否建立了适合云环境的工作流程。 数智赋能 主要评估组织在大数据和人工智能领域的能力水平,是否能够利用云平台的数智化服务,实现数据驱动的业务创新和智能化转型,衡量组织的数据生命周期管理、 数据治理 能力,以及在人工智能技术(如AI开发、大模型等)方面的实践水平。 应用现代化 主要评估组织的应用系统是否采用了现代化的设计和开发模式,如微服务架构、事件驱动架构、容器化、Serverless、DevSecOps实践等,是否具备云原生应用的开发和部署能力。 云基础设施 主要评估组织对于云基础设施的设计、部署和管理能力,包括Landing Zone的设计和实施、网络和IAM的一体化管理、基于IaC的基础设施自动化部署、数据备份和弹性伸缩策略等。 云卓越架构 主要评估组织是否遵循卓越架构技术框架(Well-Architected Framework)的设计原则和最佳实践,包含韧性、安全性、性能效率、成本优化和卓越运营五个方面。 云运营与运维 主要评估组织在云环境下的运营和运维能力,包括可观测性、CMDB、自动化运维、混沌工程、ITSM和AIOps等。同时评估组织是否建立了最适合业务现状的云运营模式和运维流程,以支撑云上业务系统的敏捷交付和稳定运行。 云安全 防护 主要评估组织在云环境中的安全防护措施和安全运营能力,包括身份安全、网络安全、数据安全、主机安全、应用安全、运维安全、安全管理规范和一体化安全运营等方面。 云财务管理 主要评估组织对云资源成本的管理和优化能力,包括成本预算、成本可视、成本优化、成本运营和一体化财务管理等方面。 这些评估维度涵盖了组织、技术和流程三个要素,以及云化转型的全旅程和全技术堆栈,并考虑了一体化管理能力,总共有70+评估问题。针对每个评估问题分别设计了五个等级:起步(Initiating)、局部突破(Emerging)、全面开展(Performing)、竞争优势(Advancing)和领先(Leading)。 表1 云化成熟度的5个等级 等级 分数 成熟度水平 起步 1分 对云计算的理解和应用处于初步探索阶段,对云原生技术和最佳实践的应用有限,存在安全和成本风险。 云化转型尚未真正开始,缺乏整体规划和战略,也缺乏支撑云化转型的组织和流程。 局部突破 2分 局部应用云计算技术,并取得了一些初步成果,但整体上仍然缺乏系统性和完整性。 开始关注云原生技术和最佳实践,但应用不够深入。自动化程度较低,安全和成本管理也需要进一步加强。 处于从传统IT模式向云原生模式转变的过渡阶段。 全面开展 3分 云化转型取得了成效,通过应用云计算技术建立了技术竞争力,但还未形成业务优势,业务收益不明显。 能够熟练运用各种云服务,并具备一定的自动化管理能力。 开始系统地应用云原生技术和最佳实践,例如 DevOps、微服务等。安全和成本管理也得到了一定的重视和落实。 具备完善的流程和完备的组织阵型,云化目标在IT部门内达成共识。 竞争优势 4分 云化转型取得了显著成效,通过应用云计算技术建立业务竞争优势,实现了显著的业务收益,如提升了业务敏捷性和连续性、增加收入等。 云计算已经成为驱动业务创新和提升竞争力的关键因素。 能够充分利用云原生技术和最佳实践,实现高度的敏捷性和可扩展性。 安全和成本管理体系成熟且高效。 流程得到有效的执行,云化目标在全公司范围内达成共识。 领先 5分 在云计算领域处于领先地位,能够引领技术和业务模式的创新。 充分发挥了云原生技术的优势,实现了高度自动化和智能化的运营。 安全和成本管理达到了业界领先水平。 云化转型不仅推动了自身业务的快速发展,也为行业树立了标杆。 紧跟业务需求和云计算技术的变化而不断迭代优化。 通过上述10个维度的详细评估分析,组织可以全面了解自身在云化转型过程中的能力现状,通过生成的雷达图可以很快找出与行业标杆企业之间的差距,从而制定有针对性的改进和提升计划。 图2 云化成熟度雷达图 需要注意的是这个云化成熟度评估模型是一个相对高阶和粗颗粒度的评估,主要目的是为了快速识别组织的能力差距和制定云化目标,并不能代替调研评估阶段的详细现状调研,后者的目的主要是为了设计详细的技术实施方案。 父主题: 评估云化成熟度
  • 为什么要上云试点 上云迁移试点是企业在进行大规模上云迁移之前的重要步骤,它能够帮助企业在大规模迁移之前充分了解和评估各种因素,通过试点上云迁移流程与相关配置,企业可以提前识别出相关风险,为后续大规模上云迁移提供经验。 风险控制:上云迁移是一个复杂的过程,涉及到不同的系统和业务。通过进行迁移试点,企业可以在小范围内验证整个迁移流程的可行性,发现潜在问题并及时解决,确保后续的大规模迁移顺利进行。同时试点还可以帮助企业识别潜在的风险和挑战,例如,某些业务可能无法适应云环境,通过试点,可以在较小的范围内暴露这些问题,并及时采取纠正措施,从而降低全面迁移时的风险。 验证可行性:上云迁移试点可以验证企业的应用和数据是否适合迁移到云端。通过选择一小部分应用或业务进行试点,企业可以评估业务在云环境中的兼容性、性能、安全性、可靠性等方面是否满足需求。如果发现某些应用不适合迁移到云端,企业可以根据评估结果重新规划迁移策略或寻找替代方案,避免将不适合或难以迁移的应用直接投入生产环境。 掌握经验:上云迁移试点可以让企业的技术团队和业务人员获得实践经验。在试点过程中,他们可以学习并熟悉云平台的特点、功能和最佳实践,了解迁移的工具和流程,并积累相关知识和技能,为后续的全面迁移做好准备。 确定优先级:通过试点迁移,企业可以评估不同应用或业务的迁移优先级。根据试点结果,企业可以确定哪些应用或业务对于上云迁移的影响较小,可以先行迁移,进而有序地推进整个迁移过程。 性能优化:迁移试点还可以帮助企业识别并解决潜在的性能问题,通过在小规模环境中进行试点,企业可以验证应用在云环境下的性能指标,如延迟、吞吐量和响应时间等,了解应用在云环境中的实际表现,这样可以及早发现瓶颈并做出相应的优化和调整,确保在正式迁移之前获得良好的性能和用户体验。 成本控制:迁移试点提供了一个机会,让企业更准确地评估上云迁移的成本,通过试点阶段的实际操作,企业可以更好地理解云服务的费用结构、资源消耗情况以及可能的隐藏成本,这有助于避免意外的成本增加并优化资源利用,以实现成本控制的目标。 团队磨合:上云迁移的成功离不开各参与方的高效协同(运维团队、开发团队、测试团队,云服务供应商、第三方系统供应商等),上云迁移试点为不同团队提供了一个合作的机会,通过试点可以识别团队间的合作问题和风险,并针对性制定相关应对措施,保证大规模上云期间合作顺畅。 父主题: 上云试点
  • 调研外部关联关系 以下一些常见的外部关联关系,需要在应用迁移前进行调研和评估。确保全面理解应用的外部依赖,并采取适当的措施,以确保迁移后外部业务正常运行,不受影响。 第三方应用程序依赖关系 调研与目标应用有关的第三方应用或服务,包括其版本和集成方式。确定是否需要对这些依赖项进行调整或重新配置。 外部数据源和 API 依赖关系 分析和记录目标应用所依赖的外部数据源和 API,例如外部数据库、文件系统、消息队列或第三方服务。确保这些依赖关系在迁移后能够正确访问和使用。 授权和安全关联关系 确定与目标应用有关的授权和安全关联关系。包括涉及身份验证、访问控制、令牌管理、IP白名单等方面的外部服务和机制。 合作伙伴和供应商关联关系 如果目标应用涉及与合作伙伴或供应商的集成,需要调研这些关系,并确保在迁移后能够继续正常工作。 SLA(Service Level Agreement)和供应商支持关系 检查既有的 SLA 和供应商支持协议,并评估迁移到云平台后对这些关系的影响。确保在云环境中依然能够满足业务需要并获得期望的支持和服务。 网络和连接依赖关系 调研目标应用所需的网络连接和传输协议。确定上云后是否需要进行网络配置和访问控制,以确保应用程序可以与相关的外部系统正常通信。 外部关联关系主要靠如下方式去做调研,可以多种方式结合,以提高调研效率和结果完整度: 文档和现存资料 阅读现有的文档和技术资料,包括应用程序的架构图、部署说明和运维手册等。这些资料可以识别出应用程序的关键依赖和集成点。 与开发团队和运维团队沟通 与应用程序的开发团队和运维团队进行沟通,了解他们对系统依赖关系的认识和理解。他们可能提供有关应用程序的详细信息、依赖关系的描述以及与其他系统的集成情况。 代码分析 仔细检查应用程序的源代码,特别是配置文件和代码中涉及的外部依赖关系。因为有些依赖关系可能由代码直接指定。 系统扫描和监控 借助系统监控工具和网络扫描工具,扫描整个系统并识别出与应用程序相关的依赖关系。 与相关团队交流 与其他部门或团队进行交流,了解应用程序与其他公司、供应商或合作伙伴之间的集成关系。这些关系可能包括数据共享、接口调用、权限控制等。 服务提供商和文档 如果应用程序依赖于外部服务提供商,查阅其提供的文档、API 参考和支持资源,以获取关于依赖关系的详细信息。
  • 调研内部关联关系 关联关系分析是批次规划和切换方案的重要输入,也是上云迁移的难点,影响上云迁移的关联关系主要有三种,如下图: 图2 三种关联关系 关联分析有如下4种方法,上云迁移过程中,企业可以根据自身的实际情况选择合适的分析方法: 图3 关联关系分析法 CMDB法:适用于客户有CMDB系统,CMDB系统中通常有应用间的通信依赖,应用与数据库的依赖,应用与中间件的依赖等,可直接通过CMDB获取依赖关系。 图4 CMDB法 图5 CMDB法示例 关联分析工具法:可以通过专门的关联分析工具进行关联分析,比如华为云的MgC工具,也可以采用业界的一些关联分析工具。 表1 关联分析工具表 软件名称 是否商用 说明 Dynatrace 商用 Dynatrace平台包括出色的应用程序性能管理工具,能够提供自动的应用程序依赖关系映射。它可以发现和监控微服务和应用程序,甚至是那些在容器内运行的微服务和应用程序。它收集性能数据和通信时间数据,并突出显示性能不佳的服务和应用程序。 网络空间测绘 商用 网络空间测绘是一个应用和服务器发现工具。支持无代理自动发现,广泛支持MS和LINUX/Unix、云供应商、管理程序,硬件、虚拟和应用层;可用于多数据中心的远程收集。 Device42 商用 Device42是一个发现和映射工具,用于收集和组织整个IT环境上的数据。它包括设备发现和资产管理,以及专用的应用程序映射和管理功能。 它还可以检测网络设备,如交换机和负载均衡设备,以及电源和环境设备,包括PDU、UPS和CRAC设备。 艾联科iSRG动态智能系统 商用 艾联科iSRG动态智能系统资源图谱软件,提供传统网络/云/微服务/容器/虚拟系统的资源动态管理能力。包含资源的发现与采集,模板管理、资源管理、视图编辑等功能。 ManageEngine Applications Manager 商用 ManageEngine是一个应用程序管理器的工具。这是一个通用服务器和应用程序监控工具,它支持对服务器和数据库、虚拟机、应用程序、Web服务和其他组件的监控。 Datadog 商用 Datadog是一款具有应用程序监控和映射功能的性能监控工具。它可以在整个基础架构中收集信息,包括匹配特定客户、端点或错误代码的跟踪,它自动映射数据流,并可以按依赖关系组织服务。 Pinpoint 开源 Pinpoint可以跟踪分布式应用程序之间的事务,以检查整体结构和运行状况。Pinpoint可以实时监控应用程序,并清晰快速地了解应用程序拓扑。 Workshop头脑风暴法:可以通过组织专题会议,引导熟悉业务系统的骨干人员梳理关联关系。 图6 WorkShop法 配置分析法:配置分析法是一种通过分析应用系统的配置文件来探索关联关系的方法,它可以帮助我们了解应用之间的相互调用关系、应用与数据库之间的连接以及其它关联关系。以下是配置分析法的基本步骤: 收集配置文件:首先需要收集和获取与目标应用系统相关的配置文件。这可能包括DNS配置、ELB配置、NAT配置以及Nginx.conf等。 解析配置文件:对于每个配置文件,需要编写脚本或使用现有工具来解析其内容,脚本可以根据文件格式和语法规则,提取出关键信息并进行处理。 提取关联信息:在解析配置文件时,需要识别出与其他组件或资源相关的信息,例如,可以查找应用之间的相互调用关系,比如从一个应用到另一个应用的URL或API调用;还可以查找应用与数据库之间的连接信息,如数据库地址、用户名和密码等。 构建关联图谱:将提取到的关联信息组织成图谱或关系模型,这可以是有向图、无向图或其他合适的数据结构,用于表示应用间的关系和依赖。 分析关联关系:对于构建的关联图谱,可以使用图论算法或其他分析方法来探索关联关系,这可以帮助我们发现隐藏的依赖。 通过配置分析法,我们可以深入了解应用系统内部的关联关系,从而更好地理解整体架构和运行方式,这对系统迁移等方面具有重要的价值,然而,需要注意的是,配置文件可能会受到变更和更新的影响,因此在进行关联分析时需要及时更新和验证配置信息的准确性。
  • 技术驱动力 在数字化时代,云计算已成为企业技术战略的核心。对于CIO、CTO和技术主管而言,云化转型不仅是业务发展的需求,更是技术创新和变革的必然选择。云计算提供的技术优势,在资源弹性、系统韧性、扩展性、安全性和运维效率等方面实现飞跃。这些技术驱动力是业务驱动力和财务驱动力的底层技术支撑。 提升资源弹性 资源弹性是云计算的核心特性之一,是指云平台能够根据业务需求,按需对业务系统所需的计算、存储和网络等资源进行快速扩容和缩容。提升资源弹性可以有效提升业务敏捷性和业务连续性。 动态资源调配:云计算支持按需分配资源,企业可以在业务高峰期迅速扩展资源规模,以应对流量激增;在业务低谷期,则可以释放闲置资源,降低成本。 自动化伸缩:通过自动化的监控和调度机制,云平台能够根据预设的策略和实时的负载情况,自动进行资源的伸缩。 快速部署和回收:相较于传统的硬件采购和部署周期,云上资源的创建和销毁可以在几秒或几分钟内完成,大幅提高了资源的弹性速度。 提升系统韧性 系统韧性是指系统在面对各种外部灾难和内部软硬件故障时,仍然能够维持正常运行或快速恢复的能力。云平台和云服务能够大幅提升应用系统的韧性,从而有效提升业务连续性。 高可用架构:云服务商提供多地域、多可用区的部署模式,支持应用系统设计跨机房、跨地域的容灾和双活方案,甚至跨多个地域的多活方案,大幅提升应用系统的可用性和容灾能力。 灾备和容灾:云平台内置了数据备份、容灾切换等功能,帮助企业构建完善的灾难恢复方案,在突发事件中保障系统可用性。 服务等级协议(SLA):云服务通常提供99.9%以上SLA,可以有效保障基于这些云服务构建的应用系统的可靠性SLO(Service Level Objective)。 故障自动化处理:云平台具备自动检测故障和自动恢复的能力,减少人为干预,缩短故障处理时间。 提升扩展性 扩展性指一个系统在面对不断增加的工作负载或请求时,在不改变系统架构或对现有系统进行最小修改的情况下,通过添加或调整资源(例如服务器、存储、带宽)而保持性能稳定、效率不降低的能力。云平台和云服务可以大幅提升应用系统的扩展性,平滑处理不断增加的用户、数据或事务量,而不会导致性能下降或系统崩溃。提升系统扩展性可以有效提升业务敏捷性和连续性。 分布式架构:云平台支持分布式系统架构设计,允许应用程序在多个服务器或节点上运行,分散负载,避免单点故障,提高系统的扩展性和可用性。 自动弹性伸缩:利用云平台的自动化伸缩功能,系统可以根据预设的策略自动增加资源实例,以应对流量高峰,保持性能稳定。 微服务架构:云平台天然适合微服务和容器化部署,支持应用拆分和独立扩展,提升灵活性和可维护性。 无服务器计算:云平台提供的无服务器计算服务(如 FunctionGraph)允许用户将代码部署到云端,而无需管理服务器。云平台会根据请求自动分配计算资源,并在请求处理完成后释放资源。这种模式极大地简化了扩展性管理。 提升安全性 安全性是指保护数据和应用系统免受未经授权的访问、使用、泄露、篡改、破坏或损失的能力。云服务商在信息安全领域投入巨大,为企业提供了多层次的安全保障。提升安全性可以有效提升业务连续性。 云平台安全:云服务商的云平台符合严格的安全标准和认证,如ISO 27001、 CS A、SOC 1/2/3、安全等级保护、PCI-DSS、NIST CSF等。 丰富的云原生安全服务:云服务商提供主机安全、数据安全、应用安全、网络安全、身份安全和运维安全等丰富的云原生安全服务,帮助企业在云上为应用系统快速构建全方位的安全防线。 提升运维效率 运维效率是指IT运维团队以最少的资源投入(人力、时间、成本),管理尽可能多的IT资源,并保持高服务质量和稳定性的能力,它体现了资源利用率和人员生产力。企业采用云计算之后可以大幅提升运维效率,进而有效降低运维成本。 无需管理IT基础设施:云服务商负责云数据中心、硬件、网络、虚拟化等IT基础设施的运维,企业只需要聚焦应用系统的运维。 智能监控系统:云服务商提供全栈和智能监控系统,能够实时收集、分析云资源及应用性能指标,自动识别异常,预测潜在风险,并提供告警和可视化报表,帮助运维人员快速定位故障。 自动化运维:云服务商提供自动化部署、配置管理、监控告警和运维等工具,减轻运维人员的工作负担,提高运维效率。自动化运维还降低了人为错误的风险,从而减少了不必要的纠错工作。 无服务器架构:如果企业采用函数计算等Serverless服务,企业只需编写业务逻辑代码,无需管理任何服务器,将进一步减轻运维负担。 提升性能效率 提升性能效率的目标是用更少的IT资源处理更多的业务请求,最终体现在更高的吞吐量、响应时间或并发用户数等关键性能指标上。借助云服务商提供的云上卓越架构设计原则和性能检测和优化工具,企业可以有效提升系统的性能指标。 选择合适的资源: 根据业务实际需求选择最合适的计算、存储、中间件和数据库等资源的规格等,同时避免过度配置造成资源浪费。 性能测试和规划:基于云平台提供的性能测试工具评估应用系统当前的性能指标,再结合业务需求增长趋势提前进行容量规划。 性能优化: 挖掘现有资源的性能潜力,包括数据库查询优化、代码优化、使用缓存和 CDN加速 等,提升系统吞吐量和响应速度。 架构优化: 采用更有效率的架构模式。例如,使用异步处理和消息队列解耦系统组件,提高并发处理能力。 云化转型的技术驱动力为企业的IT战略和技术架构带来了深刻的变革。对于技术领导者而言,深入理解和利用这些技术驱动力将有助于: 制定前瞻性的技术战略,引领企业的数字化发展。 优化IT架构和资源配置,提升技术部门的价值贡献。 推动技术创新和业务融合,支持企业取得竞争优势。 父主题: 识别云化驱动力
  • 切换 大数据的切换主要是指大数据应用的切换,其切换演练和正式切换的步骤请参考章节切换。本节重点介绍大数据应用切换的3个切换点,以便更好的指导大数据应用的切换。 双跑场景:大数据应用分别在源环境和目标环境各部署一套,实现双跑,切换点在 域名 ,业务切换时只需要进行域名的切换,将业务流量切换到新应用。 图1 双跑场景 推数场景:适用于数据源主动向应用推数的场景,切换点在数据源,需要停止旧数据源推数,配置并启动新数据源向应用推数,将应用的数据源从旧数据源切换到新数据源。 图2 推数场景 抽数场景:适用于应用向数据源抽数的场景,切换点在应用,需要先停止应用向旧数据源抽数,然后配置并启动应用从新数据源抽数,将应用的数据源从旧数据源切换到新数据源。 图3 抽数场景 父主题: 大数据迁移
  • 大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。 分批迁移的场景:大数据规模很大,但关联关系比较清晰。 大数据平台数据量大(PB级甚至EB级),计算任务数量多。虽然规模很大,但任务之间关联关系很清晰,比如可以按照业务域进行清晰的梳理,此时我们可以对大数据按业务域进行拆分,将有关联的数据、任务、应用划分到一个批次进行迁移。分批次迁移可以有效的减少大数据迁移的风险,降低迁移方案复杂度,提高迁移效率。 大数据迁移通常按照主题域进行分批。主题域通常是按照业务功能划分,将有相似业务逻辑的关联数据集合到一起,比如销售主题域、供应链主题域、日志处理主题域等。每个主题域有专门的数据处理流程、分析模型和相关业务逻辑,以支持特定的业务需求和分析目标。大数据迁移批次规划的参考原则如下: 按主题域进行分批: 按主题域分批需要考虑2个相关性,数据相关性和任务相关性。数据相关性是指将具有相似业务逻辑、相互依赖或紧密相关的数据放在同一批次中,以确保一致性和完整性。任务相关性是指将具有依赖关系的任务和数据集中放在同一批次中。这样可以保证任务在正确的数据上运行,并确保任务之间的顺序和一致性。基于这2个相关性,将主题域划分为多个迁移批次,将相关的任务和数据流集中在同一批次中,提高迁移效率和降低风险。 尽量减少批次数量:大数据迁移过程中会对数据进行抽取、转换、加载等操作,每个操作步骤都会增加复杂度和风险,影响数据的一致性,因此,应尽量减少批次的数量。 批次间相互独立:批次划分时,确保不同批次间尽量是相互独立的、松耦合的,很少有相互依赖的任务和数据流。独立的批次划分,有助于降低迁移中对其它业务域的影响。 批次内紧耦合:批次划分时,确保每个批次包含相关性较高的主题域和相互依赖的任务和数据流,包括数据共享场景。 保证业务的连续性:迁移过程中应避免业务中断的情况发生,因此,在迁移批次划分时,需要考虑将与主题域关联性强的大数据应用系统也放在同一批次,以减少业务中断的风险。 迁移优先级排序:根据业务优先级、迁移复杂度、数据量等因素,对主题域进行优先级排序。通常,先迁移数据量较小或相对简单的主题域,后迁移复杂的主题域。 父主题: 批次规划