华为云用户手册

  • 公司IT治理架构 大企业的业务覆盖范围很广泛,分布在不同的产业和地理区域,为支持整个公司的长期稳定运行和有效管理,通常采用集团化和等级式管理模式。随着经营范围和规模的不断扩大,需要不断建立子公司、分公司,子公司再建立孙公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。大企业的IT治理架构也会受到组织结构的影响,以下是一个典型的大企业IT治理架构示意图,由于图片空间有限,该示意图中没有穷举全部的层级和图元。本文所描述的Landing Zone参考架构以下图的IT治理架构为基础,将其全部映射到华为云上并有效运转起来。 图1 大企业IT治理架构 在上述大企业IT治理架构中,各个层级的具体含义如下: 集团公司:是指以资本为主要联结纽带,以母子公司为主体,以集团章程为共同行为规范的,由母公司、子公司及其他成员共同组成的企业法人联合体。 子公司:是指一定比例以上的股份被另一公司(母公司)持有并受到该公司实际控制的公司。母公司对子公司的一切重大事项拥有实际上的决定权。但在法律上,子公司仍是具有法人地位的独立企业,并以自己的名义进行业务活动。子公司可以根据经营管理需求再成立自己的子公司或分公司。 分公司:分公司是母公司管辖的分支机构,是指母公司在其住所以外设立的以自己的名义从事活动的机构,如在各个省市成立的销售分公司。分公司不具有企业法人资格,其民事责任由母公司承担。 部门:母公司、子公司和分公司都可以基于自己的经营管理需求设立部门,如软件企业可以按照不同的软件产品线设立不同的部门,工业制造企业可以按照业务流程设立研发部、制造部、采购部、销售部、服务部等。大部门还可以再进一步拆分成小部门。 业务系统:是指为了完成特定任务或解决特定问题而设计的软件系统,以支撑组织内特定的业务流程和业务场景,如ERP、CRM、营销管理系统等。业务系统的开发、测试和运行需要消耗一定的计算、存储、网络、安全、数据库、中间件、大数据、AI服务等资源。大型业务系统能够包含多个子系统。 IT管理系统:为了支撑业务系统的长期安全稳定运行所建立的IT支撑和管理系统,如安全运营中心、 IAM 和监控运维系统等。 子系统:大型业务系统或IT管理系统通常包含多个相互解耦且相互关联的子系统、功能模块或微服务,这些子系统相互协作,共同实现整体系统的功能。 功能小组:参与业务系统或IT管理系统建设和运维的成员按照职责划分为不同的功能小组,如网络管理组、安全管理组、运维管理组和应用开发组等。 成员:一个成员代表一个参与业务系统或IT管理系统建设和运维的人,1个成员可以加入多个功能小组,但成员一般不允许加入到多个部门。 运行环境:业务系统或IT管理系统通常要部署到不同的运行环境,如生产环境、开发环境和测试环境等。 上述大企业IT治理架构中各个层级之间的关系如下图所示: 图2 大企业IT治理架构的层级关系 上述IT治理架构中的各个层级需要逐一映射到华为云上,在华为云上创建相应的对象,华为云从精益治理的角度推荐如下图所示的映射关系。集团公司映射为华为云的主账号(或管理账号),下面的子公司、分公司和部门都可以映射为华为云的组织单元(Organization Unit, OU)。一至多个业务系统映射为一个业务账号(用于承载业务系统的子账号),通常是将支撑一个业务单元所需的所有业务系统映射到一个业务账号。一至多个IT管理系统映射为一个IT管理账号(用于承载IT管理系统的子账号)。子系统则可以映射为华为云的企业项目或者标签。功能团队映射为华为云IAM的用户组,成员则可以映射到华为云IAM的用户。生产、开发和测试等运行环境可以映射到不同的VPC,有时候为了严格隔离生产、开发和测试等运行环境,也会将其映射为独立的子账号。需要注意的是,不负责建设和运维业务系统或IT管理系统的子公司、分公司或部门不用映射到华为云。 图3 企业IT治理架构到华为云的映射 父主题: Landing Zone参考架构
  • 云上高可用方案 公有云上业务的可用性,由应用层的可用性,架构设计的可用性、云服务的可用性共同决定。业务可用性目标的达成是一项系统工程,公有云模式下,业务的可靠性取决于客户对整体业务架构的可用性设计、运维规范管理(如:备份机制、日常演练、人员操作规范等)。 图1 业务可用性方案 华为云上的绝大部分云服务都具备高可用性的方案,提供了从数据中心、硬件、数据、自助服务等多个层次的高可用性构建能力。华为云数据中心布局于全球,可以满足不同地域(Region)的资源需求,每个地域又分多个可用区(AZ),可用区之间的风火水电相互独立,可用区之间的故障相互隔离。企业可在此基础上构建如下场景的高可用体系: 单AZ部署:通常情况云上不建议单AZ部署,除非是对时延特别敏感的业务,无法接受同Region的AZ间时延,这种情况可以考虑单AZ部署,利用云服务主备、集群化部署模式来满足单个业务节点故障时快速恢复业务的需求,主要利用集群内节点故障自动探测和切换的方式来完成故障节点的恢复,消除业务单点,避免单点故障时业务受损。 双AZ(同城)高可用:对业务可用性要求比较高的业务,可以选择同城多机房的方式部署业务,这样可以避免单机房网络、物理设备、电力等故障时导致业务整体不可用;对应到华为云上用户可以采用服务跨多可用区(AZ)模式部署,各可用区之间相互隔离,当一个可用区故障时,可将业务切换到另一个可用区,快速恢复业务。云服务产品基本都具备相关的能力,用户只需在选购时选择对应的能力即可完成部署。 两地三中心高可用:对于一些特大型或者安全要求很高的商业系统,对系统的高可用性提出了更高的要求,跨AZ的高可用方案并不能解决该地域级别的故障,如地震、洪水等。要满足此类业务场景可选择异地机房部署业务,华为云异地灾备方案在同城容灾的基础上,可再搭建异地灾备机房,满足此类业务需求。 跨云高可用:为满足企业对多云高可用的部署需求,华为云同样支持多云容灾部署的能力,企业可以选择以华为云为主站点,其他的云厂商为备站点部署业务,借助多云来满足业务的可用性。 父主题: 可用性设计
  • 用户组和权限规划 您可以参照之前CCoE的角色划分来规划IAM身份中心的用户组,将对应的员工加入与其职责匹配的用户组,下表为推荐的用户组划分方式,基于这些用户组的职责,按照最小授权原则,下表也推荐了应该给这些用户组设置访问哪些账号的哪些权限,您可以将其作为起点,精细化规划符合企业要求的用户组和权限。 表1 IAM身份中心的用户组 用户组 用户组的职责 多账号访问权限的设置建议 财务管理组 统一管理成员账号的账单、成本、折扣、发票等财务元素 管理账号的BSS Administrator,BSS Finance等 IT治理组 创建和管理组织单元、成员账号和SCP策略 管理账号的Organizations FullAccess等 身份权限管理组 集中创建和管理用户、用户组,并集中配置权限、委托和SSO 管理账号的IdentityCenter FullAccess,Security Administrator权限 所有其他账号的Security Administrator权限 安全管理组 统一管控整个企业的安全策略、安全规则和安全资源,为其他账号设置安全配置基线,对整个企业的信息安全负责 所有账号下安全资源( 安全云脑 、HSS、DSC、DBSS等)的管理权限 合规审计组 统一查看所有账号的审计日志和安全相关的日志(如VPC流日志和OBS访问日志等) 日志账号的Tenant Administrator权限 所有其他账号下的Tenant Guest权限 网络管理组 集中部署和管理企业的网络连接资源,如ER、VPN、DC、NATG等,统一创建和管理各个账号的VPC、子网和NACL;集中部署和管理网络边界安全防护资源,如WAF,CFW等 网络运营账号的Tenant Administrator权限 所有其他账号下的VPC、子网和NACL等网络资源的管理权限 网络运营账号的网络安全资源(WAF、CFW等)的管理权限 IaaS管理组 也叫云基础设施管理员,统一管理各个账号下的IaaS资源 所有账号下IaaS资源的管理权限 所有其他账号下的运维监控服务( AOM CES APM 等)的管理权限 PaaS管理组 也叫中间件管理员,统一管理各个账号下的中间件资源 所有账号下中间件资源的管理权限 所有其他账号下的运维监控服务(AOM,CES,APM等)的管理权限 自动化运维组 统一监控和运维各个账号下的资源 运维监控账号的Tenant Administrator权限 所有其他账号下的运维服务COC的管理权限 数据管理组 集中部署和管理企业数据平台,将其他成员账号的业务数据统一采集到数据平台进行存储、处理和分析 数据平台账号的Tenant Administrator权限 公共服务管理组 集中部署和管理企业的公共资源、服务和应用系统,并共享给其他所有成员账号使用 公共服务账号的Tenant Administrator权限 应用开发组 负责应用的开发工作和开发环境的管理工作 开发账号的Tenant Administrator权限 DevOps账号下的开发人员权限 应用测试组 负责应用的测试工作和测试环境的管理工作 测试账号的Tenant Administrator权限 DevOps账号下的测试人员权限
  • 权限设置 主账号的根用户或Admin用户属于超级管理员,拥有最大的权限,该用户的密码建议由企业的CIO或IT主管直接保管,日常管理和运维不要用Admin来执行,包括创建用户和配置权限也不应该由Admin来执行。我们建议先使用主账号的Admin在IAM身份中心创建出身份权限管理组和对应的用户,授予其完成职责所需要的权限,然后再由身份权限管理组的用户创建出其他的用户和用户组并授予权限。如下图所示。 图2 权限设置最佳实践
  • 集中身份和权限管理 企业自己的身份管理系统能更好更及时地匹配员工的入职、转岗和离职流程,避免转岗和离职人员继续拥有访问华为云的访问权限。建议您使用企业自己的身份管理系统与华为云IAM身份中心(IAM Identity Center)进行联邦身份认证,基于SCIM(System for Cross-domain Identity Management)协议将企业自己的身份管理系统中的用户同步复制到华为云的IAM身份中心。您还可以在IAM身份中心对这些用户集中配置访问多个账号内资源的权限。配置完成后,前者的用户可以通过SSO(Single Sign-on)登录到华为云控制台,可以看到该用户有权限访问的账号清单,点击“访问控制台”即可登录到该账号内部访问其中的云资源。 图1 统一身份和权限管理
  • 大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。 分批迁移的场景:大数据规模很大,但关联关系比较清晰。 大数据平台数据量大(PB级甚至EB级),计算任务数量多。虽然规模很大,但任务之间关联关系很清晰,比如可以按照业务域进行清晰的梳理,此时我们可以对大数据按业务域进行拆分,将有关联的数据、任务、应用划分到一个批次进行迁移。分批次迁移可以有效的减少大数据迁移的风险,降低迁移方案复杂度,提高迁移效率。 大数据迁移通常按照主题域进行分批。主题域通常是按照业务功能划分,将有相似业务逻辑的关联数据集合到一起,比如销售主题域、供应链主题域、日志处理主题域等。每个主题域有专门的数据处理流程、分析模型和相关业务逻辑,以支持特定的业务需求和分析目标。大数据迁移批次规划的参考原则如下: 按主题域进行分批: 按主题域分批需要考虑2个相关性,数据相关性和任务相关性。数据相关性是指将具有相似业务逻辑、相互依赖或紧密相关的数据放在同一批次中,以确保一致性和完整性。任务相关性是指将具有依赖关系的任务和数据集中放在同一批次中。这样可以保证任务在正确的数据上运行,并确保任务之间的顺序和一致性。基于这2个相关性,将主题域划分为多个迁移批次,将相关的任务和数据流集中在同一批次中,提高迁移效率和降低风险。 尽量减少批次数量:大数据迁移过程中会对数据进行抽取、转换、加载等操作,每个操作步骤都会增加复杂度和风险,影响数据的一致性,因此,应尽量减少批次的数量。 批次间相互独立:批次划分时,确保不同批次间尽量是相互独立的、松耦合的,很少有相互依赖的任务和数据流。独立的批次划分,有助于降低迁移中对其它业务域的影响。 批次内紧耦合:批次划分时,确保每个批次包含相关性较高的主题域和相互依赖的任务和数据流,包括数据共享场景。 保证业务的连续性:迁移过程中应避免业务中断的情况发生,因此,在迁移批次划分时,需要考虑将与主题域关联性强的大数据应用系统也放在同一批次,以减少业务中断的风险。 迁移优先级排序:根据业务优先级、迁移复杂度、数据量等因素,对主题域进行优先级排序。通常,先迁移数据量较小或相对简单的主题域,后迁移复杂的主题域。 父主题: 批次规划
  • Runbook参考模板 Runbook Checklist参考 表1 Runbook Checklist参考样例 大类 前置工作项 责任部门 活动 是否涉及 是否完成 计划完成时间 责任人 组织和保障准备 - 项目经理 - 是 - - - - 项目经理 - 是 - - - 第三方/业态 - 业务相关 - 是 - - - 环境清单核对 应用清单检查并刷新启停 研发相关 - 是 - - - - 研发相关 - 是 - - - 环境(源端、目的端、迁移任务、执行脚本)检查 云服务基础检查项 运维相关 - 是 - - - 数据库检查项 运维相关 - 是 - - - 运维相关 - 是 - - - 大数据检查项 大数据相关 - 是 - - - 大数据相关 - 是 - - - 应用检查 运维相关 - 是 - - - 执行脚本检查 运维相关 - 是 - - - 运维相关 - 是 - - - 日志系统检查 运维相关 - 是 - - - Runbook操作步骤参考 此外,还可能包含的项,例如:实际开始时间、实际结束时间、实际耗时等条目。 表2设置样例,具体表格内容请参考实际业务情况后填写。 表2 Runbook操作步骤参考样例 序号 任务 步骤顺序 子任务 步骤 详细操作指导 决策 详细清单 操作人 确认人 计划开始时间 计划结束时间 1 XXX 1.1 - - - 必须解决 - - - - - 2 1.1 - - - 必须解决 - - - - - 3 1.2 - - - 必须解决 - - - - - 4 1.3 - - - 必须解决 - - - - - 5 1.3 - - - 必须解决 - - - - - 6 1.3 - - - 必须解决 - - - - - 7 XXX 1.4 - - - 非阻塞 - - - - - 8 1.4 - - - 非阻塞 - - - - - 9 回退决策1:时间点XX前完成上述步骤,否则决策是否回退。 - 回退-决策点1 - - 10 XXX 21.1 - - - 阻塞执行 - - - - - 11 21.2 - - - 阻塞执行 - - - - - 父主题: 设计Runbook
  • 迁移工具部署 华为云提供的迁移工具有:迁移中心(Migration Center, MgC)、资源发现与评估工具(RDA)、 主机迁移 工具( SMS )、数据复制工具(DRS)、Redis数据迁移工具、 云数据迁移 工具( CDM )、 对象存储迁移 工具( OMS )等。 迁移中心(MgC):是一站式迁移平台,集成了华为云的各个迁移工具,内置了由最佳实践总结而来的迁移工作流模板,您可以根据不同迁移场景,选择合适的迁移模板构建迁移工作流。具体功能及使用方法请查看MgC帮助文档。 资源发现与评估工具(RDA):是一个部署在Windows主机上的工具,用于评估上云驱动力和准备度,发现应用基础设施(例如虚拟机规格信息,CPU,内存利用率性能数据,网络拓扑数据等),并提供其迁移到华为云的推荐配置以及主机的一站式迁移能力。 主机迁移服务 (SMS):是一种P2V/V2V迁移服务,可以把X86物理服务器或者私有云、公有云平台上的虚拟机迁移到华为云弹性云服务器云主机上,具体使用方法请查看SMS帮助文档。 数据复制服务 (DRS):用于数据库实时迁移和数据库实时同步的云服务。提供了实时迁移、备份迁移、实时同步、数据订阅和实时灾备等多种功能。具体功能及使用方法请查看DRS帮助文档。 Redis数据迁移服务:用于自建Redis或其它云Redis服务(要求源端Redis已放通SYNC和PSYNC命令)向华为云上Redis(D CS 服务或自建Redis)数据迁移,具体使用方法请查看DCS数据迁移帮助文档。 云数据迁移服务(CDM):支持近20种常用数据源,满足数据在云上和云下的不同迁移场景。具体使用方法请查看CDM帮助文档。 对象存储迁移服务(OMS):可以将其他云服务商 对象存储服务 中的数据在线迁移至华为云对象存储服务(OBS),具体使用方法请查看OMS帮助文档。 资源发现与评估工具(RDA)需要部署在华为云VPC内的 ECS云服务器 (Windows操作系统)上;对象存储迁移工具(OMS)为公共服务,不占用VPC内网IP资源,如果通过专线迁移数据,则需要部署离线OMS工具在华为云VPC内的ECS云服务器上;其它工具均会暂时占用VPC内网IP资源。 父主题: 部署
  • 停写不停读切换方案 停写不停读,主要指切换期间,为了追求较好的用户体验,保持一部分读的服务不停服,保持在线可使用状态;为了保持数据一致性,写的服务仍然采用停服方式进行切换。从业务对外体验上,多数用户感知不到停服的影响,比如某购物平台,用户仍然可以浏览商品,但是不能下单,下单时可友好的提示:系统正在升级中,预计凌晨4点恢复,请您稍后重试下单等。 四种停写不停读切换方案对比 停写不停读切换有4种方案可以选择: 表1 四种停写不停读切换方式 方案 操作方式 适用场景 操作复杂程度 改造工作量 网关拦截 接入层,服务网关拦截写请求,放通读请求 入口统一,有统一网关,网关具有拦截能力,并对拦截的接口能配置友好的提示。 简单 无需改造 停止写服务,读服务不停 写服务或对应接口shutdown,读服务或对应接口保持alive 应用层服务已做读写分离场景,每个服务只进行单独的读操作或写操作,没有同时进行读写的服务 简单 无需改造 应用层先做读写分离改造,然后停止写服务,读不停 应用层修改代码,拆分读写服务 应用层服务没有读写分离的场景 复杂 大 中间件层/数据层直接回收写权限 中间件层/数据层设置业务账号只读,收回写权限 直接回收写权限,业务系统会报错,需要做相关轻微改造处理这些报错 简单 轻微改造 网关拦截 服务网关(Gatekeeper、Zuul、Kong等),拦截写请求,放通读请求;例如Gatekeeper网关可以拦截POST请求,只放通GET请求。这可以通过在Gatekeeper网关上配置规则来实现。可以设置一个规则,只允许GET请求通过,拒绝POST请求。 图1 网关拦截方案 写服务关停 应用层服务已做读写分离的场景,直接关停写服务或对应接口下线shutdown,读服务或对应接口保持在线,从而达到业务只读不写的效果。 图2 写服务关停方案 应用改造 应用代码进行读写分离改造,改造后再按照8.4.3.3写服务关停方案实施,实现只读不写的效果。 图3 应用改造方案 中间件层/数据层配置只读 中间件层和数据层收回业务账号写权限,不允许服务写中间件层/数据层的操作。 图4 中间件和数据只读方案 父主题: 设计切换方案
  • 什么是云运营模式 在云计算技术出现之前,企业已经建立了IT运营模式用来定义IT如何支撑业务发展。狭义上的IT运营模式是指企业管理和运营其IT资源、服务和基础设施的方式,它涉及到如何有效地配置、管理和优化IT资源,旨在提升性能和效率、降低成本、增强灵活性,以支持企业的业务目标和战略。广义上的IT运营模式还包括组织结构、运营流程、角色和职责等要素。简单来讲,IT运营模式是指IT部门如何运作的方式。传统的IT运营模式侧重于部署在自建数据中心或IDC机房的IT基础设施,包括IT硬件和虚拟化等基础软件,企业通常需要一次性购买IT硬件和基础软件资产,支撑业务系统的安全稳定运行。IT硬件的性能会逐步下降甚至损坏,技术人员需要花费大量时间管理、维护和更新IT硬件。 当云计算技术出现之后,企业基于云平台和云服务搭建IT基础设施,并逐步把大量业务系统迁移或者直接部署在公有云上,IT运营模式进入云计算时代。基于云平台的IT运营模式(简称云运营模式)将企业的关注点从IT基础设施上移到应用程序和数据资产,您需要有效配置、管理和优化云资源,以支持业务系统在云上的安全稳定运行。简单来讲,云运营模式是指企业如何利用云技术和云服务支撑业务发展的方式。云运营模式和传统IT运营模式的目标是一致的,都是通过技术支撑企业达成业务目标,最大化业务价值。两者的差异如下表所示。 表1 传统IT运营模式和云运营模式的区别 比较项 传统IT运营模式 云运营模式 成本模式 依赖于资本支出(Capex),需要提前规划和购买硬件设备,周期较长。 采用按需付费的运营支出(Opex)模式,企业可以根据实际使用情况灵活调整成本,减少了前期投入。 管理重点 企业的管理重点在于IT基础设施的维护、服务器的正常运行时间以及数据中心的物理安全。 企业的管理重点转向更高层次的操作,如应用程序的性能优化、数据管理和 云安全 。 敏捷性 硬件采购和部署周期较长,资源扩展需要经过复杂的审批和采购流程,响应速度较慢。 创新和变更受到硬件资源的限制,难以快速适应业务需求的变化。 云资源可以按需动态扩展或缩减,企业可以快速响应业务需求的变化。 部署新应用或功能的速度显著提高,支持敏捷开发和持续交付。 创新不再受硬件采购周期的限制,企业可以更快地试验和推出新产品或服务。 安全性 企业承担所有的安全保护职责。 安全性主要依赖于数据中心的物理边界和内部网络的防护。 采用共享安全责任模型,云服务商负责云平台和云服务本身的安全,企业负责上层应用和数据的安全。 云服务商也会提供云原生安全服务和云安全最佳实践帮助企业保护上层应用和数据的安全。 人员技能 技术人员主要管理和维护IT基础设施,需要大量时间处理硬件故障、性能优化和系统更新等工作 需要具备硬件维护、网络管理、虚拟化技术等技能。 技术人员需要掌握云平台的使用、云资源的配置与优化、自动化运维工具以及云安全管理等技能。 需要具备更加高层次的技能,如应用程序性能优化、数据管理。 云运营模式在灵活性、敏捷性和成本效益方面具有显著优势,但也对企业的人员技能和安全管理提出了更高的要求。企业需要根据自身业务需求和发展战略,逐步从传统IT运营模式向云运营模式转型。 云运营模式并不是企业云化转型的结果,并不是把业务系统都迁移到云上就自然拥有了一个能够有效支撑业务目标的云运营模式。制定一个良好的云运营模式是确保企业云化转型成功的前提。企业需要根据当前的IT运营模式和业务系统的特点设计最佳的云运营模式,以最大化云计算带来的业务价值。云运营模式需要明确CCoE团队和应用团队之间的责任界面和协作机制。华为云基于大量企业的云化转型经验,总结了以下三种云运营模式。 父主题: 云运营模式
  • 骨干互联区主要功能 集中部署企业路由器(ER),为云上云下互联、云上多账号多VPC互联、云上跨Region互联构建网络枢纽。 集中部署VPN或专线与本地数据中心互联,打通云上云下互联的通道,所有账号都可以共享使用VPN或专线与本地数据中心通信。 集中部署云连接(Cloud Connect,CC)与华为云其他的Region进行网络互联,所有账号都可以共享使用CC与其他Region通信。 集中部署VPN与第三方云进行网络互联,所有账号都可以共享使用VPN与其第三方云通信。
  • 整体框架 华为云CAF提供系统的和完整的云化转型方法论和最佳实践,CAF的完整性体现在两个方面,一要涵盖云化转型的全部旅程,二要涵盖云化转型所有干系人的视角。CAF的整体框架如下图所示。 图1 CAF整体框架 云化全旅程按照时间顺序包含以下六个阶段。 制定战略:制定云化转型的战略,这个战略要与组织的业务战略和技术战略保持对齐,确保云化转型能够实现组织的业务目标。在该阶段需要分析干系人利益、识别云化驱动力、评估云化成熟度、制定云化目标和分析云化收益,然后制定符合组织业务战略的云化转型战略。 顶层规划:云化转型是一项系统性工程,不是简单的将应用系统迁移到云上,需要基于组织的云化转型战略有针对性的设计云化转型的顶层框架,从组织、流程和技术方面整体考虑。在组织层面需要组建一个云卓越中心(Cloud Center of Excellence,简称CCoE)来领导、协调和推进整个云化转型项目。在技术层面需要基于卓越架构(Well-Architected Framework,简称WAF)设计Landing Zone、安全架构和平台工程。在流程层面需要根据组织的IT运营模式设计最佳的云运营模式,并基于云运营模式制定应用生命周期管理流程,最大化云计算带来的业务价值。 调研评估:针对组织的IT基础设施、应用系统和大数据平台进行现状调研,包括静态配置信息和动态运行信息的收集和分析,针对现状信息进行评估分析,选择正确的云服务,为后续详细方案设计提供有效输入。 方案设计:在云化转型的顶层设计框架内,基于调研评估结果,再结合组织的业务架构和WAF框架,详细设计云上技术架构、云上应用架构和云上数据架构,通过卓越的架构设计保障云基础设施和应用系统的安全性、可靠性和高性能。在该阶段需要根据应用系统的重要性制定POC试点和批次迁移计划,根据应用系统的特征选择合适的迁移策略,同时也需要制定云上的成本预算计划,最终整合输出详细设计方案。 采用实施:基于详细设计方案,首先要搭建Landing Zone,部署可扩展的网络基础设施,配置安全基线和运维基线;然后将各个应用系统和大数据平台迁移或直接部署到云上,或者基于云平台进行应用现代化改造,也可以基于云平台提供的各种创新技术直接在云上进行应用和业务创新。 运维治理:将应用系统迁移或部署到云上之后就进入了运维治理阶段,在该阶段需要针对云基础设施、应用系统和大数据平台进行持续的精益化治理、确定性运维、持续安全运营和成本运营,并基于WAF框架进行持续优化。 云化转型项目涉及组织内很多部门和干系人,这些干系人会参与云化转型项目的决策或影响云化旅程的各个阶段。如表1所示,不同的干系人有不同的视角和关注点,这些视角总体分为业务视角和技术视角。 华为云CAF会针对所有这些视角给出恰当的建议,您的组织可以将这些建议作为决策和行动的起点,结合组织的业务特点和偏好制定有针对性的行动方案。 表1 云化全视角 分类 视角 关注点 干系人 业务 战略视角 基于云化转型项目支撑组织的业务战略和数字化战略,充分利用云计算的优势构建组织的核心竞争力。 CXO高级管理人员 业务 业务视角 提升业务连续性,支撑业务的持续发展; 加速新业务上市速度,快速满足不断变化的市场需求; 基于云上创新技术进行业务、产品或模式创新,为组织带来增量收益。 业务主管、CIO 业务 财务视角 云采用前后的TCO对比分析,降低IT的TCO; 不断优化云资源的性能效率和成本效益; 通过提升用户体验和业务创新带来新增收入。 CFO、财务专家 业务 组织视角 搭建云化转型的组织结构,定义云化转型人才的角色和职责; 制定云化转型的绩效考核指标,云化转型人才的选、用、育、留。 CIO、HR专家 业务 流程视角 基于云平台和云服务的特点优化IT服务流程和运维流程,支撑上层应用系统的快速迭代和安全稳定运行。 CIO、IT主管 技术 平台视角 基于云平台和云服务构建企业级、高安全、高可靠、高性能和易扩展的IT基础设施或技术平台,对上层应用系统提供计算、存储、网络、安全、数据库、中间件等服务,帮助应用团队快速基于该平台进行应用系统的开发、测试、部署和高效运维,并支撑应用系统的安全稳定运行。 CIO、CTO、IT主管、IT运维专家、应用开发及测试专家、应用运维专家 技术 架构视角 基于云平台和云服务构建高安全、高可靠、高性能和易扩展的技术架构、应用架构和数据架构。 CTO、云架构师 技术 运维视角 基于云平台和云服务的特点构建完善的云上IT运维体系,针对IT基础设施和应用系统进行监控、告警、故障定位和故障修复,保障IT基础设施和应用系统的长期稳定运行。 CTO、IT运维专家、应用运维专家 技术 安全视角 基于云平台和云服务的特点构建云上全方位安全防护体系和持续安全运营机制,保障IT基础设施和应用系统的机密性、完整性和可用性。 CISO、安全专家 技术 治理视角 基于云平台和云服务的特点构建完善的云上IT治理体系,针对云上的“人财物权法”进行集中化和精益化的治理,有效控制云化转型的风险,最大化业务收益,保障业务的持续发展。 CIO、IT治理专家 云化旅程是一个长期和复杂的过程,涉及的人员庞大,要处理的任务非常繁多,企业要安排专门的项目经理对其进行端到端的项目管理,科学的项目管理方法和行动方案直接影响云化转型的效率和质量,最终将会影响云化转型战略目标的实现。 华为云CAF的目录结构按照云化全旅程的六个阶段展开,在相应的章节会展开介绍各个业务视角和技术视角的关注点和对应的实践建议。 父主题: 云采用框架简介
  • 常用术语 华为云CAF涉及到很多IT和云计算领域的术语,不同读者对术语字面上的理解可能不一样,为避免对术语的误解,特制定如下术语表。 表1 术语列表 术语 解释 CAF 英文全称为Cloud Adoption Framework,是一个针对云化转型的端到端生命周期框架,涵盖云化旅程的所有阶段,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理,CAF提供了云化旅程各个阶段的方法论、最佳实践、工具和模版。 WAF 英文全称为Well-Architected Framework,是华为云的卓越架构技术框架,聚焦客户业务上云后的关键问题的设计指导和最佳实践。WAF以华为公司和业界最佳实践为基础,以韧性、安全性、性能效率、成本优化与卓越运营五个架构关注点为支柱,帮助客户在华为云上设计卓越的技术架构、应用架构。WAF也是 Web Application Firewall( Web应用防火墙 )的缩写,读者需要结合上下文判断WAF的具体意思。 IT基础设施 是指一个平台化的IT支撑环境,用于支撑组织内所有应用系统的安全稳定运行。它向下抽象、管理和优化底层IT资源(例如数据中心、硬件、网络、虚拟化等),向上为应用系统提供必要的计算、存储、网络、数据库、中间件和其他IT服务,加快应用系统的开发、测试和部署速度,并为应用系统提供稳定、可靠、高效的运行环境。云计算可以极大加快您的组织建设和扩展IT基础设施的速度,也可以极大简化IT基础设施的运维管理工作,使您的组织能够聚焦在应用系统的开发和运维等高价值领域。IT基础设施有时候也叫做技术平台或技术中台。基于云计算构建的IT基础设施也称作云基础设施。 应用系统 是指为了完成特定任务或解决特定问题而设计的软件系统,以支撑组织内特定的业务流程和业务场景。它通常由一系列相互关联的应用程序、数据库、中间件、配置文件和文档等组成,并运行在IT基础设施之上。应用系统可以是独立的,也可以是更大应用系统的一部分。应用系统有时也称为业务系统、信息系统、业务应用系统、业务信息系统、工作负载等。 IT管理系统 为了支撑应用系统的长期安全稳定运行所建立的IT支撑和管理系统,如安全运营中心、IAM和监控运维系统等。 云服务 是指云服务商通过互联网或专有网络提供的各种IT服务,包括计算、存储、网络、安全、运维管理、数据库、中间件、大数据处理和AI等。用户可以按需访问这些服务,而无需自行购买和维护物理硬件和软件基础设施,只需为实际使用的资源付费。云服务的主要类型包括基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)。 IaaS IaaS 将计算、存储、网络和其他基础设施资源以云服务的形式提供给用户,用户基于这些云服务可以部署和运行任意软件,其中可能包括操作系统、数据库、中间件和应用程序。用户不控制底层云基础设施,但可以控制操作系统、存储、部署的应用程序以及可能的有限的网络组件(例如主机防火墙)。 PaaS PaaS 将DevOps工具链、中间件、数据库、微服务引擎、大数据等平台资源以云服务的形式提供给用户,用户基于这些云服务可以开发、测试、部署和运维应用程序。用户不管理或控制底层云基础设施和中间件、数据库、微服务引擎等平台资源,但可以控制已部署的应用程序及其相关的数据。 SaaS SaaS 直接将应用程序以云服务的形式提供给用户,应用程序可以通过各种客户端设备访问,例如通过Web浏览器、手机App或API。用户不管理或控制底层云基础设施、平台资源和应用程序,但可以控制应用程序运行期间产生的属于用户的数据。 云资源 云资源是用户通过云服务创建出来的IT资源实例,包括计算、存储、网络、安全、运维管理、数据库、中间件、大数据处理和AI等,用户可以组合使用云资源快速搭建上层应用系统所需的IT基础设施。 云服务商 云服务商(Cloud Service Provider,简称CSP)是指提供云服务的公司。他们设计、建设和运维大规模的云数据中心,通过互联网或专有网络向客户提供按需访问的云服务。云服务商有时也叫做云服务提供商、云厂商。 Landing Zone Landing Zone是一个航空术语,指直升飞机等飞行器安全着陆的区域。华为云和友商都借用了这个术语,将应用系统安全平稳迁移到和运行在公有云的解决方案命名为Landing Zone。通过Landing Zone搭建一套架构卓越、安全合规、易扩展的云上多账号运行环境,在此基础上构建精益IT治理体系,实现“人财物权法”的有序和集中管控,目的是系统性解决企业大规模使用云服务所带来的IT治理和安全合规的挑战。 账号 华为云账号是一个资源容器,用户可以在其中部署任意云资源和应用系统,不同的账号相当于不同的资源容器,账号之间是完全隔离的。因此在一个账号中的故障和安全风险不会影响和传播到其他账号。华为云账号也是安全管理边界,每个账号都有独立的身份和权限管理系统,一个账号内的用户只能访问和管理本账号的资源,未经允许,一个账号内的用户不能访问其他账号的资源、数据和应用。 从IT治理角度,账号分为管理账号和成员账号,管理账号用于创建和管理组织、成员账号和SCP策略。成员账号用于承载具体的应用系统(如ERP等)或IT管理职责。从财务治理角度,账号分为企业主账号和企业子账号,企业主账号和企业子账号之间可以形成财务托管和财务独立的财务管理模式。IT治理角度的管理账号和财务治理角度的企业主账号是同一个实体,成员账号和企业子账号也通常是一个实体。 云上组织结构 是组织云上资源的层级化结构,由多层级的组织单元和账号组成,一个组织单元下面可以包含多个下层组织单元和多个账号。按照康威定律,云上组织结构通常与企业的业务结构保持一致。 云卓越中心 云卓越中心(Cloud Center of Excellence,简称CCoE)是企业内部为云化转型专门成立的中心化团队,全程负责整个云化旅程,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理,其目标是通过提供最佳实践、指导和资源,帮助企业最大化云计算的价值,确保云化转型项目的成功实施。 云运营模式 云运营模式(Cloud Operating Model,简称COM)是企业内部使用、管理和运营云计算技术的流程和制度,目的是最大化云计算带来的业务价值。云运营模式要与组织内的业务运营模式对齐,明确CCoE和应用团队之间的协作关系和流程,通过有效的云运营模式,CCoE可以集中化运营整个云平台,提升管理效率和降低技术风险;应用团队也可以灵活地使用和管理所需要的云资源,加速应用创新的步伐。 数字化转型 数字化转型是指组织利用数字技术(如云计算、大数据、物联网、人工智能、 区块链 等)对其业务模式、运营流程、产品和服务进行全面的重塑和创新,以适应快速变化的市场环境和满足客户不断提升的需求。通过数字化转型,组织不仅可以提升效率和竞争力,还能创造新的价值和增长机会。 云化转型 云化转型(也叫云转型)是指将组织的IT基础设施、应用系统、业务流程等迁移到 云计算平台 ,或者利用云计算技术对其业务模式和运营流程进行重构和优化的过程。它不仅仅是简单的“搬迁上云”,更是一个涉及战略、技术、组织和流程的全面转型。目标是利用云计算的优势,提升业务敏捷性和连续性,降低成本,并推动业务创新。云化转型是数字化转型的重要支撑,可以大幅加速组织数字化转型的进程。 业务单元 业务单元(Business Unit)是指企业内部根据产品、服务、市场、客户群体或功能领域等划分的独立运营和管理的组织单元。每个业务单元通常具有自己的战略目标、职责范围、资源配置和业绩指标,负责特定的业务活动和市场区域。业务单元的颗粒度可以是子公司、事业部、产品线、部门或项目组等。 父主题: 云采用框架简介
  • 大数据任务调度平台设计 设计云上的大数据任务调度平台部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据任务调度平台和组件,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议部署架构设计时,优先采用大数据云服务。如果目标云平台上没有对应的大数据任务调度组件,部署架构设计时,可以考虑继续采用自建的方案。如果目标云平台上有对应的大数据任务调度组件,但兼容性较差,经评估可能需要较大的改造工作量,部署架构设计时,可以考虑继续采用自建的方案。 最小改造原则:如无特别的业务驱动,要尽量避免进行大规模改造。大数据任务调度平台的组件要1:1对标设计,版本尽量不变更,有版本升级需求的需要评估适配改造工作量。 弹性和可扩展性:在云上部署大数据任务调度平台时,应考虑平台的弹性和可扩展性。云环境提供了弹性计算和存储资源,可以根据工作负载的需求自动调整容量。确保任务调度平台能够快速处理增加的任务负载,并支持水平扩展以满足业务需求。 高可用性和容错性:确保在云上部署的任务调度平台具备高可用性和容错性。采用冗余设计和自动故障恢复机制,以确保系统的持续可用性。例如,使用多个调度节点和备份策略来防止单点故障,并确保任务不会因节点故障而中断。 安全性和数据保护:云上部署的任务调度平台需要具备安全性和数据保护机制。确保对敏感数据和系统组件进行适当的访问控制和加密,以防止未经授权的访问和数据泄露。 性能优化:在云上部署任务调度平台时,需要考虑性能优化。优化资源配置、任务调度算法和数据分发策略,以提高任务执行的效率和速度。还可以利用云平台提供的服务和功能,如缓存、预取数据等,来优化任务执行的性能。 父主题: 大数据架构设计
  • 项目准备 决策层做出云化决策后,项目进入启动前的准备阶段。准备阶段主要目的是为项目启动提供完整的项目目标、项目范围、项目计划、项目管理机制、项目验收标准,并组建项目团队。为实现这一目的,需要在该阶段与客户确认云化工作的范围和边界,明确云化要实现的目标,并根据云化转型项目影响到的组织范围,构建联合项目团队,并提前和相关组织做好预沟通工作(如项目计划排程、责任分工、参与的阶段与角色,主要工作内容等)。项目计划需要在启动会前完成设计,并和业务部门等周边相关部门确认好时间计划、人员投入和资源就绪情况等。项目管理机制是项目顺利开展的关键环节,包含项目例会管理、项目风险管理、项目变更管理以及项目汇报机制,通过一系列机制保障项目在复杂场景下有序、平滑地开展。项目验收方案需要提前明确,基于项目目标以及业务诉求明确验收用例、验收指标、验收标准,确保业务系统上云后的功能和性能指标满足要求,这一步通常需要提前拉通业务部门和用户进行核心业务流程、关键指标的确认,并由业务部门负责最终输出业务验收指标。任何项目的执行都离不开人,所以准备阶段必须组建一个项目团队,也就是前面提到的CCoE团队,具体如何筹备和组建CCoE团队,请查看章节 云卓越中心 的内容。 在完成上述项目准备工作之后,需要举行正式的项目启动会。项目启动会的目的是将云化转型项目正式定义为一个真正意义上的工作任务,是一个有目标、有计划、有组织、有任命、有监督和考核的正式任务,确保项目成员按照责任界面和项目计划各司其职以达成项目目标。项目启动会参与者是CCoE的全体成员以及云服务商的项目团。 项目启动会中一个重要且关键的环节就是组织任命和授权。通过对项目团队的正式任命和授权将云化转型项目作为一个正式任务和KPI下发到每个组织成员头上。一方面确保组织成员的工作是正当、明确且可衡量的,同时也保证项目成员的稳定性,并激发团队成员完成目标的热情。 在项目启动会中,除了项目团队的任命和授权,还需要明确项目汇报监督机制。项目有个多个实施阶段,每个阶段的执行结果是否能达到预期?是否存在卡点和问题?项目团队是否具备处理这些问题的资源和能力?这些都是项目团队在执行过程中所面临的问题,如何快速高效处理问题,通常取决于对问题的理解和项目团队对资源的掌控能力,但仅仅依靠项目团队很难解决所有问题,因此,定期会议、高层汇报至关重要。通常在项目交付中,我们建议采用敏捷项目管理模式,即每日站会+周会的形式来快速识别阶段卡点和问题,快速找到应对机制来快速闭环,将问题解决周期尽可能缩短。站会和周会的机制可以让项目卡点快速通达决策层,依靠决策层的能力快速拉通资源来闭环问题,这就是上述我们提到的质量监督机制。通过这种机制,集合企业最高层的能力来确保项目成功,这也是项目高效、高质量交付结果的精髓所在。 除了组织任命和授权、汇报监督机制,项目启动会还需要定义项目日常运作管理机制(日报、周报、问题上升机制等)、风险变更机制(人员变更、周期变更、环境变更等)以及跨团队间的分工协作机制,这些通常可以参考常规的项目管理方法进行管理和运作。
  • 可行性评估 一个企业在上云之初,企业决策层通常想了解上云最终能给企业带来什么价值,以及这些价值是否是企业当前以及未来业务发展所迫切需要的。为了解这些信息,通常决策层会让IT部门评估上云的价值和收益,而IT部门通常具备传统IT运营理念和IDC技术栈,缺乏对云深入的了解以及实践。这时,就需要引入云化转型专家协助信息化团队完成价值评估,这个阶段称之为可行性评估和蓝图规划阶段。在这个阶段,通常是由云化转型专家主导、IT部门辅助,共同完成当前业务、组织、运营、平台、安全、运维等多个维度的现状评估,根据评估结论和差距分析,估算云化转型能带来的价值和收益,并给出云化后整体蓝图规划设计。通过这一系列行动论证云化可以满足当前和未来业务发展的迫切需要,并让决策层看到云化后的业务连续性和业务敏捷性的提升以及业务创新能力的增强,加速决策层做出科学、合理的决策。
  • 业务保障 业务系统上线后,进入业务系统的上线保障期,上线保障期的工作内容涵盖保障期问题处理和闭环以及知识转移等事项。保障期通常是上线后一周,这个周期内通常是上云后问题高发期,是云化转型项目团队要重点关注和保障的阶段,通常云服务商会有专门保障团队和企业形成联合项目团队共同保障业务平稳运行。在这个阶段,基于业务部门提出的问题按照业务关键性等级和问题等级区分出轻重缓急,基于不同的紧急重要程度快速响应和闭环。知识转移则是在业务系统上线后,需要为业务部门的应用运维团队进行云技术的赋能,保证应用运维团队具备在云平台上对业务系统进行必要的日常运维管理和事件处理的能力。
  • 为什么要上云试点 上云迁移试点是企业在进行大规模上云迁移之前的重要步骤,它能够帮助企业在大规模迁移之前充分了解和评估各种因素,通过试点上云迁移流程与相关配置,企业可以提前识别出相关风险,为后续大规模上云迁移提供经验。 风险控制:上云迁移是一个复杂的过程,涉及到不同的系统和业务。通过进行迁移试点,企业可以在小范围内验证整个迁移流程的可行性,发现潜在问题并及时解决,确保后续的大规模迁移顺利进行。同时试点还可以帮助企业识别潜在的风险和挑战,例如,某些业务可能无法适应云环境,通过试点,可以在较小的范围内暴露这些问题,并及时采取纠正措施,从而降低全面迁移时的风险。 验证可行性:上云迁移试点可以验证企业的应用和数据是否适合迁移到云端。通过选择一小部分应用或业务进行试点,企业可以评估业务在云环境中的兼容性、性能、安全性、可靠性等方面是否满足需求。如果发现某些应用不适合迁移到云端,企业可以根据评估结果重新规划迁移策略或寻找替代方案,避免将不适合或难以迁移的应用直接投入生产环境。 掌握经验:上云迁移试点可以让企业的技术团队和业务人员获得实践经验。在试点过程中,他们可以学习并熟悉云平台的特点、功能和最佳实践,了解迁移的工具和流程,并积累相关知识和技能,为后续的全面迁移做好准备。 确定优先级:通过试点迁移,企业可以评估不同应用或业务的迁移优先级。根据试点结果,企业可以确定哪些应用或业务对于上云迁移的影响较小,可以先行迁移,进而有序地推进整个迁移过程。 性能优化:迁移试点还可以帮助企业识别并解决潜在的性能问题,通过在小规模环境中进行试点,企业可以验证应用在云环境下的性能指标,如延迟、吞吐量和响应时间等,了解应用在云环境中的实际表现,这样可以及早发现瓶颈并做出相应的优化和调整,确保在正式迁移之前获得良好的性能和用户体验。 成本控制:迁移试点提供了一个机会,让企业更准确地评估上云迁移的成本,通过试点阶段的实际操作,企业可以更好地理解云服务的费用结构、资源消耗情况以及可能的隐藏成本,这有助于避免意外的成本增加并优化资源利用,以实现成本控制的目标。 团队磨合:上云迁移的成功离不开各参与方的高效协同(运维团队、开发团队、测试团队,云服务供应商、第三方系统供应商等),上云迁移试点为不同团队提供了一个合作的机会,通过试点可以识别团队间的合作问题和风险,并针对性制定相关应对措施,保证大规模上云期间合作顺畅。 父主题: 上云试点
  • 业务系统上线管理 业务系统上线管理的目的是保障业务系统上线过程中业务依然能够平稳运行,将对业务的影响和风险降低或消除。业务系统上线管理涵盖环境准备、组织宣贯、风险应急和割接上线实施等环节。 业务系统割接上线前云环境准备通常包含业务环境部署,数据同步(如迁移场景)、周边业务系统协同配置、内外部连通性确认等等,通过这些前提准备提前完成业务系统正常运行的基础平台环境的搭建,确保业务系统上线所需的基础环境处于就绪状态。 组织宣贯在割接上线前是一个关键环节,尤其是在传统企业初始上云的场景下。通过组织宣贯让所有项目成员和相关人员各司其职,通力配合完成业务系统上线工作(如上线影响说明、角色分工、配合实施内容、配合时间点、问题反馈机制等等),确保业务系统上线的每个流程、指标都可以得到验证并成功上线。另一方面,企业高层可以通过组织宣贯向公司内部传达一个关键信息:企业上云是公司未来的战略,每个组织、个人都应积极转换思想、意识,来积极主动拥抱云、拥抱企业数字化未来。 风险应急准备是每个业务系统上线前必要的环节,需要提前识别上线可能遇到的风险和问题并制定解决方案。风险识别不限于在技术实施过程中遇到的各类风险,还包括组织、流程、安全以及平台的系统性风险。如常年运行的系统可能存在硬件损坏无法修复的风险、业务系统运行环境潜藏破坏性病毒、业务系统上线环节上遗漏关键角色等等,每个风险都可能成给业务系统上线带来破坏性影响,提前识别、提前制定预案并进行必要环节的演练,尽可能将风险影响降低或消除。 割接上线实施是业务系统上线前最后一个环节,也是最关键的环节,但通常前期准备和风险应急工作充分、验证过程完善,割接过程基本都会比较顺利。在这个环节,主要做的工作就是按照前期演练完善的手册进行系统化验证,根据指标确定割接是否成功。一个关键的要点是本阶段是一个人员密集型工作阶段,组织宣贯阶段所有人员均需按照宣贯要求在不同的执行环节参与进来,并按标准要求执行相关动作和验证相关过程和结果,并为结果负责(通常需要签字验收指标通过)。基于所有反馈结果来最终判断割接是否成功。
  • 项目过程管理 该阶段主要包含项目进度管理、汇报管理、风险管理、以及变更管理等部分。在前面我们已经提到进度管理、汇报管理的关键环节,如通过敏捷管理(站会、周会等)持续对齐目标和周期,确保项目进度在预期可控范围内;通过拉通高层周期性汇报机制快来监督项目进展和风险,以达到快速闭环问题和卡点的目的。云化转型项目实施和管理过程中风险通常包括项目周期风险、人员变更风险、技术可行性风险、操作风险、安全风险等。接下来主要针对风险管理(包括变更管理)以及敏捷管理方法做概要介绍。 项目进度风险通常是云化转型项目因各种超出预期的事件或问题导致项目周期延后,如新业务发布上线、关键业务数据库故障、病毒感染等事件,都会对项目实施周期带来影响,因此项目团队应充分考虑可能遇到的问题或风险来制定项目周期。应对项目周期风险的策略通常是综合评估各个阶段可能存在的风险,并预留适度的项目周期,并针对某些极端风险制定逃生方案,尽可能确保项目在规定的时间内完成。 对于人员变更风险,是云化转型项目管理过程中经常碰到的风险场景,项目开始前必要的角色备份非常必要。针对某些单人单岗的关键角色,尤其需要考虑变更带来的风险,如一个公司一个DBA等情况,项目经理需要针对这一问题在项目开始前就要做备份计划,特定情况可以跨部门人员备份或提前进行人员储备,这一风险不仅仅云化转型项目管理中的问题,更是企业核心业务是否能可持续运营的风险问题。 技术风险的应对机制相对来说更为可控,项目团队通常可以采用POC验证的方式验证技术的可行性,这包括功能是否满足当前业务运行需求,以及非功能性部分是否可以满足业务运行的性能、延迟、吞吐量等指标等。同时针对迁移过程中的技术风险,项目团队可以通过迁移割接演练来模拟迁移实施过程,从中发现潜在的风险和问题,并形成Runbook来应对和规避相应风险。 云化转型项目实施过程中的操作风险与传统项目操作风险处理方式存在差异,原因在于传统IT项目实施基于硬件平台和系统实施操作,关键操作常常是多人共同参与,一个人操作,多人监督,确保操作和预期的一致。而云化转型项目的操作实施基于网络进行,业务和平台高度集成,一个操作失败可能影响多个组件或服务。因此,云上操作风险处理通常建议采用自动化的方式进行,尤其在业务系统割接上线的环节,尽可能减少人为带来的误操作风险。简而言之,能脚本化、自动化的就不手工操作,能工具化的就不用脚本操作,全面消除人为操作风险。 云化转型的项目管理对安全要求较高,如针对业务系统上云环节,要秉持“上云不带病、带病不上云”的基本原则,因此上云前项目团队通常要进行必要的问题巡检和安全扫描,这些工作涉及硬件、系统、中间件以及应用的状态、日志、事件、告警信息等部分,以及采用安全扫描工具进行系统的安全扫描,确保现有的系统运行是健康且没有潜在运行风险的。 相较于传统IT项目,云化转型项目虽然没有集成各个不同硬件厂商、不同ISV的复杂性和漫长的交付执行周期,但交付执行过程涉及面广、平台集成度高,问题处理过程复杂,致使云化转型项目的管理过程往往容易形成集中式卡点和风险,一个功能点不足都可能拖延整个项目周期。因此传统瀑布式项目管理模式往往无法适应云化转型项目的管理,敏捷项目管理模式则更有成效。 前面章节已经概要说明了项目问题处理的方法,如每日站会、每周例会等,实现项目卡点的快速审视、拉通和闭环,从根本上说这些方法和策略都是敏捷项目管理的一种形式。归根结底,敏捷项目管理模式也是一种逆向工作法思路,也即在项目开展过程的各个阶段,分别设定阶段交付的目标,通过在执行过程中不断审视当前进展、卡点或问题,并通过与阶段性目标对齐,寻求最快、最短的解决路径。作为一个云化转型的项目经理,应充分明确各个阶段的目标,在每个阶段执行过程中(如卡点、问题处理、风险应对举措等)持续与本阶段目标对齐,从实现目标的角度出发来解决当前问题,可以快速发现更加合适的方法和策略。 敏捷项目管理需要基于敏捷管理工具实现,将敏捷管理流程和工具结合形成快速闭环的过程管理能力。常用的敏捷管理工具包括Jira,也可以使用华为云提供的云原生项目管理工具CodeArts Req。CodeArts Req和华为云的云原生DevOps工具链CodeArts的其他工具无缝打通,可以有效提升端到端项目管理和应用交付的效率。
  • 云化成熟度评估步骤 上述云化成熟度评估模型相对比较完备,完成全部评估和分析需要1周左右的时间。以下是执行云化成熟度评估的具体步骤。 定义评估范围 这是整个评估过程的基础。在这一阶段,您需要根据组织的现状和业务需求,确定需要评估的具体范围。由于云化转型涵盖多个评估维度和众多评估问题,您可能无法在一次评估中全部涵盖,您可以聚焦于组织当前发展阶段和业务目标最相关的方面,选择其中一部分关键维度进行评估。通过与相关业务部门、技术团队的沟通,明确当前最需要提升的领域,确保评估能够聚焦于对组织最有价值的方面。这一步骤的目标是制定一个清晰、可执行的评估范围,为后续评估工作的顺利展开奠定基础。 识别和协调评估人 这对于评估的准确性和有效性至关重要。您需要确定内部最适合回答所选评估问题的人员,这些人员应当对各自负责的领域有深入的了解,能够提供客观、详实的答复。针对云化成熟度评估的10个维度,我们建议的评估人选如下: 表1 推荐的云化成熟度评估人选 评估维度 推荐评估人选 战略与业务 CEO或者CIO 组织与流程 CIO或者人力资源主管 云卓越架构 CIO或者企业应用架构负责人 云基础设施 CIO或者IT主管 应用现代化 应用架构师 数智赋能 业务主管或者数据架构师 云安全 CISO 云运营与运维 运维主管 FinOps 云成本管理负责人 云化收益 业务主管或IT主管 您要协调好评估人的时间,尽量将评估活动集中在一个时间段内,有助于提高评估效率。此外,为了确保评估人对评估目的和要求有充分的理解,您可以在评估前进行统一的说明和培训,详细解释评估的目的、流程和要求。 执行评估 这是整个过程的核心环节。评估人需要根据之前确定的评估范围和问题,逐一进行认真、客观的答复。在答复过程中,应当全面考虑组织在各个评估问题的实际情况,提供具体的数据和实例支持。如果评估人对某些评估问题存在疑问,应及时与评估专家联系,安排集中答疑,确保对问题的理解准确无误。执行评估时,应避免主观臆断,基于事实进行评价。此外,需要强调评估的客观性和保密性,鼓励评估人如实反映情况,不用担心负面影响。这一步的质量直接影响到评估结果的可靠性和后续改进措施的有效性,因此需要评估人给予足够的重视和投入。 第四步、输出评估报告 评估专家在这一阶段需要汇总和分析所有评估人的答复,识别组织在云化成熟度方面的优势和差距。对于发现的能力差距项,评估专家应深入分析其原因和影响,并针对性地提出优化和提升的建议。这些建议应具体、可操作,包括改进措施的优先级、实施路径和预期效果。评估报告应逻辑清晰、条理分明,既能全面反映评估结果,又能为组织制定下一步行动计划提供有力支持。通过评估报告,组织管理层和各部门可以明确当前的能力水平,了解需要改进的领域,从而有针对性地制定和调整云化战略、云化目标和实施方案,推进云化转型的深入发展。一份高质量的评估报告能够为组织的云化转型提供重要的决策依据。 父主题: 评估云化成熟度
  • 调研外部关联关系 以下一些常见的外部关联关系,需要在应用迁移前进行调研和评估。确保全面理解应用的外部依赖,并采取适当的措施,以确保迁移后外部业务正常运行,不受影响。 第三方应用程序依赖关系 调研与目标应用有关的第三方应用或服务,包括其版本和集成方式。确定是否需要对这些依赖项进行调整或重新配置。 外部数据源和 API 依赖关系 分析和记录目标应用所依赖的外部数据源和 API,例如外部数据库、文件系统、消息队列或第三方服务。确保这些依赖关系在迁移后能够正确访问和使用。 授权和安全关联关系 确定与目标应用有关的授权和安全关联关系。包括涉及身份验证、访问控制、令牌管理、IP白名单等方面的外部服务和机制。 合作伙伴和供应商关联关系 如果目标应用涉及与合作伙伴或供应商的集成,需要调研这些关系,并确保在迁移后能够继续正常工作。 SLA(Service Level Agreement)和供应商支持关系 检查既有的 SLA 和供应商支持协议,并评估迁移到云平台后对这些关系的影响。确保在云环境中依然能够满足业务需要并获得期望的支持和服务。 网络和连接依赖关系 调研目标应用所需的网络连接和传输协议。确定上云后是否需要进行网络配置和访问控制,以确保应用程序可以与相关的外部系统正常通信。 外部关联关系主要靠如下方式去做调研,可以多种方式结合,以提高调研效率和结果完整度: 文档和现存资料 阅读现有的文档和技术资料,包括应用程序的架构图、部署说明和运维手册等。这些资料可以识别出应用程序的关键依赖和集成点。 与开发团队和运维团队沟通 与应用程序的开发团队和运维团队进行沟通,了解他们对系统依赖关系的认识和理解。他们可能提供有关应用程序的详细信息、依赖关系的描述以及与其他系统的集成情况。 代码分析 仔细检查应用程序的源代码,特别是配置文件和代码中涉及的外部依赖关系。因为有些依赖关系可能由代码直接指定。 系统扫描和监控 借助系统监控工具和网络扫描工具,扫描整个系统并识别出与应用程序相关的依赖关系。 与相关团队交流 与其他部门或团队进行交流,了解应用程序与其他公司、供应商或合作伙伴之间的集成关系。这些关系可能包括数据共享、接口调用、权限控制等。 服务提供商和文档 如果应用程序依赖于外部服务提供商,查阅其提供的文档、API 参考和支持资源,以获取关于依赖关系的详细信息。
  • 调研内部关联关系 关联关系分析是批次规划和切换方案的重要输入,也是上云迁移的难点,影响上云迁移的关联关系主要有三种,如下图: 图2 三种关联关系 关联分析有如下4种方法,上云迁移过程中,企业可以根据自身的实际情况选择合适的分析方法: 图3 关联关系分析法 CMDB法:适用于客户有CMDB系统,CMDB系统中通常有应用间的通信依赖,应用与数据库的依赖,应用与中间件的依赖等,可直接通过CMDB获取依赖关系。 图4 CMDB法 图5 CMDB法示例 关联分析工具法:可以通过专门的关联分析工具进行关联分析,比如华为云的MgC工具,也可以采用业界的一些关联分析工具。 表1 关联分析工具表 软件名称 是否商用 说明 Dynatrace 商用 Dynatrace平台包括出色的应用程序性能管理工具,能够提供自动的应用程序依赖关系映射。它可以发现和监控微服务和应用程序,甚至是那些在容器内运行的微服务和应用程序。它收集性能数据和通信时间数据,并突出显示性能不佳的服务和应用程序。 网络空间测绘 商用 网络空间测绘是一个应用和服务器发现工具。支持无代理自动发现,广泛支持MS和LINUX/Unix、云供应商、管理程序,硬件、虚拟和应用层;可用于多数据中心的远程收集。 Device42 商用 Device42是一个发现和映射工具,用于收集和组织整个IT环境上的数据。它包括设备发现和资产管理,以及专用的应用程序映射和管理功能。 它还可以检测网络设备,如交换机和负载均衡设备,以及电源和环境设备,包括PDU、UPS和CRAC设备。 艾联科iSRG动态智能系统 商用 艾联科iSRG动态智能系统资源图谱软件,提供传统网络/云/微服务/容器/虚拟系统的资源动态管理能力。包含资源的发现与采集,模板管理、资源管理、视图编辑等功能。 ManageEngine Applications Manager 商用 ManageEngine是一个应用程序管理器的工具。这是一个通用服务器和应用程序监控工具,它支持对服务器和数据库、虚拟机、应用程序、Web服务和其他组件的监控。 Datadog 商用 Datadog是一款具有应用程序监控和映射功能的性能监控工具。它可以在整个基础架构中收集信息,包括匹配特定客户、端点或错误代码的跟踪,它自动映射数据流,并可以按依赖关系组织服务。 Pinpoint 开源 Pinpoint可以跟踪分布式应用程序之间的事务,以检查整体结构和运行状况。Pinpoint可以实时监控应用程序,并清晰快速地了解应用程序拓扑。 Workshop头脑风暴法:可以通过组织专题会议,引导熟悉业务系统的骨干人员梳理关联关系。 图6 WorkShop法 配置分析法:配置分析法是一种通过分析应用系统的配置文件来探索关联关系的方法,它可以帮助我们了解应用之间的相互调用关系、应用与数据库之间的连接以及其它关联关系。以下是配置分析法的基本步骤: 收集配置文件:首先需要收集和获取与目标应用系统相关的配置文件。这可能包括DNS配置、ELB配置、NAT配置以及Nginx.conf等。 解析配置文件:对于每个配置文件,需要编写脚本或使用现有工具来解析其内容,脚本可以根据文件格式和语法规则,提取出关键信息并进行处理。 提取关联信息:在解析配置文件时,需要识别出与其他组件或资源相关的信息,例如,可以查找应用之间的相互调用关系,比如从一个应用到另一个应用的URL或API调用;还可以查找应用与数据库之间的连接信息,如数据库地址、用户名和密码等。 构建关联图谱:将提取到的关联信息组织成图谱或关系模型,这可以是有向图、无向图或其他合适的数据结构,用于表示应用间的关系和依赖。 分析关联关系:对于构建的关联图谱,可以使用图论算法或其他分析方法来探索关联关系,这可以帮助我们发现隐藏的依赖。 通过配置分析法,我们可以深入了解应用系统内部的关联关系,从而更好地理解整体架构和运行方式,这对系统迁移等方面具有重要的价值,然而,需要注意的是,配置文件可能会受到变更和更新的影响,因此在进行关联分析时需要及时更新和验证配置信息的准确性。
  • 缩略语 表1 缩略语(按照字母顺序) 缩略语 英文全称 中文全称 AIOps Artificial Intelligence for IT Operations 智能运维 AOM Application Operations Management 应用运维管理 服务 ALM Application Lifecycle Management 应用生命周期管理 CAF Cloud Adoption Framework 云采用框架 Capex Capital expenditure 资本支出 CBH Cloud Bastion Host 云堡垒机 CC Cloud Connect 云连接 CCE Cloud Container Engine 云容器引擎 CCI Cloud Container Instance 云容器实例 CCM Cloud Certificate Manager 云证书管理服务 CCoE Cloud Center of Excellence 云卓越中心 CFW Cloud Firewall 云防火墙 CMDB Configuration Management Database 配置管理数据库 CMM Cloud Maturity Model 云化成熟度模型 CNCF Cloud Native Computing Foundation 云原生计算基金会 COC Cloud Operation Center 云运维中心 CSMS Cloud Secret Management Service 云凭据管理服务 CSP Cloud Service Provider 云服务提供商或云服务商 CSR Corporate social responsibility 企业社会责任 DBSS Database Security Service 数据库安全服务 DC Direct Connect 云专线 DCMM Data Management Capability Maturity Assessment Model 数据管理能力成熟度评估模型 DDoS Distributed Denial of Service 分布式拒绝服务 DevOps Development and Operations 开发与运维 DevSecOps Development, Security, and Operations 开发、安全与运维 DEW Data Encryption Workshop 数据库安全服务 DSC Data Security Center 数据安全中心 ECS Elastic Cloud Server 弹性云服务器 EIP Elastic IP Address 弹性公网IP ELB Elastic Load Balancing 弹性负载均衡 ER Enterprise Router 企业路由器 ESW Enterprise Switch 企业交换机 EVS Elastic Volume Service 弹性云硬盘 FinOps Finance Operations 财务运营 GRC Governance, Risk & Compliance 治理、风险和合规 HSM Hardware Security Module 硬件安全模块 HSS Host Security Service 主机安全服务 IaaS Infrastructure as a service 基础设施即服务 IaC Infrastructure as Code 基础设施即代码 IAM Identity and Access Management 身份和权限管理 IDC Internet Data Center 互联网数据中心 IDP Internal Developer Platform 内部开发平台 IoT Internet of Things 物联网 ITSM IT Service Management 信息技术服务管理 ITSS Information Technology Service Standards 信息技术服务标准 KMS Key Management Service 密钥管理服务 KPS Key Pair Service 密钥对管理服务 LLM Large Language Model 大语言模型 MFA Multi-Factor Authentication 多因素鉴权 MSP Managed Service Provider 托管服务提供商 MTBF Mean Time Between Failure 平均无故障时间 MTTR Mean Time To Repair 平均故障修复时间 NAT Network Address Translation 网络地址转换 OACA Open Alliance for Cloud Adoption 云采用开放联盟 OBS Object Storage Service 对象存储服务 OLAP Online Analytical Processing 在线分析处理 OLTP Online Transaction Processing 在线事务处理 Opex Operational expenditure 运营支出 PaC Policy as Code 策略即代码 PaaS Platform as a service 平台即服务 PUE Power Usage Effectiveness 能源利用效率 QPS Query Per Second 每秒查询数 ROI Return of Investment 投资回报率 RPO Recovery Point Objective 恢复点目标 RTO Recovery Time Objective 恢复时间目标 SaaS Software as a Service 软件即服务 SCIM System for Cross-domain Identity Management 跨域身份管理 SCP Service Control Policy 服务控制策略 SecMaster Security Master 安全云脑 SFS Scalable File Service 弹性文件服务 SLA Service Level Agreement 服务水平协议 SLO Service Level Objective 服务水平目标 SNAT Source Network Address Translation 源地址转换 SOC Security Operation Center 安全运营中心 SRE Site Reliability Engineering 站点可靠性工程 SSO Single Sign-On 单点登录 TOGAF The Open Group Architecture Framework 开放企业架构框架 TPS Transactions Per Second 每秒事务处理量 VPC Virtual Private Cloud 虚拟私有云 VPN Virtual Private Network 虚拟专用网络 WAF Well-Architected Framework 卓越架构技术框架 WAF Web Application Firewall Web应用防火墙 父主题: 云采用框架简介
  • 干系人利益分析 识别干系人是制定云化转型战略的起点,您需要识别组织内部所有参与云化转型战略决策的干系人,并仔细分析干系人的利益诉求,与其共同识别云化转型的驱动力、分析云化收益,最终制定组织的云化转型战略。以下是一些常见的干系人和利益诉求,以及他们参与云化转型战略决策和项目执行的方式。 表1 云化转型干系人及利益诉求 干系人 主要利益诉求 参与方式 首席执行官(CEO) 推动企业战略目标的实现,提升业务敏捷性和市场竞争力。 促进收入增长和利润提升,确保企业的可持续发展。 降低运营风险,保障业务连续性。 加速业务创新,开拓新市场和新业务模式。 提升企业形象和社会责任,关注可持续发展。 全面领导云化转型战略的制定和实施,担任项目的最终决策者,确保云化转型战略与公司业务战略对齐。 协调各部门资源,确保跨部门合作。 定期审阅项目进展,提供战略指导和支持。 与高管团队一起识别和评估云化转型的驱动力和预期收益。 首席信息官(CIO) 提升IT部门的服务能力,支持业务需求的快速响应。 推动技术创新,提升技术架构的先进性和灵活性。 优化IT成本结构,提高资源利用效率。 加强信息安全,保障数据和应用系统的可靠性。 主导云化转型战略的技术规划和路线图制定,确保云化转型战略与公司业务战略对齐。 协调IT团队和其他业务部门的合作,确保技术方案符合业务需求。 管理云服务商的选择和合作关系。 监督云化转型项目的实施,确保项目按计划推进。 首席运营官(COO) 优化业务流程,提升运营效率和质量。 确保业务连续性,降低运营风险。 支持业务扩张和创新,满足市场需求。 参与云化转型战略的制定,提供运营层面的需求和建议。 协调运营部门的资源投入,支持项目的实施。 监督云化对业务运营的影响,确保平稳过渡。 首席技术官(CTO) 引入先进技术,提升企业的技术竞争力。 确保技术架构的可扩展性和灵活性,满足未来业务需求。 推广技术创新,支持新产品和服务的开发。 领导技术方案的设计和评估,确保云化转型的技术可行性。 指导技术团队的工作,确保技术实现与战略目标一致。 与CIO合作,制定技术标准和规范。 首席信息安全官(CISO) 保障信息安全,防范数据泄露和网络攻击。 确保符合行业和法律的合规要求。 维护企业声誉,避免安全事件带来的负面影响。 评估云化转型带来的安全风险,制定相应的安全策略。 指导安全团队实施安全控制措施,确保云环境的安全性。 与合规审计专家合作,确保安全和合规要求得到满足。 首席财务官(CFO) 优化财务绩效,降低IT成本,提升投资回报率。 管理资本支出和运营支出,改善现金流。 评估云化转型的财务风险和收益,支持战略决策。 基于云服务进行产品和业务创新,带来收入增长。 参与云化转型的成本收益分析,提供财务建议。 审核和批准项目预算和支出,确保资金有效利用。 制定云化转型的财务KPI,监督财务目标的实现。 业务主管 提升业务部门的绩效,满足市场和客户需求。 加速产品和服务的创新,拓展新的业务机会。 确保业务系统的稳定性和可靠性,支持日常运营。 提供业务需求和期望,参与云化转型方案的制定。 配合IT团队,确保技术方案符合业务需求。 协调业务团队的资源,支持项目的实施和变革管理。 IT主管 提升资源利用率,实现IT系统的弹性扩展,支持业务的快速增长。 通过云化降低IT成本。 利用云服务商的高可用性架构和安全防护措施,提升IT系统的稳定性和安全性,减少故障和安全事件的发生。 通过云化转型提升IT部门的价值。 辅助CIO制定云化转型战略和具体的云化目标。 选择适合组织的云服务模式,评估不同云服务商的方案,制定技术规范。 建立专门的云化转型团队,培养和引进云计算人才。 担任云化项目的总负责人,推进云基础设施的建设和业务系统的云化。 人力资源主管 规划和管理人才需求,支持云化转型所需的技能提升。 推动组织变革和文化转型,促进员工适应新的工作方式。 设计激励机制,激励员工参与和支持云化转型。 制定培训和发展计划,提升员工的云计算技能。 参与组织结构调整,确保团队配置满足云化转型的需求。 参与制定云化转型团队的KPI,监督KPI达成情况。 运维主管 提高运维效率,减少故障和停机时间。 实现运维自动化,降低人力成本。 提升系统的可用性和可靠性,支持业务连续性。 基于云平台的特点制定云运维流程和标准。 推广云运维工具的使用,实现自动化和智能化。 培训运维团队,提升云运维技能。 应用架构师 优化应用架构,提升系统性能、可扩展性和可靠性。 支持应用现代化,充分利用云服务的优势。 确保应用满足业务需求,具备敏捷性和灵活性。 设计应用的云化架构,指导开发团队的实现。 评估和选择云服务,确保与应用需求匹配。 解决云化过程中遇到的技术挑战,提供专业支持。 数据架构师 设计高效的数据架构,支持数据分析和业务决策。 确保数据的安全性和合规性。 实现数据的集成和共享,提升数据价值。 规划数据在云环境中的存储和管理方案。 选择合适的云数据库和大数据服务。 实施数据迁移和治理,维护数据质量,保障数据安全。 网络架构师 设计灵活可靠的网络架构,支持应用系统之间的连接需求。 确保网络安全和性能,满足数据传输要求。 实现网络的弹性和可扩展性,适应业务变化。 规划云网络架构,配置虚拟网络、子网、安全组等。 与安全团队合作,实施网络安全策略。 监控网络性能,优化网络配置。 合规审计专家 确保云化转型符合相关法律法规和行业标准。 降低合规风险,避免法律纠纷和罚款。 维护企业声誉,提升客户和合作伙伴信任。 识别云化转型中的合规要求,提供专业建议。 参与制定合规策略,确保云服务商符合要求。 定期审计和评估合规情况,提出改进措施。 IT治理专家 建立有效的IT治理框架,规范IT资源的使用和管理。 确保IT战略与企业战略的一致性,提升IT价值。 管控IT风险,提升决策透明度和责任明确性。 制定云化转型的治理策略和政策,明确职责和流程。 监控云化转型的进展和风险,提供治理报告。 协调各部门的沟通,确保信息共享和协同工作。 产品经理 加快产品开发和上市时间,满足市场需求。 引入新技术,提升产品竞争力。 收集客户反馈,持续改进产品。 制定产品需求,协同开发和运营团队。 利用云服务,快速验证和迭代产品。 分析产品数据,指导产品优化。 通过识别和分析这些干系人的利益诉求,可以更好地制定和执行云化转型战略,确保各方利益得到平衡和满足。 父主题: 制定战略
  • 概述 云计算从根本上改变了IT基础设施和应用系统的建设、运维和管理方式。传统模式下,组织通常需要购买、安装和运维自己的硬件和软件,包括服务器设备、存储设备、网络设备、虚拟化软件、操作系统、数据库管理软件和中间件等IT基础设施,资源部署周期长,运维负担重,初始投资大。 云计算模式下,IT基础设施的建设和运维由云服务商负责,组织只需关注应用系统的开发和部署,可以从云服务商按需获取上述各种资源,资源可以快速部署、调整和扩展,运维负担轻,并大幅降低了初始投资。云计算提供了巨大的灵活性、可靠性和扩展性,但整个组织的云化转型是一项系统性工程,涉及组织、流程和技术的方方面面,您的组织需要一个成熟且一致的方法确保云化转型的成功,最大化业务收益。 华为云云采用框架(Cloud Adoption Framework,简称CAF)是一个针对云化转型的端到端生命周期框架,涵盖云化旅程的所有阶段,包括制定战略、顶层规划、调研评估、方案设计、采用实施和运维治理。CAF提供了云化旅程各个阶段的方法论、最佳实践、工具和模版,可以帮助业务决策者、IT决策者、财务专家、运维专家和安全专家等干系人在云化旅程各个阶段做出正确决策,充分发挥云计算的价值。遵循CAF的最佳实践可让您的组织更好地对齐业务和技术战略,确保云化转型的成功。 CAF提供的方法、最佳实践、工具和模版来自于华为云、合作伙伴和客户上云、用云和管云的经验,华为云会持续基于不断积累的云化转型经验和认知升级对CAF进行迭代刷新,确保CAF提供的方法、最佳实践、工具和模版能够与时俱进。 父主题: 云采用框架简介
  • 云运维团队 云运维团队负责云基础设施的日常管理与维护,确保云基础设施的高可用性、高安全和高性能,协同应用运维管理员保障云上业务系统的长期安全稳定运行,并不断通过自动化和智能化技术提升运维效率。云运维团队通常包含云基础设施管理员、云网络管理员、数据库管理员和自动化工程师,职责和技能要求如下表所示。 表1 云运维团队的角色和职责 角色 职责 技能要求 来源 云基础设施管理员 负责云平台上存储、虚拟机、操作系统等基础设施的日常运维管理。 监控和优化云资源的使用效率,确保资源分配合理。 处理虚拟机、存储和操作系统相关的故障,保障系统的高可用性。 定期进行系统补丁更新和安全加固。 熟悉主流云平台的虚拟机和 云存储 服务。 掌握Linux和Windows操作系统的管理与优化。 熟悉云原生的监控运维工具。 具备一定的脚本编写能力。 具备良好的故障排除和问题解决能力。 IT部门 云网络管理员 负责云平台网络架构的设计、配置和日常运维,保障网络稳定和安全。 管理VPN、专线、VPC、子网、网络ACL、路由、负载均衡、防火墙等网络组件。 监控网络性能,排查网络故障,优化网络延迟和带宽使用。 确保网络安全,防范DDoS攻击等网络威胁。 熟悉云平台的网络服务(如VPC、VPN、专线、负载均衡、防火墙等)及其配置。 熟悉TCP/IP、HTTP、DNS、TLS等网络协议。 具备网络故障排查能力。 熟悉网络安全技术(如防火墙规则配置、入侵检测等)。 IT部门 中间件管理员 负责消息队列 (例如 Kafka, RabbitMQ),Web 服务器 (例如 Nginx, Apache),应用服务器 (例如 Tomcat, JBoss),缓存服务 (例如 Memcached, Redis) 等的安装、配置和维护。 监控中间件服务的性能指标,识别性能瓶颈,并进行调优以提高性能和效率。 快速诊断和解决中间件服务出现的故障和问题,确保业务的连续性。 熟练掌握常用的中间件技术,例如 Kafka, RabbitMQ, Nginx, Tomcat等。 熟悉主流云平台的中间件服务的部署和管理。 熟悉操作系统,例如 Linux, Windows Server 等。 了解 DevOps 理念和实践。 具备一定的脚本编写能力。 具备良好的故障排除和问题解决能力。 IT部门 数据库管理员 负责云上数据库的部署、配置、监控和维护。 确保数据库的高可用性和数据安全,定期进行备份和恢复演练。 优化数据库性能,解决查询慢、锁等待等问题。 管理数据库的权限和访问控制,确保数据合规性。 熟悉云平台的数据库服务和数据库管理服务。 熟悉主流数据库(如MySQL、PostgreSQL等)的管理。 掌握数据库性能优化技术(如索引优化、分库分表)。 具备数据库备份与恢复、主从同步、分布式架构的运维经验。 熟悉数据库安全策略和 数据加密 技术。 IT部门 自动化工程师 开发和维护自动化运维工具,提升运维效率。 实现云资源的自动化部署、监控和扩展。 编写脚本或代码实现日常运维任务的自动化。 推动智能化运维技术的应用,如AIOps。 熟悉自动化工具(如Ansible、Terraform、SaltStack等)。 掌握脚本语言(如Python、Shell)和云平台API的使用。 具备DevOps理念,熟悉CI/CD流程和工具。 了解AIOps相关技术。 IT部门 父主题: 云卓越中心
  • 概述 企业云化转型是一项复杂和系统的工程,涉及组织和流程、平台和架构、运维和管理等多个层面。如同建造摩天大楼,在挖地基之前就需要设计蓝图,企业在构建云基础设施和将业务系统上云之前,也需要进行全面而清晰的顶层规划。只有在充分的规划和准备下,才能最大程度地发挥云的优势,实现业务价值的最大化。 在组织和流程方面,首先需要设计云卓越中心CCoE(Cloud Center of Excellence)。CCoE作为推动企业云化转型的核心团队,负责制定云标准、最佳实践和治理框架,协调各业务单元之间的合作,确保云化转型的高效推进。此外,应用生命周期管理流程也需要进行变革,传统的开发和部署模式难以适应云环境的快速迭代需求,引入敏捷开发、DevOps等先进方法,可以提高开发效率,缩短交付周期,提高对市场变化的响应能力。 在平台和架构方面,Well-Architected Framework(WAF)提供了一套最佳实践和架构设计原则,帮助企业在云上构建高安全、高可用、高性能且成本优化的云基础设施和应用系统。Landing Zone 的规划和设计则为企业提供了安全合规、易扩展的云上多账号运行环境,可以加速应用部署并提高安全性。此外,平台工程的规划设计也很重要,它为开发团队提供标准化的工具、流程和基础设施支持,提高开发效率、减少复杂性,并加速软件交付。 在运维和项目管理方面,云运营模式的设计对于高效协同CCoE和应用团队至关重要。根据企业内部的协作方式和应用系统的特征建立最合适的云运营模式,可以有效保障应用系统的敏捷迭代和稳定运行。同时,制定详尽的云化转型项目管理计划,涵盖项目计划、项目任命、进度管理、风险管理等方面,能够确保各项工作按计划有序推进,提升项目的透明度和可控性,降低实施过程中的不确定性。 总而言之,企业要成功实现云化转型,必须在前期进行充分的顶层规划和设计。这包括构建卓越的组织结构、优化的流程、高效的平台和架构、完善的云运营模式和项目管理。缺乏这些关键的顶层设计,可能导致大量应用系统上云后的混乱无序和风险激增,事后整改不仅成本高昂,还可能对业务系统的稳定性造成严重冲击。因此,前期的顶层规划对于云化转型的顺利实施和长期成功至关重要。 父主题: 顶层规划
  • 技术驱动力 在数字化时代,云计算已成为企业技术战略的核心。对于CIO、CTO和技术主管而言,云化转型不仅是业务发展的需求,更是技术创新和变革的必然选择。云计算提供的技术优势,在资源弹性、系统韧性、扩展性、安全性和运维效率等方面实现飞跃。这些技术驱动力是业务驱动力和财务驱动力的底层技术支撑。 提升资源弹性 资源弹性是云计算的核心特性之一,是指云平台能够根据业务需求,按需对业务系统所需的计算、存储和网络等资源进行快速扩容和缩容。提升资源弹性可以有效提升业务敏捷性和业务连续性。 动态资源调配:云计算支持按需分配资源,企业可以在业务高峰期迅速扩展资源规模,以应对流量激增;在业务低谷期,则可以释放闲置资源,降低成本。 自动化伸缩:通过自动化的监控和调度机制,云平台能够根据预设的策略和实时的负载情况,自动进行资源的伸缩。 快速部署和回收:相较于传统的硬件采购和部署周期,云上资源的创建和销毁可以在几秒或几分钟内完成,大幅提高了资源的弹性速度。 提升系统韧性 系统韧性是指系统在面对各种外部灾难和内部软硬件故障时,仍然能够维持正常运行或快速恢复的能力。云平台和云服务能够大幅提升应用系统的韧性,从而有效提升业务连续性。 高可用架构:云服务商提供多地域、多可用区的部署模式,支持应用系统设计跨机房、跨地域的容灾和双活方案,甚至跨多个地域的多活方案,大幅提升应用系统的可用性和容灾能力。 灾备和容灾:云平台内置了数据备份、容灾切换等功能,帮助企业构建完善的灾难恢复方案,在突发事件中保障系统可用性。 服务等级协议(SLA):云服务通常提供99.9%以上SLA,可以有效保障基于这些云服务构建的应用系统的可靠性SLO(Service Level Objective)。 故障自动化处理:云平台具备自动检测故障和自动恢复的能力,减少人为干预,缩短故障处理时间。 提升扩展性 扩展性指一个系统在面对不断增加的工作负载或请求时,在不改变系统架构或对现有系统进行最小修改的情况下,通过添加或调整资源(例如服务器、存储、带宽)而保持性能稳定、效率不降低的能力。云平台和云服务可以大幅提升应用系统的扩展性,平滑处理不断增加的用户、数据或事务量,而不会导致性能下降或系统崩溃。提升系统扩展性可以有效提升业务敏捷性和连续性。 分布式架构:云平台支持分布式系统架构设计,允许应用程序在多个服务器或节点上运行,分散负载,避免单点故障,提高系统的扩展性和可用性。 自动弹性伸缩:利用云平台的自动化伸缩功能,系统可以根据预设的策略自动增加资源实例,以应对流量高峰,保持性能稳定。 微服务架构:云平台天然适合微服务和容器化部署,支持应用拆分和独立扩展,提升灵活性和可维护性。 无服务器计算:云平台提供的无服务器计算服务(如 FunctionGraph)允许用户将代码部署到云端,而无需管理服务器。云平台会根据请求自动分配计算资源,并在请求处理完成后释放资源。这种模式极大地简化了扩展性管理。 提升安全性 安全性是指保护数据和应用系统免受未经授权的访问、使用、泄露、篡改、破坏或损失的能力。云服务商在信息安全领域投入巨大,为企业提供了多层次的安全保障。提升安全性可以有效提升业务连续性。 云平台安全:云服务商的云平台符合严格的安全标准和认证,如ISO 27001、CSA、SOC 1/2/3、安全等级保护、PCI-DSS、NIST CSF等。 丰富的云原生安全服务:云服务商提供主机安全、数据安全、应用安全、网络安全、身份安全和运维安全等丰富的云原生安全服务,帮助企业在云上为应用系统快速构建全方位的安全防线。 提升运维效率 运维效率是指IT运维团队以最少的资源投入(人力、时间、成本),管理尽可能多的IT资源,并保持高服务质量和稳定性的能力,它体现了资源利用率和人员生产力。企业采用云计算之后可以大幅提升运维效率,进而有效降低运维成本。 无需管理IT基础设施:云服务商负责云数据中心、硬件、网络、虚拟化等IT基础设施的运维,企业只需要聚焦应用系统的运维。 智能监控系统:云服务商提供全栈和智能监控系统,能够实时收集、分析云资源及应用性能指标,自动识别异常,预测潜在风险,并提供告警和可视化报表,帮助运维人员快速定位故障。 自动化运维:云服务商提供自动化部署、配置管理、监控告警和运维等工具,减轻运维人员的工作负担,提高运维效率。自动化运维还降低了人为错误的风险,从而减少了不必要的纠错工作。 无服务器架构:如果企业采用函数计算等Serverless服务,企业只需编写业务逻辑代码,无需管理任何服务器,将进一步减轻运维负担。 提升性能效率 提升性能效率的目标是用更少的IT资源处理更多的业务请求,最终体现在更高的吞吐量、响应时间或并发用户数等关键性能指标上。借助云服务商提供的云上卓越架构设计原则和性能检测和优化工具,企业可以有效提升系统的性能指标。 选择合适的资源: 根据业务实际需求选择最合适的计算、存储、中间件和数据库等资源的规格等,同时避免过度配置造成资源浪费。 性能测试和规划:基于云平台提供的性能测试工具评估应用系统当前的性能指标,再结合业务需求增长趋势提前进行容量规划。 性能优化: 挖掘现有资源的性能潜力,包括数据库查询优化、代码优化、使用缓存和 CDN加速 等,提升系统吞吐量和响应速度。 架构优化: 采用更有效率的架构模式。例如,使用异步处理和消息队列解耦系统组件,提高并发处理能力。 云化转型的技术驱动力为企业的IT战略和技术架构带来了深刻的变革。对于技术领导者而言,深入理解和利用这些技术驱动力将有助于: 制定前瞻性的技术战略,引领企业的数字化发展。 优化IT架构和资源配置,提升技术部门的价值贡献。 推动技术创新和业务融合,支持企业取得竞争优势。 父主题: 识别云化驱动力
  • 如何识别驱动力 识别驱动力是云化转型的前提,决定了组织是否有正当的理由开启云化转型。识别驱动力是一个比较复杂的过程,需要综合考虑企业的业务战略、业务需求、财务需求和技术需求,并要与高层和干系人达成一致。以下是推荐的步骤: 响应关键业务事件 企业高层的云化转型决策通常源于实际业务需求,而非凭空臆想。关键业务事件往往是促成云化转型的契机,因此,必须充分考虑企业当前和未来可能面临的关键业务事件。以下是一些常见的能够推动云化转型的关键业务事件。 数字化转型: 企业进行数字化转型,需要更先进的IT技术和平台支撑,云平台可以提供丰富的数字化工具和服务。 数据中心退役:现有数据中心即将到期或设备老化,需要进行更新换代,迁移上云成为一个具有吸引力的选择。 合并和拆分: 企业收购、合并或拆分会对IT基础设施产生重大影响,云服务的灵活性可以帮助企业快速调整IT资源,适应新的组织架构。 现金流紧张: 企业现金流比较紧张,希望降低资本支出,包括IT基础设施的投资,将Capex转化为Opex,云服务的按需付费模式可以满足这一需求。 关键技术终止服务: 现有关键技术的提供商即将停止支持服务,需要进行升级或迁移,上云可以提供更现代化、更可靠和更安全的技术方案。 法规遵从变化: 新的法规或合规性要求可能需要企业对IT系统进行调整,云平台通常能够更好地满足这些要求。 关键业务系统中断: 企业经历过关键业务系统的中断,收入和声誉受损,希望提高业务系统的可靠性,云平台可以提供更高的可靠性和容灾能力。 碳排放未达标: 企业希望降低能源消耗和碳排放,提升企业社会责任形象,云数据中心通常采用先进的能源管理和冷却技术,能源效率更高。 市场快速变化: 市场环境和客户需求快速变化,企业要加快产品上市速度,云平台提供更灵活和更弹性的IT基础设施,支持产品和新特性快速上市。 遭遇安全攻击: 企业近期遭遇了黑客攻击,希望提高业务系统和数据的安全性,抵御攻击和数据泄露,云平台可以提供更全面和更强大的安全防护措施。 将关键业务事件映射到驱动力 将第一步中识别出的关键业务事件与云化转型的驱动力关联起来,可以更清晰地理解云化转型如何应对这些关键业务事件带来的挑战。 表1 关键业务事件和驱动力的映射 关键业务事件 业务驱动力 技术驱动力 财务驱动力 数字化转型 提升业务敏捷性 加速业务创新 提升业务连续性 市场扩张 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 新增收入 数据中心退役 - 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 提升运维效率 提升性能效率 按需付费 降低成本 合并和拆分 提升业务敏捷性 提升资源弹性 提升扩展性 - 现金流紧张 - 提升资源弹性 提升运维效率 提升性能效率 按需付费 降低成本 关键技术终止服务 提升业务连续性 提升资源弹性 提升系统韧性 提升扩展性 提升安全性 - 法规遵从变化 合规遵从 提升安全性 - 关键业务系统中断 提升业务连续性 提升系统韧性 提升性能效率 - 碳排放未达标 提升可持续性 - - 市场快速变化 提升业务敏捷性 提升资源弹性 提升扩展性 新增收入 遭遇安全攻击 提升业务连续性 提升安全性 - 确定驱动力的优先级 并非所有业务事件都具有相同的紧迫性和重要性,您需要根据企业的业务战略和业务现状,对已识别的驱动力进行优先级排序。例如,对于一家正在进行数字化转型的企业来说,“提升业务敏捷性”和“加速业务创新”的优先级更高。而对于一家面临现金流紧张的企业来说,“按需付费”和“降低成本”的优先级更高。这些优先级将决定未来进行方案设计时,应该优先考虑哪些方面。比如在韧性、安全和成本产生冲突时,对现金流紧张的企业来说,就要优先考虑成本低的设计方案,在安全、韧性方面可能就会有所妥协。 与高层和干系人对齐 在确定了云化转型驱动力和优先级之后, 将云化转型驱动力和优先级、预期收益清晰地记录下来,与企业高层和干系人进行沟通和对齐,听取他们的意见和建议,获取他们的理解和支持。 父主题: 识别云化驱动力
共100000条