检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云运维团队 云运维团队负责云基础设施的日常管理与维护,确保云基础设施的高可用性、高安全和高性能,协同应用运维管理员保障云上业务系统的长期安全稳定运行,并不断通过自动化和智能化技术提升运维效率。云运维团队通常包含云基础设施管理员、云网络管理员、数据库管理员和自动化工程师,职责和技能要求如下表所示。
具备良好的代码设计和开发能力。 了解应用安全最佳实践。 具备良好的沟通和团队协作能力。 业务部门 应用开发工程师 将现有应用迁移到云平台,包括代码迁移、数据迁移、数据库迁移等。 负责应用现代化改造,如将单体应用拆分为微服务,或采用Serverless和事件驱动架构。 对现有代码进行重
业务中断、造成不必要的成本浪费和增加维护难度。以下是一些常见的云采用实施阶段的反模式: 未采用自动化部署模式 该反模式是指企业依赖手动进行代码、云资源的配置和部署,效率低,人为错误高。 优化建议:采用自动化的配置和部署工具,如Terraform、CI/CD等,以提高云资源部署的效率和准确性。
和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。 大数据集群迁移:将大数据集群(包括存储、计算和管理组件)迁移到新的运行环境,包括集群的重新
软件开发生产线(CodeArts)是面向开发者提供的一站式云端平台,即开即用,随时随地在云端交付软件全生命周期,覆盖需求下发、代码提交、代码检查、代码编译、验证、部署、发布,打通软件交付的完整路径,提供软件研发流程的端到端支持。 应用管理与运维平台(ServiceStage)是
写服务关停 应用层服务已做读写分离的场景,直接关停写服务或对应接口下线shutdown,读服务或对应接口保持在线,从而达到业务只读不写的效果。 图2 写服务关停方案 应用改造 应用代码进行读写分离改造,改造后再按照8.4.3.3写服务关停方案实施,实现只读不写的效果。 图3 应用改造方案
识和理解。他们可能提供有关应用程序的详细信息、依赖关系的描述以及与其他系统的集成情况。 代码分析 仔细检查应用程序的源代码,特别是配置文件和代码中涉及的外部依赖关系。因为有些依赖关系可能由代码直接指定。 系统扫描和监控 借助系统监控工具和网络扫描工具,扫描整个系统并识别出与应用程序相关的依赖关系。
平台调研 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研4部分信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。
需的预生产环境和生产环境。等应用系统完成开发和测试后,就可以直接在预生产环境和生产环境上部署运行。一种常见的场景是企业购买的是现成的商业软件(如ERP、CRM),基本上不涉及应用程序的代码开发工作,或者只需要很少的跟周边系统的集成开发工作,这种场景的应用上线时间很容易被硬件的采购和发货周期阻塞和延迟。
切换演练 在功能测试和性能测试完成之后,如果云端应用程序和服务运行稳定,就可以开始进行业务切换了。 业务切换是将业务从源端旧系统切换到云上新系统的过程,需要仔细规划和协调,以确保切换过程中不会影响数据的完整以及业务运行。 一般情况下,业务切换需要进行一定的时间,逐步切换流量,同时
署应用程序。 基础设施即代码(IaC):采用基础设施即代码的方法可以将基础设施配置和管理纳入代码库中。这样可以确保基础设施的可重复性、版本控制和自动化部署,从而提高整个环境的稳定性和可靠性。 集中日志和监控:通过集中管理日志和监控数据,可以实时了解系统运行状况,并及时发现和解决问
MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka等大数据组件。具体部署方法可参考MRS官网文档。 大数据任务调度平台部署 如果目标架构是采用华为云的任务调度平台DataArts
统在压力突增时的稳定性和容错能力,确保系统能够优雅地处理异常负载而不受影响。 长时间负载:模拟系统长时间运行的情况,一般持续数小时甚至更长时间。这种场景用于测试系统在长时间运行后是否会出现内存泄漏、资源耗尽等问题,以确保系统的稳定性和可靠性。 异常场景:模拟系统面临的各种异常情况
Service,简称MRS) MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群,完全兼容开源接口,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量
企业在云上的基础环境主要就是Landing Zone,企业在将任何业务系统云化之前,都需要提前规划和设计一个架构卓越、稳定可靠、易扩展和安全合规的云上运行环境。 具体内容请参考章节 Landing Zone设计。 企业需要针对云环境的安全防护设计全面的安全防护方案,请参考章节安全架构设计。 父主题:
迁移Jar类任务需要深入了解源端任务的源代码和依赖库,重新编译代码以生成适用于云环境的可执行Jar文件,并进行充分的验证和调优。可以参考以下步骤进行: 图4 Jar类任务迁移流程 前提:Jar类任务调试依赖的数据已完成迁移,迁移方法请参考前面的数据迁移部分的内容。 根据云上大数据资源配置,修改源代码,例如版本
章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。一般从如下三方面验证: 验证作业执行的成功率 在任务迁移完成后,对迁移后的大数据任务进行验证。这包括运行作业并检查作业的执行成功率。验证过程中,需要关注作业的状态、日志以及
置等方式,将实时数据上报到双跑的两个平台。 双平台同时运行 目标大数据集群、任务调度平台与原大数据集群、任务调度平台同时运行一段时间。在这段时间内,两个平台会并行处理任务,并产生相应的结果。 运行稳定性验证 在双平台同时运行期间,需要对目标大数据平台任务执行的稳定性、数据一致性进
等,以减轻自建数据库和消息队列的运维压力。 需要提高应用程序的性能或可扩展性。 不需要进行大规模代码修改,但希望优化应用程序在云平台上的运行。 Rearchitect 对应用程序代码进行重写或重构,以更好地适应云原生架构。例如,将单体应用程序重构为微服务架构,或者采用Serverless和事件驱动架构。
系统监控和运维:设置系统监控和告警,确保及时发现和解决潜在的问题。配置基础设施监控工具,监测服务器、存储、网络等关键指标,并确保日志记录和错误报警机制正常运行。 安全检查和漏洞修复:进行安全检查,查找可能存在的漏洞或弱点,并采取适当的补救措施来加强安全性。更新和修补系统和软件,确保使用的组件和版本都是最新的,并及时应用安全补丁。