检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Insight,简称DLI) 完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽
扩展性和容错性,以支持大规模数据的存储和访问需求。 大数据计算: 大数据计算是对海量数据进行分布式、并行和实时处理的关键环节。主要的计算框架包括Hadoop、Spark、Flink等,它们支持分布式计算模型和任务调度。通过这些计算框架,可以进行数据处理、特征提取、机器学习、数据挖掘等复杂的计算和分析任务。
业务连续性的平衡。 MySQL迁移方案 表1 MySQL迁移方案 迁移方式 迁移方式 特点 适用场景 华为云DRS数据复制服务 (推荐) 全量+增量迁移 配置简单,一键迁移,支持实时同步增量数据 1.适用于自建或云服务MySQL实例迁移华为云服务MySQL实例 2.适用于自建或
目标数据库 最佳实践在线文档 其他云MySQL数据库 华为云RDS for MySQL 其他云MySQL迁移到云数据库 RDS for MySQL 华为云GaussDB(for MySQL) 其他云MySQL迁移到GaussDB(for MySQL) 其他云MongoDB 华为云DDS
如Azkaban、DolphinScheduler,Hera、Crontab等。 任务类型 基于编程语言分类: Jar类:常用于MRS、Flink、Spark等 SQL类: 常用于Hive、Spark、UDF等 Python类:常用于Spark、算法场景等 其他类:如Shell、Scala等,多用于脚本调用
Runbook操作步骤设计 Runbook中的每一步操作,都有明确的操作步骤、操作命令/脚本、串/并行标记、操作人、确认人、预估开始时间、结束时间、预估执行时长。切换方案不同,对应的Runbook的操作步骤也不同。切换方案可以分停服切换和不停服切换。不停服切换方案对应用架构的要求
Runbook要细化到每个执行命令,尽量脚本化或工具化,操作人直接执行即可,不需要现场临时定制,避免出现人为事故。 Runbook步骤中有并行操作和串行操作,要标记好串并行顺序,避免人为操作不当影响切换时长和切换结果。 Runbook的每个切换操作都可能会执行失败,要提前分析每个步骤发生执行失败
AZ整体宕机情况,确保集群始终有一份完整的副本确保数据高可用。 图6 中间件层Sorl高可用设计示例 数据层- MySQL高可用 主备实例跨AZ部署,借助原生MySQL主从复制同步能力实现主备间数据同步。 主备实例以VIP对外提供服务,自身IP不对租户开放。 主备秒级切换,主备切
法是使用BulkLoad方式向HBase中批量导入本地数据,在首次数据加载时,能极大的提高写入效率,并降低对Region Server节点的写入压力。详细操作指导请参考官网文档。 MySQL数据迁移到MRS集群Hive分区表 Hive的分区使用HDFS的子目录功能实现,每一个子目
深入理解数据建模、数据仓库、数据湖、数据治理等概念和技术。 熟悉各种数据库技术,包括关系型数据库和NoSQL数据库。 熟悉大数据技术,例如Hadoop、Spark、Flink等。 具备数据分析和数据挖掘能力。 熟悉数据安全和数据隐私相关的法规和标准。 具备良好的沟通和团队协作能力。 大数据部门或外聘 父主题:
数据调研主要包括如下方面: 表1 数据调研方法表 调研内容 调研目的 举例 数据类型 根据数据类型选择合适的迁移工具 HDFS、HBase、MySQL等 数据量 历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。 历史数据X PB 日增量Y TB 数据分层
们处理的数据类型和数据流转的方式。 调研用于处理实时数据和离线数据的组件,例如实时数据可能使用Apache Kafka、Apache Flink等,离线数据可能使用Hadoop、Spark等。 调研数据格式类型和压缩算法: 调研平台对数据的安全性和权限控制机制,例如数据加密、用户访问权限管理等。
优化数据库性能,解决查询慢、锁等待等问题。 管理数据库的权限和访问控制,确保数据合规性。 熟悉云平台的数据库服务和数据库管理服务。 熟悉主流数据库(如MySQL、PostgreSQL等)的管理。 掌握数据库性能优化技术(如索引优化、分库分表)。 具备数据库备份与恢复、主从同步、分布式架构的运维经验。
员多,操作时间长的场景,也可以设计2~3名引导人,互为备份),引导人需要对整个Runbook非常熟悉,尤其对于每个步骤执行时序,多个步骤的并行情况要熟悉。 父主题: 设计Runbook
数据库检查项 数据库相关 检查华为云数据库端口是否和生产保持一致 是 否 数据库相关 检查NTP时钟设置是否一致 是 否 数据库相关 检查中间件Reids数据迁移任务状态正常,无异常报错或告警(包含回退任务) 是 否 数据库相关 检查DRS-mysql数据迁移任务状态‘增量迁移中’,
团队配合:演练可以让团队成员熟悉切换的全流程和切换步骤,从而更好地协同工作,提高团队配合效率。 优化Runbook:演练过程中可以识别出切换步骤的问题,比如整体串并行顺序问题以及某个步骤执行时间过长等问题,可以通过演练复盘优化Runbook步骤和时长,提高正式切换步骤的正确性和合理性,提高切换效率。 预
大数据三类数据的迁移方式 数据分类 迁移方法 元数据 HIVE元数据 导出源端HIVE元数据,导入华为云MRS-Hive 外置元数据MySQL 使用华为云DRS服务同步MySQL中的元数据到云上RDS 存量数据 Hive历史数据存放在HDFS 使用华为云CDM工具迁移所有历史数据到华为云MRS服务或华为云OBS存储(存算分离场景)
上云试点执行与总结 上云试点执行 试点应用选择好以后,上云迁移试点按照应用迁移小循环流程执行即可,最后输出试点总结: 图1 迁移小循环流程 上云试点总结 上云迁移试点总结旨在总结试点项目的成果、经验和教训,并为后续的大规模迁移提供指导和改进方向。这对于企业切实评估上云的收益、风险
集群部署,单AZ的故障不影响业务运行; RDS for MySQL采用主备部署方式,主备实例之间的数据实时同步,如果主实例出现故障,备实例可以快速升为主实例; Redis、Kafka、CSS云搜索、RDS for MySQL都支持把数据备份到OBS桶,应对数据误操作之后的风险;
应用类型 接入层 应用层 中间件层 数据层 接入域名 备注 应用名称 NAT NGINX 主机数量 IP地址 Redis Kafka MQ MySQL Mongo 内部/外部域名 WAF 备注 也可参考下图绘制应用的部署架构图: 调研方式如下图所示: 图1 调研方式 调研技术组件的详细信息