实时数据融合平台-用户案例
「民生银行」企业级实时数据同步管道平台
民生银行简介:
中国民生银行是中国大陆第一家由民间资本设立的全国性商业银行,成立于1996年1月12日。经过24年的经营,资产规模6.7万亿元、股东权益逾5300亿元、分支机构近2600家、员工近5.9万人的大型商业银行,在英国《银行家》杂志“全球1000家大银行”排名中居第28位,在美国《财富》杂志“世界500强企业”排名中居第232位。
民生银行面临的挑战:
开发难度高:开发环境搭建和开发语言学习难度高,涉及多种分布式技术组件使用代码开发和组件调优难度大;
测试难度高:测试数据模拟麻烦,单元测试工具支持度低,联调环境链路涉及系统较多,测试环境资源不足;
投产风险高:关联组件的配置文件和配置项多,作业任务环境信息和配置参数多,验证环境少,配置和环境信息出错引发投产问题风险高;
运营难度高:错误和异常数据难以追溯;实时任务的业务监控和任务运行状态监控相对传统应用来说比较难使用行内现有监控系统完成;
人员储备不足且流失频繁:实时开发资源池人员流失频繁,满两年离职率100%,能独立完成重要实时任务的开发人员不足五人;
招聘难度大:市面上有实时任务开发经验的人员对薪酬和发展空间要求较高,团队多数开发人员是从传统 数据仓库 开发人员招聘的。
主要应用场景:
客户行为等实时数据的标准化补全并分发到各个应用系统;
业务系统的实时账户变动与指标变化传输到GaussDB作为实时头寸的计算依据;
实时数据加载到Redis作为业务实时查询使用;
主数据系统数据和数据仓库数据加载到SequoiaDB作为历史数据查询使用。
财通证券实时数据采集平台
财通证券简介:
财通证券有限责任公司总部位于中国杭州,其前身是成立于1993年5月的浙江财政证券公司。公司经营范围为:证券经纪,证券自营,证券资产管理,证券投资咨询等,截止2017年6月末,财通证券共设有113家证券营业部,其中95家分布在浙江,占比83.9%。
2018年,财通证券将“金融科技发展战略”定为公司战略,以打造一流的数字生态证券作为战略目标。
财通证券面临的挑战:
数据安全 :核心交易系统部署在核心区,而下游风控、反洗钱、经营分析等系统部署在非核心区,核心区与非核心区之间存在网络隔离,需要通过跳板机;
难以灵活应对数据源变化:数据源发生变化时,需要修改任务的配置和脚本,灵活性差。且核心交易系统在夜间完成数据清算后,需工程师手动同步数据,费时费力;
缺少监控预警:需要依赖下游用数环节判断数据是否存在异常,缺少过程监控和预警;
DataPipeline 解决方案 :
实施跳板机:适配安全隔离网络架构,自动完成跨网的数据采集、中转、处理;
智能分区:识别清算数据表的日期变化,自动触发数据同步任务;
灵活取数:针对无主键数据,可灵活设置过滤规则,同步指定的增量数据;
实时监控:Dat api peline产品对每一个数据同步任务提供实时监控,并支持实时推送告警信息给客户;
自动DDL同步:自动识别源端DDL、DML变化,并自动通步到下游,再也无需人工手动同步
中国人寿保险(海外)数据采集平台
客户背景
中国人寿保险(海外)股份有限公司是中国人寿保险(集团)公司的全资子公司,立足港澳新、面向国际,是中国人寿拓展海外业务的国际窗口,在香港拥有 35 年经营历史,在澳门拥有 30 年的经营历史。
面临挑战
取数慢:业务系统较多,核心系统产生的的海量数据,存放在异构系统中,需要大量人力进行数据整合与清洗。客户当前数据同步系统架构和性能都无法满足业务端实时取数和分析的需求。
运维难度大:没有可视化监控界面,无法查看同步的数据量,速率,每张表的同步状态等,定位问题难度大,费时久,发现错误难以调试,运维成本高。
自主可控 迁移 需求:将业务系统(SQL Server、MySQL、Oracle)的数据实时同步至 TiDB,经过清洗加工后以 API 的形式供其他厂商、合作机构进行数据查询服务,查询的内容包括邮件往来通知、通知书信息(如问卷、访谈等),要求 7*24 小时不停机。
解决方案
多源异构:兼容客户的 SQL Server、MySQL、Oracle、TiDB 等 数据库 ,快速实现异构数据源之间实时增量数据同步。
分布式架构:保障高并发量下数据传输的稳定性和时效性。
可视化运维:通过 DataPipeline 可视化界面进行表的配置,省时且不容易出错;通过可视化监控界面,及时查看同步的数据量,速率,每张表的同步状态等,及时发现问题降低运维难度。
中国石油数据采集平台
客户背景
中国石油天然气集团有限公司「简称:中国石油」是国有重要骨干企业和中国主要的油气生产商和供应商之一,是集油气勘探开发、炼油化工、销售贸易、管道储运、工程技术、工程建设、装备制造、金融服务于一体的综合性国际能源公司,在国内油气勘探开发中居主导地位,在全球 35 个国家和地区开展油气业务。2020 年,公司在世界 50 家大石油公司综合排名中位居第三,在《财富》杂志全球 500 家大公司排名中位居第四。
面临挑战
多源异构数据打通难:中国石油需要构建融合 Oracle、 MySQL、 PostgreSQL 等异构数据源到 Oracle 、HashData、Greenplum 的多条数据链路,自研难度较大。
自研产品表现不理想:中国石油自研了数据同步产品 DSB,采用代码方式实现数据传输链路,每个数据同步任务需要编制脚本,研发交付效率较低。没有图形化界面,任务状态监控等运维功能不直观,用户权限、安全等方面的管理功能不完善。
实时数据融合能力不足:中国石油需要实时将油田数据采集到 大数据 平台进行建模分析,自研的 DSB 只实现了定时数据同步,未能实现实时数据同步,实时数据融合较定时模式自研难度更大,稳定性、性能要求更高。
解决方案
多源异构:零代码部署后即可实现客户 Oracle、 MySQL、 PostgreSQL、HashData、Greenplum 等十余种数据库技术的打通,实现异构数据之间同步。
实时增量获取:通过 DataPipeline 解析数据库日志的方式,实现对 Oracle、MySQL、 PostgreSQL 的实时增量数据的准确获取。
可管理性:通过可视化管理页面和配置式构建数据链路,极大地提升了数据工程师的工作效率;运维人员通过可视化监控界面,及时查看任务执行情况,及时发现问题,提升了运维效率,降低了风险。
吉利汽车集团实时数据采集平台
客户背景
1986 年诞生的吉利集团,经过 34 年的发展,确立了其中国品牌汽车领袖的市场地位,进入全球汽车行业第一阵营。2019 年,吉利集团旗下各品牌在全球累计销售汽车超 217.8 万辆,市占率从 6.2% 提升至 6.5%,全年营收 974 亿元,净利润 82.6 亿元。在全球汽车市场遇冷的情况下,吉利集团实现逆势增长。
面临挑战
数据源繁多,数据量大:营销系统、ERP 系统、分析系统等系统产生的数十亿条数据的整合,打通 Oracle、SQL Server、MySQL、Kafka、Hive、API 等数据源到 Hive、MySQL、HBase、Kafka 等目的地之间的高效数据交互,实现难度较大。
实时数据采集难度高:Oracle、SQL Server、MySQL、Kafka 等数据实时采集难度较大。
解决方案
多源异构支持:兼容客户的 Oracle、SQL Server、MySQL、Kafka、Hive、API、HBase 等数十种数据库管理技术。实现营销系统、ERP 系统、分析系统等系统产生的数十亿条数据的整合。
实时采集支持:利用解析数据库日志的方式,实现 Oracle、MySQL、MS SQL Server 秒级的数据变更捕获,将解析的变更记录传送到数据目的地中,包括日志中提取数据变更的增、删、改等DML操作记录,以及新增表、删除表、添加字段、删除字段等自动同步到目的地中 。
可视化管理:统一的可视化管理页面,提供平台级别的 数据管理 功能,包括用户权限、数据时效管理和安全管控等方面功能,为数据工程师、运维人员提供直观的数据任务地图,随时可以洞悉数据的最新动态,极大提升运维工作效率和效益。