充分利用
云数据仓库无缝对接Hadoop
GaussDB(DWS)可以无缝对接HDFS存储,通过外表机制,能够交互式查询分析Hadoop平台的数据,支持ORC/txt/csv/Parquet等文件格式,提供 大数据 分析能力。 基于Shared-nothing/MPP的对等并行计算模型可以充分利用CPU/IO/Mem等资源,获得极致的运算性能和线性的可扩展性,从而支持PB级数据规模。 1.兼容标准SQL SQL兼容SQL92/99/2003标准,支持存储过程,降低应用开发成本和 迁移 成本。 2.完备的事务支持 支持HDFS平台通用的ORC格式数据增删改,提供大数据平台互联互通能力。基于MVCC、两阶段提交分布式事务管理技术,支持ACID全事务能力。采用Smart Insert行列存混合存储引擎,支持数据智能分配存储,支持高速数据更新。 3.交互式的性能体验 基于MPP全并行异步Pipeline分布式执行框架,向量化执行引擎,谓词下推智能过滤扫描,LLVM等关键技术,实现内核引擎极致性能,支持高性能交互式查询分析。
云数据仓库全并行计算
GaussDB(DWS)实现了一套高效能的分布式执行引擎,充分利用集群中各节点的资源,发挥并行计算的极致性能。 图片 GaussDB(DWS)的全并行计算 https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/hjm/dwshxjs.png 如图,GaussDB(DWS)的全并行计算核心技术如下: MPP节点并行 分布式执行框架,VPP用户态TCP协议,支持>1000服务器,万级CPU核并行计算。 SMP(Symmetric Multi-Processing)算子并行 采用多线程并行算法执行同一个SQL,充分利用多核CPU资源,支持众核(>64 cores),NUMA架构优化。 SIMD(Single Instruction Multiple Data)指令级并行 一个指令执行一批数据的操作,支持X86,ARM指令。 LLVM(Low Level Virtual Machine)动态编译 将热点函数预编译成机器码,减少SQL执行指令数,提升性能。