云服务器内容精选

  • 跨域关键技术和优势 无单点瓶颈:HSFabric可进行水平扩展,多通道并行传输,速率最大化,跨地域延迟不再成为瓶颈。 更好地计算资源利用:将数据压缩,序列化的任务下推到Worker并行计算。 高效序列化:优化数据序列化格式,同等数据量级下,更低的数据传输量。 流式传输:基于HTTP 2.0 stream, 保证HTTP协议通用性的同时,减少大量数据传输中RPC 重复调用。 断点续传:防止数据传输过程中连接异常断开后重传大量数据。 流量管控:支持按地区限制数据传输所占用的网络带宽,避免在跨地域有限带宽场景下因流量独占而影响其他业务的正常使用。
  • 跨源功能使用指导 HetuEngine能够支持多种数据源的快速联合查询并提供可视化的数据源配置、管理页面,可通过HSConsole界面快速添加如下数据源,配置数据源前请先参考HetuEngine交互查询引擎概述: 添加Hive数据源 添加Hudi数据源 添加ClickHouse数据源 添加GAUSSDB数据源 添加HBase数据源 添加跨集群HetuEngine数据源 添加IoTDB数据源 添加MySQL数据源
  • 约束 HetuEngine支持对接ClickHouse操作的SQL语法:SHOW CATA LOG S/SCHEMAS/TABLES/COLUMNS、DESCRIBE、USE、SELECT 表/视图。 HetuEngine支持对接ClickHouse操作的表和视图: 名称 支持对接ClickHouse操作的表、视图 HetuEngine支持对ClickHouse操作的表 本地表(MergeTree) 复制表(ReplicatedReplacingMergeTree) 分布式表(Distributed) HetuEngine支持对ClickHouse操作的视图 普通视图(Normal) 物化视图(Materialized)
  • 数据类型映射 ClickHouse数据类型到HetuEngine数据类型映射 ClickHouse类型 HetuEngine类型 BOOLEAN BOOLEAN UInt8 SMALLINT UInt16 INTEGER UInt32 BIGINT UInt64 DECIMAL(20, 0) Int8 TINYINT Int16 SMALLINT Int32 INTEGER Int64 BIGINT Float32 REAL Float64 DOUBLE Decimal(P, S) DECIMAL(P, S) Decimal32(S) DECIMAL(P, S) Decimal64(S) DECIMAL(P, S) Decimal128(S) DECIMAL(P, S) IPv4 VARCHAR IPv6 VARCHAR UUID VARCHAR Enum8 VARCHAR Enum16 VARCHAR String VARCHAR / VARBINARY Fixedstring(N) VARCHAR / VARBINARY Date DATE DateTime TIMESTAMP
  • MySQL与HetuEngine数据类型映射 MySQL数据类型到HetuEngine数据类型映射 MySQL类型 HetuEngine类型 BIT BOOLEAN BOOLEAN TINYINT TINYINT TINYINT SMALLINT SMALLINT INTEGER INTEGER BIGINT BIGINT DOUBLE PRECISION DOUBLE FLOAT REAL REAL(m, d) REAL(m, d) DECIMAL(p, s) DECIMAL(p, s) CHAR(n) CHAR(n) VARCHAR(n) VARCHAR(n) TINYTEXT VARCHAR(255) TEXT VARCHAR(65535) MEDIUMTEXT VARCHAR(16777215) LONGTEXT VARCHAR ENUM(n) VARCHAR(n) BINARY, VARBINARY, TINYBLOB, BLOB, MEDIUMBLOB, LONGBLOB VARBINARY JSON JSON DATE DATE TIME(n) TIME(n) DATETIME(n) TIMESTAMP(n) TIMESTAMP(n) TIMESTAMP(n)
  • 前提条件 数据源与HetuEngine集群节点网络互通。 集群已启用Kerberos认证(安全模式)创建HetuEngine管理员用户,集群未启用Kerberos认证(普通模式)创建HetuEngine业务用户,并为其赋予HDFS管理员权限,即创建用户时需同时加入“hadoop”和“hadoopmanager”用户组,创建用户可参考创建HetuEngine权限角色。 已创建HetuEngine计算实例,可参考创建HetuEngine计算实例。 已获取MySQL数据库所在的IP地址,端口号,用户名及密码。
  • 前提条件 数据源所在集群 域名 与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。 在HetuEngine所在集群的所有节点的“/etc/hosts”文件中,添加待对接数据源所在集群的主机名称和对应的IP映射,及其“/etc/hosts”文件中的“10.10.10.10 hadoop.系统域名”(如“10.10.10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。
  • 数据类型映射 目前Hive数据源支持的数据类型为:BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、REAL、DOUBLE、DECIMAL、NUMERIC、DEC、VARCHAR、VARCHAR(X)、CHAR、CHAR(X)、STRING、DATE、TIMESTAMP、TIME WITH TIMEZONE、TIMESTAMP WITH TIME ZONE、TIME、ARRAY、MAP、STRUCT、ROW。
  • 性能优化 元数据缓存 Hive连接器支持元数据缓存,以便更快地提供对各种操作的元数据请求。可参考调整HetuEngine元数据缓存。 动态过滤 开启动态过滤有助于Hive连接器的Join算子的计算优化。可参考调整HetuEngine动态过滤。 带分区条件查询 建立分区表并且查询带分区过滤条件有助于过滤部分分区数据,从而提高性能。 Insert优化 通过设置“task.writer-count”的值为“1”和增大“hive.max-partitions-per-writers”的值有助于提升Insert性能。可参考调整HetuEngine INSERT写入优化。
  • 操作场景 HetuEngine服务在安装时已经将共部署(与HetuEngine在同一个Hadoop集群)的Hive数据源默认实现对接,数据源名称为“hive”,不可删除。部分默认配置不可修改,如数据源名称,数据源类型,服务端Principal,客户端Principal等。但当环境配置发生变化时,如修改了本集群的“本端域”域名,重启HetuEngine服务可以自动同步共部署Hive数据源的相关配置,如服务端Principal,客户端Principal。 HetuEngine目前支持对接的数据格式包括:avro、text、rctext、orc、parquet、sequencefile。 HetuEngine对接Hive数据源,不支持指定多分隔符建表,但对于在Hive数据源中指定MultiDelimitSerDe类作为序列化类来创建text数据格式的多分隔符表,可以通过HetuEngine查询,其他场景不支持。 HetuEngine对接的Hive数据源支持Hudi表重定向功能。适用于 MRS 3.3.0及以后版本。该功能支持在Hive connector访问Hudi表时重定向到Hudi connector,从而使用Hudi connector高级功能。使用该功能需提前配置目标Hudi数据源,并确保Hudi数据源与当前Hive数据源的Metastore URL一致,并在Hive数据源中配置“开启Hudi重定向”参数即可。 若需要使用Hive Metastore隔离功能,需要在Hive侧配置“HIVE_METASTORE_URI_HETU”,配置完成后需要重启HetuEngine服务的HSBroke实例,刷新Hive Metastore URI信息。 本章节指导用户在HSConsole界面添加集群外部的Hive类型数据源。