检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
table dsrTable set tblproperties('hoodie.index.type'='xx'); Hive/Presto等引擎可以直接修改表属性,但是这种修改会导致整个Hudi表出现数据重复,甚至数据损坏;因此禁止修改上述属性。 父主题: Spark on Hudi开发规范
table t1 SYNC; 在删除复制表时,因为复制表需要在Zookeeper上建立一个路径,存放相关数据。ClickHouse默认的库引擎是原子数据库引擎,删除Atomic数据库中的表后,它不会立即删除,而是会在480秒后删除。在删除表时,加上SYNC字段,即可解决该问题,例如:drop
table t1 SYNC; 在删除复制表时,因为复制表需要在Zookeeper上建立一个路径,存放相关数据。ClickHouse默认的库引擎是原子数据库引擎,删除Atomic数据库中的表后,它不会立即删除,而是会在480秒后删除。在删除表时,加上SYNC字段,即可解决该问题,例如:drop
在数据迁移、一键均衡和退服缩容时,ClickHouse支持only_allow_select_statement表级参数,可以对mergetree系列表引擎配置only_allow_select_statement参数来限制alter、rename、drop、insert操作,只允许select操作。
in SQL增强 SQL中的Flink CEP CloudStream扩展为允许用户在SQL中表示CEP查询结果以用于模式匹配,并在Flink引擎上对事件流进行评估。 SQL查询语法 通过MATCH_RECOGNIZE的SQL语法实现。MATCH_RECOGNIZE子句自Oracle
ClickHouse消费Kafka数据异常 问题现象 用户在ClickHouse集群创建Kafka引擎表test.user_log_kafka消费Kafka数据,查看Kafka监控发现凌晨开始出现消息堆积,数据一直没有被消费。 原因分析 Kafka出现消息堆积,说明ClickHo
方法二:创建一个与database_name2.table_name2具有相同结构的表,同时可以对其指定不同的表引擎声明。 如果没有表引擎声明,则创建的表将与database_name2.table_name2使用相同的表引擎。 CREATE TABLE [IF NOT EXISTS] [database_name
前TimelineServer已经开启且正常运行。 在设置Hive执行引擎为Tez的同时,需要设置参数“yarn.timeline-service.enabled”为“true”,详情请参考切换Hive执行引擎为Tez。 父主题: Tez常见问题
前TimelineServer已经开启且正常运行。 在设置Hive执行引擎为Tez的同时,需要设置参数“yarn.timeline-service.enabled”为“true”,详情请参考切换Hive执行引擎为Tez。 父主题: Tez常见问题
database 原因分析 使用ClickHouse过程中,ClickHouse实例异常场景下,重复创建集群ReplicatedMergeTree引擎表,后续又进行删除表等操作导致ZooKeeper上的数据异常,致使ClickHouse启动失败。 解决办法 备份问题节点数据库下所有表数据到其他目录。
输入用户密码 参考Kafka引擎表使用语法说明,在ClickHouse中创建Kafka引擎表。例如,如下建表语句在default数据库下,创建表名为kafka_src_tbl3,Topic名为kafkacktest2、消息格式为JSONEachRow的Kafka引擎表。 create table
为了保证ClickHouse服务的稳定,需要提早规划好对于底层依赖服务的设计,主要是ZooKeeper,尤其是在使用replicated*系列表引擎的场景下。 ZooKeeper默认部署在MRS集群的Master节点,根据节点CPU和内存规格,调整ZooKeeper实例的最大可用内存。
Hudi的读操作,作用于Hudi的三种视图之上,可以根据需求差异选择合适的视图进行查询。 Hudi支持多种查询引擎Spark、Hive、HetuEngine,具体支持矩阵见表1和表2。 表1 cow表 查询引擎 实时视图/读优化视图 增量视图 Hive Y Y Spark(SparkSQL) Y Y
HetuEngine应用开发简介 HetuEngine简介 HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine基本概念
Presto应用开发简介 Presto简介 Presto是一种开源、分布式SQL查询引擎,用于对千兆字节至PB级大小的数据源进行交互式分析查询。 Presto主要特点如下: 多数据源:Presto可以支持Mysql,Hive,JMX等多种Connector。 支持SQL:Presto完全支持ANSI
CarbonData也是一种将数据源与Spark集成的高性能分析引擎。 图1 CarbonData基本架构 使用CarbonData的目的是对大数据即席查询提供超快速响应。CarbonData是一个OLAP引擎,采用类似于RDBMS中的表来存储数据。用户可将大量(10TB以上)
支持多种查询引擎Spark和Hive,具体支持矩阵见表1和表2。 表1 cow表 查询引擎 实时视图/读优化视图 增量视图 Hive Y Y Spark(SparkSQL) Y Y Spark(SparkDataSource API) Y Y 表2 mor表 查询引擎 实时视图 增量视图
ink状态索引写入不会有问题,原因是Flink冷启动的时候会遍历所有的数据文件生成状态索引。 实时入湖场景中,Spark引擎采用Bucket索引,Flink引擎可以用Bucket索引或者状态索引。 实时入湖都是需要分钟内或者分钟级的高性能入湖,索引的选择会影响到写Hudi表的性能。在性能方面各个索引的区别如下:
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
SQL查询样例介绍 功能简介 Phoenix是构建在HBase之上的一个SQL中间层,提供一个客户端可嵌入的JDBC驱动,Phoenix查询引擎将SQL输入转换为一个或多个HBase scan,编译并执行扫描任务以产生一个标准的JDBC结果集。 代码样例 客户端“hbase-exa