检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 通过HQL语言非常容易的完成数据提取、转换和加载(ETL)。
Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 通过HQL语言非常容易的完成数据提取、转换和加载(ETL)。
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务 功能简介 通过HSBroker方式连接到HetuEngine,组装对应的SQL发送到HetuEngine执行,完成对Hive数据源的增删改查操作。 public class JDBCExampleBroker
建议如下: 业务逻辑上有很多比较复杂的SQL运算,可以封装为一个视图,后续查询时只查询视图,简化业务查询使用。 如果业务间有权限隔离诉求,可将部分数据查询封装到视图中,使用视图方只能看到视图下有限行及列的数据。 父主题: ClickHouse应用开发规范
计费项 购买MRS集群的费用包含两个部分: MRS服务管理费用 您可以在“费用中心 > 账单管理 > 费用账单”里筛选如下内容查看费用详情。 图1 查看MRS服务管理费用 如果集群版本类型为“LTS版”:按“MRS-LTS服务费用”进行筛选。 如果集群版本类型为“普通版”: 20
读取Hudi数据概述 Hudi的读操作,作用于Hudi的三种视图之上,可以根据需求差异选择合适的视图进行查询。 Hudi 支持多种查询引擎Spark和Hive,具体支持矩阵见表1和表2。 表1 cow表 查询引擎 实时视图/读优化视图 增量视图 Hive Y Y Spark(SparkSQL)
通过HSBroker的用户名密码认证实现查询HetuEngine SQL任务 本章节适用于MRS 3.3.0及以后版本。 通过HSBroker方式连接到HetuEngine,组装对应的SQL发送到HetuEngine执行,完成对Hive数据源的增删改查操作。 import jaydebeapi
均衡操作时间估算受两个因素影响: 需要迁移的总数据量: 每个DataNode节点的数据量应大于(平均使用率-阈值)*平均数据量,小于(平均使用率+阈值)*平均数据量。若实际数据量小于最小值或大于最大值即存在不平衡,系统选择所有DataNode节点中偏差最多的数据量作为迁移的总数据量。 Balancer的
告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时
11:45:05',此时查询使用a='2016-8-1 11:45:5'会报错。 正确查询方式如下: spark.sql.hive.convertInsertingPartitionedTable=true时使用datasource表逻辑,使用如下方式即可以正常查询: desc formatted
Streaming的核心是将流式的数据看成一张不断增加的数据库表,这种流式的数据处理模型类似于数据块处理模型,可以把静态数据库表的一些查询操作应用在流式计算中,Spark执行标准的SQL查询,从不断增加的无边界表中获取数据。 图8 Structured Streaming无边界表 每一条查询的操作都会产生一个结果集Result
如果大部分查询场景均带有主键或主键子集的等值查询,建议使用bucket索引建表,并将查询字段作为分桶键。 查询MOR表时,定期执行Compaction操作可使查询性能有较大的提升,可参考Compaction。 集群环境调优 可以通过调整Yarn配置、集群节点资源配置、元数据缓存和动
API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Res
API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Res
API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,建议指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Res
HCatalog是建立在Hive元数据之上的一个表信息管理层,吸收了Hive的DDL命令。为MapReduce提供读写接口,提供Hive命令行接口来进行数据定义和元数据查询。基于MRS的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。
AIN) NA 对应列的查询权限 对应列的查询权限 查询物化视图 对应列的查询权限 NA NA 物化视图和非物化视图的物理表联合查询 对应列的查询权限 NA 对应列的查询权限 查看物化视图 NA NA NA 查看物化视图的创建语句 表的Show权限 表的Show权限 NA 使用HetuEngine物化视图介绍
Impalad的session连接长时间没使用,但连接没有自动断开 问题 使用JDBC连接Impala执行查询后,Impalad的session连接长时间没提交查询,但连接没有自动断开。 回答 如果要永久生效,登录Manager界面,选择“集群 > 服务 > Impala > 配置
ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update
API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,建议指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中,每行数据以Res