检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速开发Hive JDBC应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
Hive与其他组件的关系 Hive与HDFS组件的关系 Hive是Apache的Hadoop项目的子项目,Hive利用HDFS作为其文件存储系统。Hive通过解析和计算处理结构化的数据,Hadoop HDFS则为Hive提供了高可靠性的底层存储支持。Hive数据库中的所有数据文件都可以存储在Hadoop
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 配置Hive列加密功能 父主题: 使用Hive
群中的Hive表的创建、数据插入、读取等操作。 创建MRS Hive集群 购买一个包含有Hive组件的MRS集群,详情请参见购买自定义集群。 本文以购买的MRS 3.1.5版本的集群为例,组件包含Hadoop、Hive组件,集群开启Kerberos认证。 单击“立即购买”,等待MRS集群创建成功。
支付薪水币种、薪水金额、缴税税种、工作地,分区字段为入职时间。 创建表代码实现请见创建Hive表。 加载雇员信息数据到雇员信息表“employees_info”中。 加载数据代码实现请见加载数据到Hive表中。 雇员信息数据如表1所示: 表1 雇员信息数据 编号 姓名 支付薪水币种
dbservice_profile gsql -p 20051 -U hive -d hivemeta -W HiveUser@ 执行 delete from tbls where tbl_id='xxx'; 父主题: Hive常见问题
Hive是否支持对同一张表或分区进行并发写数据 问题 为什么通过接口并发对Hive表进行写数据会导致数据不一致? 该章节仅适用于MRS 3.1.2版本。 回答 Hive不支持对同一张表或同一个分区进行并发数据插入,这样会导致多个任务操作同一个数据临时目录,一个任务将另一个任务的数
置文件。 图2 下载HBase配置文件 登录源端Hive集群的FusionInsight Manager。 选择“集群 > 服务 > Hive > 配置 > 全部配置”进入Hive服务配置页面,修改HiveServer角色的hive-site.xml自定义配置文件,增加HBase配置文件的如下配置项。
配置Hive表不同分区分别存储至OBS和HDFS 操作场景 存算分离场景下,Hive分区表支持不同的分区分别指定不同的存储源,可以指定一个分区表中不同分区的存储源为OBS或者HDFS。 本特性仅适用于MRS 3.2.0及之后版本。此章节仅说明分区表指定存储源的能力,关于Hive如何
by优化,开启Map端初步聚合,减少Map的输出数据量。 操作步骤 在Hive客户端进行如下设置: set hive.map.aggr=true; 注意事项 Group By数据倾斜 Group By也同样存在数据倾斜的问题,设置hive.groupby.skewindata为true,生成的查询计划会有两个MapReduce
导入并配置Hive JDBC样例工程 操作场景 为了运行MRS产品Hive组件的JDBC接口样例代码,需要完成下面的操作。 以在Windows环境下开发JDBC方式连接Hive服务的应用程序为例。 导入jdbc-example样例工程之后,需要将代码中USER_NAME = "x
配置Hive读取关系型数据库 操作场景 Hive支持创建与其他关系型数据库关联的外表。该外表可以从关联到的关系型数据库中读取数据,并与Hive的其他表进行Join操作。 目前支持使用Hive读取DB2和Oracle两种关系型数据库的数据。 前提条件 已安装Hive客户端。 操作步骤
以Spark2x为例,限制Spark2x仅可连接Hive服务中两个MetaStore实例。 登录FusionInsight Manager页面,选择“集群 > 服务 > Hive > 配置 > 全部配置”,搜索配置项“HIVE_METASTORE_URI”。 复制“HIVE_METASTORE_URI
数据,按更新时间进行排序,刷新用户组信息。操作步骤如下: 在Hive Beeline命令行执行以下命令开启Hive动态分区: set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;
重启服务”,单击“确定”重启Hive服务。 若未同步IAM用户,需在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步再重启Hive服务。 重启Hive服务后,Hive会在指定的数据库下创建Hive必须的数据库表(如表已经存在则不会创建)。 父主题: 管理MRS集群元数据
本章节适用于MRS 3.x及后续版本。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 在Manager界面Hive组件的配置中搜索“hive.cbo.enable”参数,选中“true”永久开启功能。 手动收集Hive表已有数据的统计信息。 执行以下命令,可以
Hive服务启动失败 Hive服务启动失败最常见的原因是metastore实例无法连接上DBservice,可以查看metastore日志中具体的错误信息。 可能原因 DBservice没有初始化好Hive的元数据库hivemeta。 DBservice的浮动IP配置有误,导致m
操作步骤 使用omm用户登录安装了Hive服务的节点,执行以下命令进入Hive安装目录。 cd ${BIGDATA_HOME}/FusionInsight_HD_*/install/FusionInsight-Hive-*/hive-*/bin Hive异常文件定位定界工具使用方式如下:
支付薪水币种、薪水金额、缴税税种、工作地,分区字段为入职时间。 创建表代码实现请见创建Hive表。 加载雇员信息数据到雇员信息表“employees_info”中。 加载数据代码实现请见加载数据到Hive表中。 雇员信息数据如表1所示: 表1 雇员信息数据 编号 姓名 支付薪水币种
dbservice_profile gsql -p 20051 -U hive -d hivemeta -W HiveUser@ 执行 delete from tbls where tbl_id='xxx'; 父主题: Hive常见问题