Hive应用开发概述-华为云

MAPREDUCE服务 MRS-Hive应用开发样例工程介绍

Hive应用开发样例工程介绍 MRS 样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下Hive相关样例工程：表1 Hive相关样例工程样例工程位置描述 hive-examples/hive-jdbc-example hive-examples/hive-jdbc-example-multizk Hive JDBC处理数据Java示例程序。本工程使用JDBC接口连接Hive，在Hive中执行相关数据操作。使用JDBC接口实现创建表、加载数据、查询数据等功能，还可实现在同一个客户端进程内同时访问 FusionInsight ZooKeeper和第三方的ZooKeeper，相关样例介绍请参见Hive JDBC访问样例程序。 hive-examples/hcatalog-example Hive HCatalog处理数据Java示例程序。使用HCatalog接口实现通过Hive命令行方式对MRS Hive元数据进行数据定义和查询操作，相关样例介绍请参见HCatalog访问Hive样例程序。 hive-examples/python-examples 使用Python连接Hive执行SQL样例。可实现使用Python对接Hive并提交数据分析任务，相关样例介绍请参见基于Python的Hive样例程序。 hive-examples/python3-examples 使用Python3连接Hive执行SQL样例。可实现使用Python3对接Hive并提交数据分析任务，相关样例介绍请参见基于Python3的Hive样例程序。父主题： Hive应用开发概述

MAPREDUCE服务 MRS Hive应用开发概述

MAPREDUCE服务 MRS-Hive应用开发开发流程

Hive应用开发开发流程开发流程中各阶段的说明如图1和表1所示。图1 Hive应用程序开发流程表1 Hive应用开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用Java语言进行开发，使用IntelliJ IDEA工具，同时完成JDK、Maven等初始配置。准备本地应用开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括集群组件信息文件以及用于安全认证的用户文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts 域名信息。准备连接Hive集群配置文件配置并导入样例工程 HIve提供了不同场景下的多种样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。导入并配置Hive样例工程配置安全认证如果您使用的是JDBC访问开启了Kerberos认证的MRS集群，需要进行安全认证。配置Hive JDBC接口访问Hive安全认证根据业务场景开发程序根据实际业务场景开发程序，调用组件接口实现对应功能。开发Hive应用编译并运行程序指导用户将开发好的程序编译提交运行并查看结果。调测Hive应用父主题： Hive应用开发概述

MAPREDUCE服务 MRS Hive应用开发概述

MAPREDUCE服务 MRS-Hive应用开发简介:Hive简介

Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HQL语言操作结构化数据，其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：通过HQL语言非常容易的完成数据提取、转换和加载（ETL）。通过HQL完成海量结构化数据分析。灵活的数据存储格式，支持JSON、 CS V、TEXTFILE、RCFILE、ORCFILE、SEQUENCEFILE等存储格式，并支持自定义扩展。多种客户端连接方式，支持JDBC接口。 Hive的主要应用于海量数据的离线分析（如日志分析，集群状态分析）、大规模的数据挖掘（用户行为分析，兴趣分区，区域展示）等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制，在开源社区的Hive-3.1.0版本基础上，Hive新增如下特性：基于Kerberos技术的安全认证机制。数据文件加密机制。完善的权限管理。开源社区的Hive特性，请参见https://cwiki.apache.org/confluence/display/hive/designdocs。

MAPREDUCE服务 MRS Hive应用开发概述

MAPREDUCE服务 MRS-Hive应用开发简介:Hive简介

Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HQL语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：通过HQL语言非常容易的完成数据提取、转换和加载（ETL）。通过HQL完成海量结构化数据分析。灵活的数据存储格式，支持JSON、CSV、TEXTFILE、RCFILE、ORCFILE、SEQUENCEFILE等存储格式，并支持自定义扩展。多种客户端连接方式，支持JDBC接口。 Hive的主要应用于海量数据的离线分析（如日志分析，集群状态分析）、大规模的数据挖掘（用户行为分析，兴趣分区，区域展示）等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制，在开源社区的Hive-3.1.0版本基础上，Hive新增如下特性：数据文件加密机制：开源社区的Hive特性，请参见https://cwiki.apache.org/confluence/display/hive/designdocs。

MAPREDUCE服务 MRS Hive应用开发概述

MAPREDUCE服务 MRS-Hive应用开发常用概念

Hive应用开发常用概念 keytab文件存放用户信息的密钥文件。应用程序采用此密钥文件在MRS产品中进行API方式认证。客户端客户端直接面向用户，可通过Java API、Thrift API访问服务端进行Hive的相关操作。 HQL语言 Hive Query Language，类SQL语句。 HCatalog HCatalog是建立在Hive元数据之上的一个表信息管理层，吸收了Hive的DDL命令。为Mapreduce提供读写接口，提供Hive命令行接口来进行数据定义和元数据查询。基于MRS的HCatalog功能，Hive、Mapreduce开发人员能够共享元数据信息，避免中间转换和调整，能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL，提交Mapreduce任务，查询Mapreduce任务执行结果等操作。父主题： Hive应用开发概述

MAPREDUCE服务 MRS Hive应用开发概述

MAPREDUCE服务 MRS-Hive应用开发简介:Hive简介

Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HiveQL语言操作结构化数据，其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：通过HiveQL语言非常容易的完成数据提取、转换和加载（ETL）。通过HiveQL完成海量结构化数据分析。灵活的数据存储格式，支持JSON，CSV，TEXTFILE，RCFILE，ORCFILE，SEQUENCEFILE等存储格式，并支持自定义扩展。多种客户端连接方式，支持JDBC接口。 Hive的主要应用于海量数据的离线分析（如日志分析，集群状态分析）、大规模的数据挖掘（用户行为分析，兴趣分区，区域展示）等场景下。

MAPREDUCE服务 MRS Hive应用开发概述

云服务器内容精选

Hive应用开发概述

7*24

备案

专业服务

退订

建议反馈

售前咨询热线