Hive应用开发规范-华为云

MAPREDUCE服务 MRS-Hive应用开发规则:Hive JDBC驱动的加载

Hive JDBC驱动的加载客户端程序以JDBC的形式连接HiveServer时，需要首先加载Hive的JDBC驱动类org.apache.hive.jdbc.HiveDriver。故在客户端程序的开始，必须先使用当前类加载器加载该驱动类。如果classpath下没有相应的jar包，则客户端程序抛出Class Not Found异常并退出。如下： Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance();

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:关闭数据库连接

关闭数据库连接客户端程序在执行完HQL之后，注意关闭数据库连接，以免内存泄露，同时这是一个良好的编程习惯。需要关闭JDK的两个对象statement和connection。如下： finally { if (null != statement) { statement.close(); } // 关闭JDBC连接 if (null != connection) { connection.close(); } }

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:使用WebHCat的REST接口以Streaming方式提交MR任务的前置条件

使用WebHCat的REST接口以Streaming方式提交MR任务的前置条件本接口需要依赖hadoop的streaming包，在以Streaming方式提交MR任务给WebHCat前，需要将“hadoop-streaming-2.7.0.jar”包上传到HDFS的指定路径下：“hdfs:///apps/templeton/hadoop-streaming-2.7.0.jar”。首先登录到安装有客户端和Hive服务的节点上，以客户端安装路径为“/opt/client”为例： source /opt/client/bigdata_env 使用kinit登录人机用户或者机机用户。 hdfs dfs -put ${BIGDATA_HOME}/ FusionInsight _HD_8.1.0.1/FusionInsight-Hadoop-*/hadoop/share/hadoop/tools/lib/hadoop-streaming-*.jar /apps/templeton/ 其中/apps/templeton/需要根据不同的实例进行修改，默认实例使用/apps/templeton/，Hive1实例使用/apps1/templeton/，以此类推。

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:HQL语法规则之判空

HQL语法规则之判空判断字段是否为“空”，即没有值，使用“is null”；判断不为空，即有值，使用“is not null”。要注意的是，在HQL中String类型的字段若是空字符串，即长度为0，那么对它进行IS NULL的判断结果是False。此时应该使用“col = '' ”来判断空字符串；使用“col != '' ”来判断非空字符串。正确示例： select * from default.tbl_src where id is null; select * from default.tbl_src where id is not null; select * from default.tbl_src where name = ''; select * from default.tbl_src where name != ''; 错误示例： select * from default.tbl_src where id = null; select * from default.tbl_src where id != null; select * from default.tbl_src where name is null; select * from default.tbl_src where name is not null; 注：表tbl_src的id字段为Int类型，name字段为String类型。

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:获取数据库连接

获取数据库连接使用JDK的驱动管理类java.sql.DriverManager来获取一个Hive的数据库连接。 Hive的数据库URL为url="jdbc:hive2://xxx.xxx.xxx.xxx:2181,xxx.xxx.xxx.xxx:2181,xxx.xxx.xxx.xxx:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver;sasl.qop=auth-conf;auth=KERBEROS;principal=hive/hadoop.hadoop.com@HADOOP.COM;user.principal=hive/hadoop.hadoop.com;user.keytab=conf/hive.keytab"; 以上已经经过安全认证，所以Hive数据库的用户名和密码为null或者空。如下： // 建立连接 connection = DriverManager.getConnection(url, "", "");

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:执行HQL

执行HQL 执行HQL，注意HQL不能以";"结尾。正确示例： String sql = "SELECT COUNT(*) FROM employees_info"; Connection connection = DriverManager.getConnection(url, "", ""); PreparedStatement statement = connection.prepareStatement(sql); resultSet = statement.executeQuery(); 错误示例： String sql = "SELECT COUNT(*) FROM employees_info;"; Connection connection = DriverManager.getConnection(url, "", ""); PreparedStatement statement = connection.prepareStatement(sql); resultSet = statement.executeQuery();

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:多线程安全登录方式

多线程安全登录方式如果有多线程进行login的操作，当应用程序第一次登录成功后，所有线程再次登录时应该使用relogin的方式。 login的代码样例： private Boolean login(Configuration conf){ boolean flag = false; UserGroupInformation.setConfiguration(conf); try { UserGroupInformation.loginUserFromKeytab(conf.get(PRINCIPAL), conf.get(KEYTAB)); System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased()); flag = true; } catch (IOException e) { e.printStackTrace(); } return flag; } relogin的代码样例： public Boolean relogin(){ boolean flag = false; try { UserGroupInformation.getLoginUser().reloginFromKeytab(); System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased()); flag = true; } catch (IOException e) { e.printStackTrace(); } return flag; }

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发规则:客户端配置参数需要与服务端保持一致

客户端配置参数需要与服务端保持一致当集群的Hive、YARN、HDFS服务端配置参数发生变化时，客户端程序对应的参数会被改变，用户需要重新审视在配置参数变更之前提交到HiveServer的配置参数是否和服务端配置参数一致，如果不一致，需要用户在客户端重新调整并提交到HiveServer。例如下面的示例中，如果修改了集群中的YARN配置参数时，Hive客户端、示例程序都需要审视并修改之前已经提交到HiveServer的配置参数：初始状态：集群YARN的参数配置如下： mapreduce.reduce.java.opts=-Xmx2048M 客户端的参数配置如下： mapreduce.reduce.java.opts=-Xmx2048M 集群YARN修改后，参数配置如下： mapreduce.reduce.java.opts=-Xmx1024M 如果此时客户端程序不做调整修改，则还是以客户端参数有效，会导致reducer内存不足而使MR运行失败。

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发建议:HQL编写之隐式类型转换

HQL编写之隐式类型转换查询语句使用字段的值做过滤时，不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。建议示例： select * from default.tbl_src where id = 10001; select * from default.tbl_src where name = 'TestName'; 不建议示例： select * from default.tbl_src where id = '10001'; select * from default.tbl_src where name = TestName; 表tbl_src的id字段为Int类型，name字段为String类型。

MAPREDUCE服务 MRS Hive应用开发规范

MAPREDUCE服务 MRS-Hive应用开发建议:UDF管理

UDF管理建议由管理员创建永久UDF，避免每次使用时都去add jar，和重新定义UDF。 Hive的UDF会有一些默认属性，比如“deterministic”默认为“true”（同一个输入会返回同一个结果），“stateful”（是否有状态，默认为“true”）。当用户实现的自定义UDF内部实现了汇总等，需要在类上加上相应的注解，例如如下类： @UDFType(deterministic = false) Public class MyGenericUDAFEvaluator implements Closeable {

MAPREDUCE服务 MRS Hive应用开发规范

云服务器内容精选

Hive应用开发规范

7*24

备案

专业服务

退订

建议反馈

售前咨询热线