云服务器内容精选

华为云首页用户手册

开发Hive应用

MAPREDUCE服务 MRS-创建Hive表:功能介绍

功能介绍本小节介绍了如何使用HQL创建内部表、外部表的基本操作。创建表主要有以下三种方式。自定义表结构，以关键字EXTERNAL区分创建内部表和外部表。内部表，如果对数据的处理都由Hive完成，则应该使用内部表。在删除内部表时，元数据和数据一起被删除。外部表，如果数据要被多种工具（如Pig等）共同处理，则应该使用外部表，可避免对该数据的误操作。删除外部表时，只删除掉元数据。根据已有表创建新表，使用CREATE LIKE句式，完全复制原有的表结构，包括表的存储格式。根据查询结果创建新表，使用CREATE AS SELECT句式。这种方式比较灵活，可以在复制原表表结构的同时指定要复制哪些字段，不包括表的存储格式。

MAPREDUCE服务 MRS 开发Hive应用
MAPREDUCE服务 MRS-基于Python的Hive样例程序:样例代码

样例代码使用Python方式提交数据分析任务，参考样例程序中的“hive-examples/python-examples/pyCLI_sec.py”。导入HAConnection类。 from pyhs2.haconnection import HAConnection 声明HiveServer的IP地址列表。本例中hosts代表HiveServer的节点，xxx.xxx.xxx.xxx代表业务IP地址。 hosts = ["xxx.xxx.xxx.xxx", "xxx.xxx.xxx.xxx"] 如果HiveServer实例被迁移，原始的示例程序会失效。在HiveServer实例迁移之后，用户需要更新示例程序中使用的HiveServer的IP地址。在HAConnection的第三个参数填写正确的用户名，密码可以不填写。创建连接，执行HQL，样例代码中仅执行查询所有表功能，可根据实际情况修改HQL内容，输出查询的列名和结果到控制台。 try: with HAConnection(hosts = hosts, port = 21066, authMechanism = "PLAIN", user='root', password='******') as haConn: with haConn.getConnection() as conn: with conn.cursor() as cur: # Show databases print cur.getDatabases() # Execute query cur.execute("show tables") # Return column info from query print cur.getSchema() # Fetch table results for i in cur.fetch(): print i except Exception, e: print e

MAPREDUCE服务 MRS 开发Hive应用
MAPREDUCE服务 MRS-查询Hive数据:样例代码

样例代码 -- 查看薪水支付币种为美元的雇员联系方式. SELECT a.name, b.tel_phone, b.email FROM employees_info a JOIN employees_contact b ON(a.id = b.id) WHERE usd_flag='D'; -- 查询入职时间为2014年的雇员编号、姓名等字段，并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中. INSERT OVERWRITE TABLE employees_info_extended PARTITION (entrytime = '2014') SELECT a.id, a.name, a.usd_flag, a.salary, a.deductions, a.address, b.tel_phone, b.email FROM employees_info a JOIN employees_contact b ON (a.id = b.id) WHERE a.entrytime = '2014'; -- 使用Hive中已有的函数COUNT()，统计表employees_info中有多少条记录. SELECT COUNT(*) FROM employees_info; -- 查询使用以“cn”结尾的邮箱的员工信息. SELECT a.name, b.tel_phone FROM employees_info a JOIN employees_contact b ON (a.id = b.id) WHERE b.email like '%cn';

MAPREDUCE服务 MRS 开发Hive应用
MAPREDUCE服务 MRS-查询Hive数据:扩展使用

扩展使用配置Hive中间过程的数据加密指定表的格式为RCFile(推荐使用)或SequenceFile，加密算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式，RCFile是Hive优化的文件格式。RCFile优化了列存储，在对大表进行查询时，综合性能表现比SequenceFile更优。 set hive.exec.compress.output=true; set hive.exec.compress.intermediate=true; set hive.intermediate.compression.codec=org.apache.hadoop.io.encryption.arc4.ARC4Codec; 自定义函数，具体内容请参见开发Hive用户自定义函数。

MAPREDUCE服务 MRS 开发Hive应用