检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive应用开发简介 Hive介绍 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
1版本发布的所有补丁解决的问题。 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数据中心迁
Spark SQL:使用Spark提供的类似SQL的Spark SQL语句,实时查询和分析用户数据。 Hive:建立在Hadoop基础上的开源的数据仓库。MRS支持提交HiveScript脚本和直接执行Hive SQL语句。 Flink:提供一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。
修改OMS数据库访问用户密码 该任务指导管理员定期修改OMS数据库访问用户的密码,以提升系统运维安全性。 对系统的影响 修改密码需要重启OMS服务,服务在重启时无法访问。 修改OMS数据库访问用户密码(MRS 3.x及之后版本) 在FusionInsight Manager选择“系统
RS)的Hive、Hudi数据的交互式快速查询场景。 HetuEngine跨源功能简介 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。
hbase-site文件 开启安全模式时填写此参数。连接hdfs时,需要的配置文件。在本地选择1获取的“hbase-site.xml”文件。 hbase-site.xml core-site文件 开启安全模式时填写此参数。连接hdfs时需要用到的配置。在本地选择1获取的“core-site.xml”文件。
Hive作为一个基于HDFS和MapReduce架构的数据仓库,其主要能力是通过对HQL(Hive Query Language)编译和解析,生成并执行相应的MapReduce任务或者HDFS操作。 图1 Hive结构 约束与限制 需要在Manager的“系统 > 权限 > 用户”界面
为了保持迁移后数据的属性及权限等信息在目标集群上与源集群一致,需要将源集群的元数据信息导出,以便在完成数据迁移后进行必要的元数据恢复。 需要导出的元数据包括HDFS文件属主/组及权限信息、Hive表描述信息。 HDFS元数据导出 HDFS数据需要导出的元数据信息包括文件及文件夹的权限和属主/组
使用客户端验证,通过hbase shell进入hbase命令行后,执行list验证需要运行多久。 开启HDFS的debug日志,然后查看下层目录很多的路径(hadoop fs -ls /XXX/XXX),验证需要运行多久。 打印HMaster进程jstack: su - omm jps jstack
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 获取关系型数据库对应的驱动jar包保存在Lo
"obs://obs-test/test/数据库名/表名"; 视图表授权需要授予视图表权限和视图表对应的物理表路径权限。 仅支持对数据库/表进行级联授权操作,不支持对分区做级联权限,如果分区路径不在表路径下,则需要用户手动授权分区路径。 不支持对Hive Ranger策略中的“Deny
2版本为例,讲解如何使用Tableau访问安全模式集群的HetuEngine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。
op-root-balancer-主机名.out查看。 如果需要停止Balance任务,请执行以下命令: bash /opt/client/HDFS/hadoop/sbin/stop-balancer.sh 如果只需要对部分节点进行数据均衡,可以在脚本上加上-include参数指
Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。 Hive 建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。 ZooKeeper 提供分布式
支持字母、数字、下划线,首位必须为字母或数字,且长度不能超过128位。 根据需要,在“Description”填写Hive表的描述信息。 单击“Next”。 选择一个存储数据的格式。 需要使用分隔符分隔数据时,选择“Delimited”,然后执行5。 需要使用序列化格式保存数据时,选择“SerDe”,执行6。
使用admin用户登录集群Manager界面。 参考管理MRS集群角色内容,增加用户具体需要的组件权限的角色。 参考管理MRS集群用户组修改提交作业用户所属的用户组,将新增的组件角色加入到该用户组中。 用户所在用户组绑定的组件角色修改后,权限生效需要一定时间,请耐心等待。 父主题: 提交MRS作业
Hive的版本。根据服务端Hive版本设置。 HIVE_3_X 用户名 选择KERBEROS鉴权时,需要配置MRS Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。
选择集群工作区域下关联的可用区。 虚拟私有云 vpc-default 选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的VPC。 子网 subnet-default 选择需要创建集群的子网,可进入VPC服务查看VPC下已创建的子
9.1版本为例,讲解如何使用永洪BI访问安全模式集群的HetuEngine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。