检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从零开始使用Kudu Kudu是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:可水平扩展,并支持高可用性操作。 前提条件 已安装集群客户端,例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
MRS支持什么类型的分布式存储? 问: MRS集群支持什么类型的分布式存储?有哪些版本? 答: MRS集群内使用主流的大数据Hadoop,目前支持Hadoop 3.x版本,并且随集群演进更新版本。 同时MRS也支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式。
从零开始使用Kudu Kudu是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:可水平扩展,并支持高可用性操作。 前提条件 已安装集群客户端,例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
安全集群中使用Python3.x对接Kafka 用户问题 通过Python3.x环境如何对接开启Kerberos认证的Kafka集群? 问题现象 客户想使用Python3.x的环境对接开启Kerberos认证的Kafka的集群。 处理步骤 登录Master节点,执行如下命令,配置华为云欧拉镜像源。 wget
使用Hue WebUI操作Hive表 Hue汇聚了与大多数Apache Hadoop组件交互的接口,致力让用户通过界面图形化的方式轻松使用Hadoop组件。目前Hue支持HDFS、Hive、HBase、Yarn、MapReduce、Oozie和SparkSQL等组件的可视化操作。
如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。当前用户为准备HDFS应用开发用户时增加的开发用户。 人机用户:kinit MRS集群用户 例如:kinit hdfsuser 机机用户:kinit -kt 认证凭据路径 MRS集群用户
在使用HDFS提供的API之前,需要先进行HDFS初始化操作。过程为: 加载HDFS服务配置文件,并进行kerberos安全认证。 认证通过后,实例化Filesystem。 此处kerberos安全认证需要使用到的keytab文件,请提前准备。 代码样例 如下是代码片段,详细代码请参考com.huawei
地日志不被删除。 回答 NodeManager有重启恢复机制,详情请参见: https://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManager.html#NodeManager_Restart
principal: xxx@HADOOP.COM Valid starting Expires Service principal 12/24/16 14:11:42 12/25/16 14:11:40 krbtgt/HADOOP.COM@HADOOP.COM 执行kinit
问: 已创建的MRS集群如何修改Kerberos认证的开启状态? 答: MRS服务暂不支持集群创建完成后手动开启和关闭Kerberos服务,如需更换Kerberos认证状态,建议重新创建MRS集群,然后进行数据迁移。 父主题: 用户认证及权限类
hive server......” 原因分析 对于开启Kerberos认证的集群,admin用户不具有操作Hue WebUI的权限。可以创建一个“人机”用户(例如hueuser),并加入“hive”、“hadoop”、“supergroup”用户组和“System_administrator”角色,主组为“hive”。
_host”参数值为“hadoop.实际域名”,实际域名可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信 > 本端域” 查看;主机名为hadoop,服务名为hive。 conf = {"krb_host":"hadoop.<系统域名>", "krb_service":"hive"}
_host”参数值为“hadoop.实际域名”,实际域名可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信 > 本端域” 查看;主机名为hadoop,服务名为hive。 conf = {"krb_host":"hadoop.<系统域名>", "krb_service":"hive"}
WebUI界面服务没有配置账号权限的功能。 用户可以通过在Manager管理界面中配置集群用户角色和用户组来管理用户的权限,从而实现Hue权限的配置。 父主题: 用户认证及权限类
MRS集群创建成功后,登录集群Manager界面的用户是什么? 答: 登录Manager的系统默认账号为admin,密码为购买集群时用户自己设置的密码。 父主题: 用户认证及权限类
开启Kerberos认证的MRS集群提交Flink作业报错 用户问题 用户在开启Kerberos认证的MRS集群中提交Flink作业报错。 问题现象 用户提交Flink样例程序./flink run /opt/client/Flink/flink/examples/streaming/WordCount
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。 Oozie流程的三种类型:
HDFS基本原理 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件
工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。