检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备HDFS应用开发和运行环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境:Windows或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通
Iceberg Iceberg原理介绍 Iceberg是一种开放的数据湖表格式,可以基于Iceberg快速地在HDFS或OBS上构建自己的数据湖存储服务。 Iceberg当前为公测阶段,若需使用需联系技术支持申请白名单开通。 当前版本Iceberg仅支持Spark引擎,如需使用其他引擎构建数据湖服务
访问Kudu的WebUI 用户可以通过Kudu的WebUI,在图形化界面查看Kudu作业的相关信息。 前提条件 已安装Kudu服务的集群。 访问KuduMaster WebUI(MRS 3.x及之后版本) 登录Manager页面,请参见访问FusionInsight Manager
配置Spark读写Doris数据 Spark Doris Connector可以支持通过Spark读取Doris中存储的数据,也支持通过Spark写入数据到Doris中。 支持从Doris中读取数据 支持Spark DataFrame批量/流式写入Doris。 可以将Doris表映射为
配置Hive通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在Hive客户端创建存储在OBS并行文件系统中的表。 Hive对接OBS MRS集群支持Hive服务基于Metastore方式对接OBS。 配置Hive基于MetaStore
Hive应用开发常用概念 keytab文件 存放用户信息的密钥文件。应用程序采用此密钥文件在MRS产品中进行API方式认证。 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Hive的相关操作。 HQL语言 Hive Query Language
Hive应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Hive的相关操作。本文中的Hive客户端特指Hive client的安装目录,里面包含通过Java API访问Hive的样例代码。 HiveQL语言 Hive Query
OpenTSDB应用开发简介 OpenTSDB简介 OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效 问题 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效? 在MRS集群启动spark-beeline的命令中如果使用了“--hivevar <VAR_NAME>=<var_value
配置MRS集群用户的OBS的细粒度访问权限 开启细粒度权限时,用户通过该指导配置访问OBS权限,实现MRS用户对OBS文件系统下的目录权限控制。 该章节内容不适用于MRS 1.9.2版本。 如需对MRS的用户访问OBS的资源进行详细控制,可通过该功能实现。例如,您只允许用户组A访问某一
安装MRS客户端 操作场景 该操作指导安装工程师安装MRS集群所有服务(不包含Flume)的客户端。Flume客户端安装请参见安装Flume客户端。 客户端可以安装集群内节点,也可以安装在集群外节点,本章节以安装目录“/opt/client”为例进行介绍,请以实际集群版本为准。 在集群外节点安装客户端前提条件
Alluxio应用开发简介 Alluxio简介 Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易、更快地被访问。同时使得应用程序能够通过一个公共接口连接到许多存储系统
DBServer实例一直处于Restoring状态 问题背景与现象 DBServer实例状态一直是Restoring状态,重启之后仍然不恢复。 原因分析 DBService组件会对“${BIGDATA_HOME}/MRS_XXX/install/dbservice/ha/module
Alluxio Alluxio是一个面向基于云的数据分析和人工智能的数据编排技术。在MRS的大数据生态系统中,Alluxio位于计算和存储之间,为包括Apache Spark、Presto、Mapreduce和Apache Hive的计算框架提供了数据抽象层,使上层的计算应用可以通过统一的客户端
Hive企业级能力增强 配置Hive表不同分区分别存储至OBS和HDFS 配置Hive目录旧数据自动移除至回收站 配置Hive插入数据到不存在的目录中 配置创建Hive内部表时不能指定Location 配置用户在具有读和执行权限的目录中创建外表 配置基于HTTPS/HTTP协议的REST
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
准备连接Kafka集群配置文件 准备集群认证用户信息 对于开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下Kafka权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录FusionInsight Manager。 选择“集群
DBService超过最大连接数后导致Hive MetaStore异常 问题背景与现象 DBService默认最大连接数是300,如果当业务量比较大,导致连接DBService的最大连接数超过300时,MetaStore会出现异常,并报slots are reserved for
配置Presto通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,Presto即可通过presto_cli.sh客户端创建表存储在OBS中。 Presto对接OBS 未开启Kerberos认证的集群 使用客户端安装用户,登录已安装客户端的节点
配置Hive动态脱敏 使用场景 Hive动态脱敏功能开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持复杂数据类型