检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
配置Hive Python样例工程 操作场景 为了运行MRS产品Hive组件的Python接口样例代码,需要完成下面的操作。 MRS 3.1.2及之后版本默认仅支持Python3。 该样例仅支持在Linux节点上运行。 操作步骤 客户端机器必须安装有Python,其版本不低于2.6
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 以root用户登录已安装Hive客户端的节点。 执行以下命令,进入客
配置Spark应用安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在开发Spark应用程序时,某些场景下,需要Spark与Hadoop、HBase等之间进行通信。那么Spark应用程序中需要写入
配置Spark应用安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在开发Spark应用程序时,某些场景下,需要Spark与Hadoop、HBase等之间进行通信。那么Spark应用程序中需要写入
/cdl/test Interval 10 Max Rate Per Partition 0 Parallelism 10 Target Hive Database default Hudi表属性配置方式 可视化视图 Hudi表属性全局配置 - Hudi表属性配置-Table Name test
/cdl/test Interval 10 Max Rate Per Partition 0 Parallelism 10 Target Hive Database default Hudi表属性配置方式 可视化视图 Hudi表属性全局配置 - Hudi表属性配置-Table Name test
Hive表的HDFS目录被误删,但是元数据仍然存在,导致执行任务报错 问题 Hive表HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错。 回答 这是一种误操作的异常情况,需要手动删除对应表的元数据后重试。 例如: 执行以下命令进入控制台: source ${BIGDA
HBase Phoenix API接口介绍 版本关系 若使用Phoenix,需下载与当前使用MRS集群相对应的Phoenix版本,具体请参见http://phoenix.apache.org。其对应关系如表1所示: 表1 MRS与Phoenix版本对应关系一览表 MRS版本 Phoenix版本
在Linux环境中调测ClickHouse应用(MRS 3.3.0之前版本) ClickHouse应用程序支持在Linux环境中运行。在程序代码完成开发后,您可以上传Jar包至准备好的Linux运行环境中运行。 前提条件 Linux环境已安装JDK,版本号需要和IntelliJ
在Linux环境中调测ClickHouse应用(MRS 3.3.0及之后版本) ClickHouse应用程序支持在Linux环境中运行。在程序代码完成开发后,您可以上传Jar包至准备好的Linux运行环境中运行。 前提条件 Linux环境已安装JDK,版本号需要和IntelliJ
创建HetuEngine权限角色 安全模式的集群,在使用HetuEngine服务前,需集群管理员创建用户并指定其操作权限以满足业务使用需求。 HetuEngine用户分为管理员用户和普通用户,系统默认的HetuEngine管理员用户组为“hetuadmin”,HetuEngine
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 MRS 3.x之前版本: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“节点管理
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中需要安装补丁的集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致。
Schema演进介绍 Schema演进(Schema Evolution)允许用户能够方便地修改Hudi表的当前Schema,以适应不断变化的数据。 本章节内容仅适用于MRS 3.2.0及之后版本。 Schema演进支持范围 Schema演进支持范围: 支持列(包括嵌套列)相关的增、删、改、位置调整等操作。
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 如果任务失败,选择“重试安装”,只有当“状态”显示为“已安装”时,才能进入下一步操作。
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中需要安装补丁的集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致。
Hive分区修剪的谓词下推增强 配置场景 在旧版本中,对Hive表的分区修剪的谓词下推,只支持列名与整数或者字符串的比较表达式的下推,在2.3版本中,增加了对null、in、and、or表达式的下推支持。 配置参数 登录FusionInsight Manager系统,选择“集群 >
Spark同步HBase数据到CarbonData开发思路 场景说明 数据实时写入HBase,用于点查业务,数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 数据规划 运行样例程序前,需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark
Channel:基于预写式日志(Write-Ahead Logging,简称WAL)的持久化实现 JDBC Channel:基于嵌入Database的持久化实现 Channel支持事务特性,可保证简易的顺序操作,同时可以配合任意数量的Source和Sink共同工作。 Sink S