检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
loader-tool工具使用示例 操作场景 loader-tool工具支持通过作业模板或参数选项的方式,对连接器或者作业进行创建、更新、查询、删除等操作。 本文将以“从SFTP服务器导入数据到HDFS”的作业为例,通过引用作业模板的方式,介绍loader-tool工具的使用方法。 本章节适用于MRS 3.x及后续版本。
新数据,则在数据湖中会出现重复数据。 BULK_INSERT(批量插入):用于初始数据集加载, 该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表,该操作性能是最高的,但是无法控制小文件,而UPSERT和INSERT操作使用启发式方法可以很好的控制小文件。 UPSERT(插入更新):
准备Hive JDBC开发环境 为了运行Hive组件的JDBC接口样例代码,需要完成下面的操作。 以在Windows环境下开发JDBC方式连接Hive服务的应用程序为例。 操作步骤 参考获取MRS应用开发样例工程获取Hive示例工程。 在Hive示例工程根目录,执行mvn install编译。
远程代码执行漏洞(CVE-2021-44228)修复指导 本章节指导用户修复log4j2的CVE-2021-44228漏洞。目前有两种方式可以采用如下两种方式修复: 现有集群节点安装补丁 扩容节点安装补丁 前提条件 从OBS路径中下载的补丁工具“MRS_Log4j_Patch.tar.
如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-5.0.0-HBase-2.0-hw-ei.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表3 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例 在HBase作业中
数据处理规则 将字段值输出到HBase表中。 原始数据包含NULL值,如果“NULL值处理方式”选中单选框时,将转换为空字符串并保存。如果“NULL值处理方式”不选中单选框时,不保存数据。 样例 以表输入为例,生成字段后,由HBase输出到对应的HBase表中,数据存放于test表中,如下图:
HoodieDeltaStreamer流式写入 Hudi自带HoodieDeltaStreamer工具支持流式写入,也可以使用SparkStreaming以微批的方式写入。HoodieDeltaStreamer提供以下功能: 支持Kafka,DFS多种数据源接入 。 支持管理检查点、回滚和恢复,保证exactly
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.jar,该jar包可在kafka客户端目录下获取。 下面代码片段仅为演示,完整
on Tez/Mapreduce/Spark时会偶现一些空指针或类型转化异常? 回答 当前Hive不支持向量化执行。 向量化执行有很多社区问题引入目前没有稳定修复,默认hive.vectorized.execution.enabled=false,不建议将此参数打开。 父主题: Hive常见问题
Manager关键特性:统一用户权限管理 Manager提供系统中各组件的权限集中管理功能。 Manager引入角色的概念,采用RBAC的方式对系统进行权限管理,集中呈现和管理系统中各组件零散的权限功能,并且将各个组件的权限以权限集合(即角色)的形式组织,形成统一的系统权限概念。这样一方面对普通用户屏蔽了内
、作业调度、运维监控等多项任务,可以极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。 MRS集群管理提供了统一的运维管理平台,包括一键式部署集群能力,并提
IoTDB支持的数据类型和编码 IoTDB支持如下几种数据类型和编码方式,参见表1。 表1 IoTDB支持的数据类型和编码 类型 说明 支持的编码 BOOLEAN 布尔值 PLAIN、RLE INT32 整型 PLAIN、RLE、TS_2DIFF、GORILLA、FREQ、ZIGZAG
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-*.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site.xml”中的配置“hbase
Manager样例程序开发思路 通过典型场景,可以快速学习和掌握Manage REST API的开发过程,并且对关键的函数有所了解。 场景说明 假定用户需要以非界面方式实现操作FusionInsight Manager系统,要求开发基于HTTP Basic认证的应用程序实现如下功能: 登录FusionInsight
如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-5.0.0-HBase-2.0-hw-ei.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
分布式Scan HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用hbaseRDD方法以特定的规则扫描HBase表。 数据规划 使用操作Avro格式数据章节中创建的hbase数据表。 开发思路 设置scan的规则,例如:setCaching。
路径的表,也支持基于Hive Metastore方式对接OBS。 HetuEngine对接OBS MRS集群支持HetuEngine服务在创建表时指定Location为OBS文件系统路径,也支持基于Hive Metastore方式对接OBS。 在创建表时指定Location为OBS文件系统路径