云服务器内容精选

华为云首页用户手册

增强HBase BulkLoad工具数据迁移能力

MAPREDUCE服务 MRS-BulkLoad工具配置文件说明:配置自定义rowkey实现

配置自定义rowkey实现使用BulkLoad工具批量导入HBase数据时，支持用户自定义的组合rowkey实现。用户可编写rowkey实现代码，导入时根据该代码逻辑进行组合rowkey导入。配置自定义rowkey实现步骤如下：用户编写自定义rowkey的实现类，需要继承接口，该接口所在的Jar包路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”： [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface]，实现接口中方法： byte[] getRowkeyBytes(String[] colsValues, RegulationDomain regulation) 其中：传入参数“colsValues”为原始数据中的一行数据集合，每个元素为一列。传入参数“regulation”为配置导入文件信息（一般情况下并不需要使用）。将该实现类与其依赖包同时打包成Jar文件，保存到HBase客户端所在节点的任意位置并确保执行命令的用户具有读取和执行该Jar包的权限。在执行导入命令时，增加两个参数配置项： -Dimport.rowkey.jar="第二步中Jar包的全路径" -Dimport.rowkey.class="用户实现类的全类名"

MAPREDUCE服务 MRS 增强HBase BulkLoad工具数据迁移能力
MAPREDUCE服务 MRS-使用BulkLoad工具查询HBase表的行统计数:操作步骤

操作步骤直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围，字段“f3:age”的值为“25”，rowkey的前两个字符为“mi”的行数。 hbase com.huawei.hadoop.hbase.tools.bulkload.RowCounter -Dcounter.rowkey.start="row_start" -Dcounter.rowkey.stop="row_stop" -Dcounter.qualifier="f3:age:25" -Dcounter.rowkey.value="substring(0,2) == 'mi'" table1 -Dcounter.rowkey.start="row_start"：表示开始的rowkey为"row_start"。 -Dcounter.rowkey.stop="row_stop"：表示结束的rowkey为"row_stop"。 -Dcounter.qualifier="f3:age:25"：表示列族f3中列为age的列值为25。 -Dcounter.rowkey.value="substring(0,2) == 'mi'"：表示rowkey的值中前两个为mi。如果指定了“row_start”和“row_stop”，则统计的为大于等于“row_start”并且小于“row_stop”的数据。

MAPREDUCE服务 MRS 增强HBase BulkLoad工具数据迁移能力
MAPREDUCE服务 MRS-BulkLoad工具配置文件说明:配置自定义rowkey实现

配置自定义rowkey实现使用BulkLoad工具批量导入HBase数据时，支持用户自定义的组合rowkey实现。用户可编写rowkey实现代码，导入时根据该代码逻辑进行组合rowkey导入。配置自定义rowkey实现步骤如下：用户编写自定义rowkey的实现类，需要继承接口，该接口所在的Jar包路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”： [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface]，实现接口中方法： byte[] getRowkeyBytes(String[] colsValues, RegulationDomain regulation) 其中：传入参数“colsValues”为原始数据中的一行数据集合，每个元素为一列。传入参数“regulation”为配置导入文件信息（一般情况下并不需要使用）。将该实现类与其依赖包同时打包成Jar文件，保存到HBase客户端所在节点的任意位置并确保执行命令的用户具有读取和执行该Jar包的权限。在执行导入命令时，增加两个参数配置项： -Dimport.rowkey.jar="第二步中Jar包的全路径" -Dimport.rowkey.class="用户实现类的全类名"

MAPREDUCE服务 MRS 增强HBase BulkLoad工具数据迁移能力