检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ClickHouse数据入库工具 最佳实践方案 ClickHouse数据加工流程最佳实践:在数据湖中通过Hive&Spark(批量)/FlinkSQL(增量)加工成大宽表后,通过CDL/Loader工具实时同步到ClickHouse,下游BI工具和应用进行实时OLAP分析。 数据加工
loader-tool工具使用示例 操作场景 loader-tool工具支持通过作业模板或参数选项的方式,对连接器或者作业进行创建、更新、查询、删除等操作。 本文将以“从SFTP服务器导入数据到HDFS”的作业为例,通过引用作业模板的方式,介绍loader-tool工具的使用方法。 本章节适用于MRS
开源sqoop-shell工具使用示例(SFTP - HDFS) 操作场景 本文将以“从SFTP服务器导入数据到HDFS”的作业为例,介绍如何分别在交互模式和批量模式下使用sqoop-shell工具进行创建和启动Loader作业。 本章节适用于MRS 3.x及后续版本。 前提条件
开源sqoop-shell工具使用示例(Oracle - HBase) 操作场景 本文将以“从Oracle导入数据到HBase”的作业为例,介绍如何分别在交互模式和批量模式下使用sqoop-shell工具进行创建和启动Loader作业。 本章节适用于MRS 3.x及后续版本。 前提条件
针对“<badlines>”标签中的算符和对应的参数类型如表2所示。 表2 算符和对应的参数类型 算符类型 参数类型 && 对应的参数类型应为布尔型。 & 对应的参数类型应为整数。 | 对应的参数类型应为整数。 ^ 对应的参数类型应为整数。 / 对应的参数类型应为数字。 == 对应的参数类型应为字符串。
针对“<badlines>”标签中的算符和对应的参数类型如表2所示。 表2 算符和对应的参数类型 算符类型 参数类型 && 对应的参数类型应为布尔型。 & 对应的参数类型应为整数。 | 对应的参数类型应为整数。 ^ 对应的参数类型应为整数。 / 对应的参数类型应为数字。 == 对应的参数类型应为字符串。
客户端工具说明 使用命令行运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
客户端工具说明 使用客户端运行Loader作业 loader-tool工具使用指导 loader-tool工具使用示例 schedule-tool工具使用指导 schedule-tool工具使用示例 使用loader-backup工具备份作业数据 开源sqoop-shell工具使用指导
携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 ./encrypt_tool 未加密的密码 得到加密后的密文,作为“authentication.password”的取值。 说明: 非加密密码中含有特殊字符时需要转义。例如,
携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 ./encrypt_tool 未加密的密码 得到加密后的密文,作为“authentication.password”的取值。 说明: 非加密密码中含有特殊字符时需要转义。例如,
查询具有特定列值的数据:所有数据按RowKey的顺序进行扫描,然后将数据与特定的列值进行匹配,直到找到所需的数据。过滤器功能会scan一些不必要的数据以获取所需的数据。因此,Filter功能不能满足高性能标准频繁查询的要求。 这就是HBase HIndex产生的背景。如图1所示,HBase
参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 DirName 产生告警的挂载目录名。 PartitionName 产生告警的设备分区名。 对系统的影响 造成服务数据无法写入,业务系统运行不正常。
column_num要和数据文件中的列的数量对应。 family的指定要和表的列族名称对应。 仅当批量导入数据时创建二级索引才需配置以下参数,且索引类型的首字母需要大写,例如type="String";以下片段中length="30"表示索引列“H_ID”的列值不能超过30个字符:
<tablename> 注意事项 批量更新会把满足条件的行对应的字段值替换为要更新的值。 如果要更新的字段上建有索引,批量更新是不允许的。 如果不设置执行结果输出文件,默认是(/tmp/updatedata/表名)。 父主题: 增强HBase BulkLoad工具数据迁移能力
使用BulkLoad工具批量删除HBase数据 操作场景 BulkLoad工具支持根据rowkey的取值模式、范围、字段名、字段值对HBase数据做批量删除。 使用BulkLoad工具批量删除HBase数据 执行如下命令删除从“row_start”到“row_stop”的行,并且把输出
使用loader-backup工具备份作业数据 操作场景 通过Loader WebUI或客户端工具loader-tool创建好作业后,可使用loader-backup工具进行数据备份。 仅有数据导出的Loader作业才支持数据备份。 此工具为Loder的内部接口,供上层组件HBas
使用BulkLoad工具批量删除HBase数据 操作场景 BulkLoad工具支持根据rowkey的取值模式、范围、字段名、字段值对HBase做批量删除。 使用BulkLoad工具批量删除HBase数据 执行如下命令删除从“row_start”到“row_stop”的行,并且把输出结
column_num要和数据文件中的列的数量对应。 family的指定要和表的列族名称对应。 仅当批量导入数据时创建二级索引才需配置以下参数,且索引类型的首字母需要大写,例如type="String";以下片段中length="30"表示索引列“H_ID”的列值不能超过30个字符:
<tablename> 注意事项 批量更新会把满足条件的行对应的字段值替换为要更新的值。 不支持批量更新已创建索引的字段的数据。 如果不设置执行结果输出文件,默认是“/tmp/updatedata/表名”。 父主题: 增强HBase BulkLoad工具数据迁移能力
tableIdentifier 在其中执行MergeInto操作的Hudi表的名称。 target_alias 目标表的别名。 sub_query 子查询。 source_alias 源表或源表达式的别名。 merge_condition 将源表或表达式和目标表关联起来的条件 condition 过滤条件,可选。