检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业无法正常运行。 ClickHouse 导入前清理数据 导入前清空原表的数据。“True”为执行清空,“False”为不执行。不配置此参数则默认不执行清空。 说明: 如果导入的表为ClickHouse分布式表,且需要清理数据时,请在导入前手动删除ClickHouse分布式表对应的本地表中的数据。
典型场景:从HDFS/OBS导入数据到HBase 操作场景 该任务指导用户使用Loader将文件从HDFS/OBS导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户已授权
典型场景:从FTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从FTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。若源文件在导入后文件名要
导入并配置Hive样例工程 导入并配置Hive JDBC样例工程 导入并配置Hive HCatalog样例工程 导入并配置SpringBoot样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
导入并配置Hive样例工程 导入并配置Hive JDBC样例工程 导入并配置Hive HCatalog样例工程 导入并配置SpringBoot样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;
获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;
导入并配置Hive样例工程 导入并配置Hive JDBC/HCatalog样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
导入并配置Hive样例工程 导入并配置Hive JDBC/HCatalog样例工程 配置Hive Python样例工程 配置Hive Python3样例工程 父主题: 准备Hive应用开发环境
说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件 “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件 TEXT_FILE
${CONDITIONS} 表列名 配置要导入的列,使Loader将列的内容全部导入。配置多个字段时使用“,”分隔。 如果不配置,则导入所有列,同时“Select *”的顺序作为列的位置。 - 分区列名 指定数据库表的一列,根据该列来划分要导入的数据,在Map任务中用于分区。建议配置主键字段。
配置ClickHouse通过Kerberos认证对接Kafka 配置ClickHouse对接普通模式Kafka 父主题: ClickHouse数据导入
${CONDITIONS} 表列名 配置要导入的列,使Loader将列的内容全部导入。配置多个字段时使用“,”分隔。 如果不配置,则导入所有列,同时“Select *”的顺序作为列的位置。 - 分区列名 指定数据库表的一列,根据该列来划分要导入的数据,在Map任务中用于分区。建议配置主键字段。
选择CLICKHOUSE。 - ClickHouse实例 选择ClickHouse。 - 导入前清理数据 选择“true”或“false”。 说明: 如果导入的表为ClickHouse分布式表,且需要清理数据时,请在导入前手动删除ClickHouse分布式表对应的本地表中的数据。 true 单击“保存并运行”,开始保存并运行作业。
说明 示例 文件类型 文件导入后保存的类型: “TEXT_FILE”:导入文本文件并保存为文本文件 “SEQUENCE_FILE”: 导入文本文件并保存在“sequence file”文件格式 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件 TEXT_FILE
作业无法正常运行。 ClickHouse 导入前清理数据 导入前清空原表的数据。“True”为执行清空,“False”为不执行。不配置此参数则默认不执行清空。 说明: 如果导入的表为ClickHouse分布式表,且需要清理数据时,请在导入前手动删除ClickHouse分布式表对应的本地表中的数据。
使用Loader从FTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从FTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。如果源文件在导入后文件名
s,更容易控制导入数据单批次数据量,避免大量小文件产生。如果确实已经使用了Routine Load进行导数,在没整改前请配置FE“max_tolerable_backend_down_num”参数值为“1”,以提升导入数据可靠性。 建议低频攒批导入数据,平均单表导入批次间隔需大于
如何在导入Hive表时指定输出的文件压缩格式? 问题现象 如何在导入Hive表时指定输出的文件压缩格式? 处理步骤 当前Hive支持以下几种压缩格式: org.apache.hadoop.io.compress.BZip2Codec org.apache.hadoop.io.compress
获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;