检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive输出 概述 “Hive输出”算子,用于配置已生成的字段输出到Hive表的列。 输入与输出 输入:需要输出的字段 输出:Hive表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
表输出 概述 “表输出”算子,用于配置输出的字段对应到关系型数据库的指定列。 输入与输出 输入:需要输出的字段 输出:关系型数据库表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。 说明: 该配置仅用于MySQL专用连接器,当数据列内容
文件输出 概述 “文件输出”算子,用于配置已生成的字段通过分隔符连接并输出到文件。 输入与输出 输入:需要输出的字段 输出:文件 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。 string 是 无 换行符 用户根据数据实际情况,填写字
HBase输出 概述 “HBase输出”算子,用于配置已生成的字段输出到HBase表的列。 输入与输出 输入:需要输出的字段 输出:HBase表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通HBase表)和phoenix表。
配置Flink任务并行度 操作场景 并行度控制任务的数量,影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀
登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > Flume”进入Flume服务界面,在右上角选择“更多 > 下载客户端”,选择“选择客户端类型”为“完整客户端”,下载Flume服务客户端文件。 客户端文件名称为“FusionInsight_Clust
失的现象。对数据可靠性要求高的场景请慎重配置。 操作步骤 参数入口: 在FusionInsight Manager系统中,选择“集群 > 服务 > HBase > 配置”,单击“全部配置”。在搜索框中输入参数名称,并进行修改。 表1 提升连续Put场景性能的参数 参数 描述 配置值
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
使用Hue提交Oozie Loader作业 操作场景 该任务指导用户通过Hue界面提交Loader类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Loader”按钮,将其拖到操作区中。 在弹出的“Loader”窗口中配置“Job
配置Oozie节点间用户互信 操作场景 在使用Oozie节点通过SSH作业执行外部节点的Shell,需要单向免密互信时,可以参考此示例。 前提条件 已经安装Oozie,而且能与外部节点(SSH连接的节点)通信。 操作步骤 在外部节点上确保连接SSH时使用的用户存在,且该用户“~/
使用Hue提交Bundle批处理作业 操作场景 当同时存在多个定时任务的情况下,用户可以通过Bundle任务进行批量管理作业。该任务指导用户通过Hue界面提交批量类型的作业。 前提条件 提交Bundle批处理之前需要提前配置好相关的Workflow和Coordinator作业。 操作步骤
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
DELETE 语法 DELETE FROM table_name [ WHERE condition ] 描述 从表中删除数据行。 当前版本,使用delete可以删除整个表的数据,或者分区表的指定分区。 对于事务表(指定了属性transactional = true),如果指定了
LOAD 语法 LOAD DATA INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=value1,partcol2=values2…)] 描述 LOAD DATA命令用于从文件或者文件夹加载数据到table。
COMMIT 语法 COMMIT [ WORK ] 描述 用于提交当前的事务。 示例 COMMIT; COMMIT WORK; 父主题: HetuEngine TCL SQL语法说明
SELECT 语法 [/*+ query_rewrite_hint*/] [ WITH [ RECURSIVE ] with_query [, ...] ] SELECT [ ALL | DISTINCT ] select_expression [, ...] [ FROM from_item
UNNEST UNNEST可以将ARRAY或MAP展开成relation。 ARRAYS展开为单独一列,MAP展开为两列(key,value)。 UNNEST还可以与多个参数一起使用,将被展开成多列,行数与最高基数参数相同(其他列用空填充)。 UNNEST可以选择使用WITH O
JOINS 允许合并多个relation的数据。 HetuEngine支持JOIN类型为:CROSS JOIN、INNER JOIN、OUTER JOIN(LEFT JOIN、RIGHT JOIN、FULL JOIN)、SEMIN JOIN和ANTI JOIN。 CROSS JOIN
HetuEngine数据类型隐式转换 开启HetuEngine数据类型隐式转换 关闭HetuEngine数据类型隐式转换 HetuEngine隐式转换对照表 父主题: HetuEngine常见SQL语法说明
WebUI界面从Opengauss导入数据到Hudi。 该章节内容适用于MRS 3.3.0及之后版本支持。 前提条件 集群已安装CDL、Hudi服务且运行正常。 Opengauss数据库需要开启预写日志功能,操作步骤请参考Opengauss数据库开启预写日志功能。 在FusionInsight