算子级调优 算子级调优介绍 一个查询语句要经过多个算子步骤才会输出最终的结果。由于个别算子耗时过长导致整体查询性能下降的情况比较常见。这些算子是整个查询的瓶颈算子。
算子级调优 算子级调优介绍 一个查询语句要经过多个算子步骤才会输出最终的结果。由于个别算子耗时过长导致整体查询性能下降的情况比较常见。这些算子是整个查询的瓶颈算子。
算子配置 基础配置项 算子名称: 配置项英文名:name 说明:算子名称,对算子进行个性化的命名,以辅助增加可读性。支持中文、英文、数字、中划线、下划线,长度小于等于64个字符。
样例 源文件如下图: 配置“CSV文件输入”算子,分隔符为“,”,生成两个字段A、B。 将A、B输出,结果如下: 父主题: 输入算子
算子数据处理规则 在Loader导入或导出数据的任务中,每个算子对于原始数据中NULL值、空字符串定义了不同的处理规则;在算子中无法正确处理的数据,将成为脏数据,无法导入或导出。 在转换步骤中,算子数据处理规则请参见下表。
算子配置 基础配置项 算子名称: 配置项英文名:name 说明: 算子名称,对算子进行个性化的命名,以辅助增加可读性。支持中文、英文、数字、中划线、下划线,长度小于等于64个字符。
样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下图: 配置“增加常量字段”算子,增加两个字段C和D: 转换后,将A、B、C和D按顺序输出,结果如下: 父主题: 转换算子
源文件如下: 创建ClickHouse表的语句如下: CREATE TABLE IF NOT EXISTS testck4 ON CLUSTER default_cluster( a Int32, b VARCHAR(100) NOT NULL, c char(100), d DateTime
样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件见下图: 配置“EL操作转换”算子,生成C、D、E和F四个字段: 依次输出这六个字段,结果如下图: 父主题: 转换算子
Loader算子说明 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。
样例 源文件如下: 配置“HTML输入”算子,生成三个字段A、B和C: 依次输出这三个字段,结果如下: 父主题: 输入算子
通过“表输出”算子,将A、B和C输出到“test_1”表中: select * from test_1; 父主题: 输入算子
输出算子
通过“表输出”算子,将A、B和C输出到“test_1”表中: select * from test_1; 父主题: 输入算子
样例 通过“CSV文件输入”算子,生成两个字段a_str和b_str。 源文件如下: 配置“Hive输出”算子,将a_str和b_str输出到Hive的表中。 执行成功后,查看表数据: 父主题: 输出算子
样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: 配置“Spark输出”算子,将A和B输出到SparkSQL的表中。 父主题: 输出算子
样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb,Bigdata 父主题: 输出算子
如何测试算子 当算子功能代码开发完毕后,可以在DWR工作流中使用自定义工作流进行测试。请参考测试算子功能。
配置输出算子,输出到HDFS/OBS,结果如下: 父主题: 输入算子
实时分析输出 算子简介 将经过数据管道清洗后的数据输出到实时分析,作为实时分析的数据来源。 算子配置 算子配置项如图所示: 算子名称:用户指定这个算子的名称。 管道输出数据名称:用户声明这个输出的名称,以便在实时分析作业的“管道数据输入”算子中使用。
您即将访问非华为云网站,请注意账号财产安全