输入算子-华为云

MAPREDUCE服务 MRS-Spark输入:样例

样例以SPARK导出到sqlserver2014数据库为例。在sqlserver2014上创建一张空表“test_1”用于存储SparkSQL数据。执行以下语句： create table test_1 (id int, name text, value text); 配置“Spark输入”算子，生成三个字段A、B和C：设置了数据连接器后，单击“自动识别”，系统将自动读取数据库中的字段，可根据需要选择添加，然后根据业务场景手动进行完善或者修正即可，无需逐一手动添加。此操作会覆盖表格内已有数据。通过“表输出”算子，将A、B和C输出到“test_1”表中： select * from test_1;

MAPREDUCE服务 MRS 输入算子

MAPREDUCE服务 MRS-Spark输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 Spark数据库 SparkSQL的数据库名称。 String 否 default Spark表名配置SparkSQL表名。仅支持一个SparkSQL表。 String 是无分区过滤器配置分区过滤器可以导出指定分区数据，默认为空，导出整个表数据。例如导出分区字段locale的值为“CN”或“US”的表数据，输入如下： locale = "CN" or locale = "US" String 否 - Spark输入字段配置SparkSQL输入信息：列名：配置SparkSQL列名。字段名：配置输入字段名。类型：配置字段类型。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 -

MAPREDUCE服务 MRS 输入算子

MAPREDUCE服务 MRS-HTML输入:数据处理规则

数据处理规则首先配置父标签，限定搜索范围，父标签要存在，否则取到的内容为空。配置输入字段，子标签用于精确定位字段所在的标签，相同的标签再通过关键字来精确匹配。关键字用于匹配字段的内容，配置方法类似于“输入设置”中的“文件过滤器”字段，支持“*”通配符，提供三种标记用于辅助定位，分别为： “#PART”标记，表示取被通配符“*”所匹配的值，如果存在多个“*”号，可以指定一个序号，按从左到右的顺序，取得对应序号的“*”所配置的内容。例如“#PART1”，表示取第1个“*”号匹配的值；“#PART8”，表示取第8个“*”号匹配的值。 “#NEXT”标记，表示取当前匹配的标签的下一个标签的值。 “#ALL”标记，表示取当前匹配的标签的所有内容作为值。配置的标签有误时，取到的值为空，不会报错。

MAPREDUCE服务 MRS 输入算子

MAPREDUCE服务 MRS-HTML输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值父标签所有字段的上层HTML标签，用于限定搜索范围。 string 是无文件名自定义一个字段，以当前数据所在的文件名作为该字段值。 string 否无绝对文件名配置“文件名”引用文件名环境，选中单选框时是带绝对路径的文件名；不选中单选框时是不带路径的文件名。 boolean 否否验证输入字段检验输入字段与值的类型匹配情况，值为“NO”，不检查；值为“YES”，检查。若不匹配则跳过该行。 enum 是 YES 输入字段配置输入字段的相关信息：位置：目标字段对应的位置，从1开始编号。字段名：配置字段名。字段所在的标签：字段的标签。关键字：配置关键字，能够匹配标签所在的内容，支持通配符，例如标签内容为“姓名”，可配置关键字“*姓名*”。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是无

MAPREDUCE服务 MRS 输入算子

云服务器内容精选

输入算子

7*24

备案

专业服务

退订

建议反馈

售前咨询热线