网络智能体-数据集操作:数据连接

时间:2025-02-12 14:52:09

数据连接

数据连接可以将特征维度不完全相同,且必须至少一个特征是相同的数据集,通过数据连接,合并成一个具备更多特征列的数据集。

数据连接是基于主键字段列,即两个数据集的相同特征列,采用leftouter、rightouter、inner、outer连接方式,连接两个数据集实例。

数据连接的两份数据的键值必须相同,否则系统无法进行数据连接。

将两份数据分别理解为左表和右表。连接方式说明如下:

  • leftouter:以左表为主,返回所有左表数据以及匹配的右表数据。右表重复字段名加后缀__duplicate。
  • rightouter:以右表为主,返回所有右表数据以及匹配的左表数据。左表重复字段名加后缀__duplicate。
  • inner:以左表为主,返回左表和右表同时匹配的数据。右表重复字段名加后缀__duplicate。
  • outer:以左表为主,返回左表和右表所有的数据。右表重复字段名加后缀__duplicate。

以如下表1表2为例,键值为ID列,则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3表4表5表6

表1 左表数据

ID

Name

Height

1

A

1

3

B

2

5

C

2

7

D

2

9

E

2

表2 右表数据

ID

Name

Weight

2

A

2

4

B

3

5

C

4

7

D

5

表3 Leftouter数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

9

E

2

null

null

5

C

2

C

4

1

A

1

null

null

3

B

2

null

null

表4 Rightouter数据连接

ID

Name__duplicate

Height

Name

Weight

7

D

2

D

5

5

C

2

C

4

2

null

null

A

2

4

null

null

B

3

表5 Inner数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

5

C

2

C

4

表6 Outer数据连接

ID

Name

Height

Name__duplicate

Weight

7

D

2

D

5

9

E

2

null

null

5

C

2

C

4

1

A

1

null

null

3

B

2

null

null

2

null

null

A

2

4

null

null

B

3

数据连接操作步骤如下。

  1. 单击数据目录区域框中的,弹出“数据连接”对话框,如图1所示。

    图1 数据连接界面

  2. 配置“数据连接”对话框参数:

    • 主数据集:主数据集、主 数据实例 、键值。
    • 扩展数据集:扩展数据集、扩展数据实例、键值。
    • 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。
    • 连接方式:leftouter、rightouter、inner、outer。

  3. 单击“确定”,执行数据连接。

    数据连接完成后,系统在目标数据集下生成一个新数据集实例,名称即为目标数据名称。

support.huaweicloud.com/usermanual-naie-model-training/naie_model_training_03_0014.html