网络智能体-数据集操作:数据连接
数据连接
数据连接可以将特征维度不完全相同,且必须至少一个特征是相同的数据集,通过数据连接,合并成一个具备更多特征列的数据集。
数据连接是基于主键字段列,即两个数据集的相同特征列,采用leftouter、rightouter、inner、outer连接方式,连接两个数据集实例。

数据连接的两份数据的键值必须相同,否则系统无法进行数据连接。
将两份数据分别理解为左表和右表。连接方式说明如下:
- leftouter:以左表为主,返回所有左表数据以及匹配的右表数据。右表重复字段名加后缀__duplicate。
- rightouter:以右表为主,返回所有右表数据以及匹配的左表数据。左表重复字段名加后缀__duplicate。
- inner:以左表为主,返回左表和右表同时匹配的数据。右表重复字段名加后缀__duplicate。
- outer:以左表为主,返回左表和右表所有的数据。右表重复字段名加后缀__duplicate。
以如下表1、表2为例,键值为ID列,则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3、表4、表5、表6。
ID |
Name |
Height |
Name__duplicate |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
9 |
E |
2 |
null |
null |
5 |
C |
2 |
C |
4 |
1 |
A |
1 |
null |
null |
3 |
B |
2 |
null |
null |
ID |
Name__duplicate |
Height |
Name |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
5 |
C |
2 |
C |
4 |
2 |
null |
null |
A |
2 |
4 |
null |
null |
B |
3 |
ID |
Name |
Height |
Name__duplicate |
Weight |
---|---|---|---|---|
7 |
D |
2 |
D |
5 |
9 |
E |
2 |
null |
null |
5 |
C |
2 |
C |
4 |
1 |
A |
1 |
null |
null |
3 |
B |
2 |
null |
null |
2 |
null |
null |
A |
2 |
4 |
null |
null |
B |
3 |
数据连接操作步骤如下。