网络智能体-数据探索:特征分析(特征选择)
特征分析(特征选择)
特征选择就是使用算法对特征进行相关性分析,根据结果从众多特征中剔除不重要的特性,从而保留重要的特性。
当前系统支持如下两种特征选择方法:
使用过滤法时提供如下算法:
- 卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若卡方值为0,表明实际值与理论值完全符合。
- F检验
- 信息增益
上述算法中,卡方检验、F检验和信息增益可用于分类任务,F检验和信息增益可用于回归任务。
- 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
- 选择“特征分析”页签。
- 在左侧目录树上单击“特征选择”。
- 设置“标签列”、“方法”、“算法”等参数,具体参数说明如表2所示。
表2 参数说明 参数
参数说明
标签列
单击“”选择标签列,用以分析特征列和标签列的相关性。
方法
特征分析可选用的方法,目前支持如下两种方法:
- 过滤法(Filter)
- 包装法(Wrapper)
算法
“方法”选择“过滤法”时可选用的具体分析算法,目前支持如下算法:
- 卡方检验
- F检验
- 信息增益
选择特征数
特征分析完成后按相关性大小展示的Top N特征数。
标签列是否为类别型
标签列设置后,该参数会根据标签列的类型自动判断是否为类别型,用户可使用默认值。
随机种子
“算法”为“信息增益”时设置,用以生成随机数。
排除特征列
执行包装法前需要排除的特征列,这些被排除的列不参与后续特征选择,单击“”选择排除特征列。
指标阈值
模型训练精度阈值。使用“包装法(Wrapper)”会对特征进行反复训练,当训练结果精度低于设置的阈值时,停止丢弃特征。
提交分析请求。
提交分析任务至分析完成期间,可单击此按钮终止分析任务。
截取Top N柱状图。用户可以另存图片至本地使用。
清空界面上的相关性分析Top N柱状图截图。
- 单击“分析”。
系统自动分析完成后,将以柱状图和列表形式展示分析结果,柱状图中展示的特征列的个数即为设置的“选择特征数”值。列表默认按照相关性评分降序展示所有的特征列。
- 选择特征列。