网络智能体-数据探索:特征分析(特征选择)

时间:2023-11-01 16:13:43

特征分析(特征选择)

特征选择就是使用算法对特征进行相关性分析,根据结果从众多特征中剔除不重要的特性,从而保留重要的特性。

当前系统支持如下两种特征选择方法:

  • 过滤法(Filter)

    按照发散性或者相关性对各个特征进行评分,设定待选择评分数最高的特征个数,选择特征。

  • 包装法(Wrapper)

    算法每次根据皮尔逊相关系数选择一个相关系数最大的特征进行丢弃,并进行模型训练得出精度,当精度低于设置的阈值时,停止丢弃特征。

使用过滤法时提供如下算法:

  • 卡方检验

    卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度。实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若卡方值为0,表明实际值与理论值完全符合。

  • F检验

    F检验是一种在零假设之下,统计值服从F-分布的检验。

  • 信息增益

    信息增益是对两个随机变量之间相关信息量的度量,值越大说明变量之间的相关性越强。

上述算法中,卡方检验、F检验和信息增益可用于分类任务,F检验和信息增益可用于回归任务。

  1. 在JupyterLab环境编辑区域,“选择数据”代码框下方单击“数据探索”。
  2. 选择“特征分析”页签。
  3. 在左侧目录树上单击“特征选择”。
  4. 设置“标签列”、“方法”、“算法”等参数,具体参数说明如表2所示。

    表2 参数说明

    参数

    参数说明

    标签列

    单击“”选择标签列,用以分析特征列和标签列的相关性。

    方法

    特征分析可选用的方法,目前支持如下两种方法:

    • 过滤法(Filter)
    • 包装法(Wrapper)

    算法

    “方法”选择“过滤法”时可选用的具体分析算法,目前支持如下算法:

    • 卡方检验
    • F检验
    • 信息增益

    选择特征数

    特征分析完成后按相关性大小展示的Top N特征数。

    标签列是否为类别型

    标签列设置后,该参数会根据标签列的类型自动判断是否为类别型,用户可使用默认值。

    随机种子

    “算法”为“信息增益”时设置,用以生成随机数。

    排除特征列

    执行包装法前需要排除的特征列,这些被排除的列不参与后续特征选择,单击“”选择排除特征列。

    指标阈值

    模型训练精度阈值。使用“包装法(Wrapper)”会对特征进行反复训练,当训练结果精度低于设置的阈值时,停止丢弃特征。

    提交分析请求。

    提交分析任务至分析完成期间,可单击此按钮终止分析任务。

    截取Top N柱状图。用户可以另存图片至本地使用。

    清空界面上的相关性分析Top N柱状图截图。

  5. 单击“分析”。

    系统自动分析完成后,将以柱状图和列表形式展示分析结果,柱状图中展示的特征列的个数即为设置的“选择特征数”值。列表默认按照相关性评分降序展示所有的特征列。

  6. 选择特征列。

    • 保留分析结果所有Top N个特征列。
      1. 单击Top N柱状图结果下方的“应用”。

        页面跳转至JupyterLab环境编辑区域并生成“选择特征”代码框,“列选择”下展示的“列名”为柱状图展示的所有特征列。

      2. 单击图标,运行“选择特征”代码框内容。
    • 保留部分分析结果中的特征列。
      1. 勾选“分析结果”列表中特征列前的复选框,如需选择所有特征列,可勾选表头中的复选框。
      2. 单击“分析结果”列表下方的“应用”。

        页面跳转至JupyterLab环境编辑区域并生成“选择特征”代码框,“列选择”下展示的“列名”为用户勾选的特征列。

      3. 单击图标,运行“选择特征”代码框内容。

support.huaweicloud.com/usermanual-naie-model-training/naie_model_training_03_0038.html