AI开发平台MODELARTS-特征异常平滑:概述

时间:2024-05-28 16:22:36

概述

特征异常平滑算子用于将数据中的异常数据平滑到一定的区间,可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。

  • z-score方式:计算所需要平滑的特征的均值mean和标准差std,并引入置信因子cl

    平滑区间上界:

    平滑区间下界:

  • min-max-per方式:通过上下百分位计算,假设需要平滑的特征列最大值为max,上百分位为max_per,下百分位为min_per

    平滑区间上界:

    平滑区间下界:

  • min-max-thresh方式:直接指定平滑区间的上界和下界
  • boxplot方式:通过箱线图的方式计算平滑区间

    中位数(Q2 / 50th百分位数):数据集的中间值;

    下四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数;

    上四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”);

    四分位间距(IQR):第25至第75个百分点的距离

    上边缘:Q3 + 1.5 * IQR

    下边缘:Q1 -1.5 * IQR

    平滑区间上界:上边缘

    平滑区间下界:下边缘

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0258.html