AI开发平台MODELARTS-孤立森林[PySpark版]:参数说明
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
b_use_default_encoder |
是 |
是否对数据中的类别型特征列进行编码处理。 |
True |
input_features_str |
否 |
选择特征列,逗号分隔。 |
无 |
num_trees |
是 |
孤立森林中树的个数。 |
100 |
bootstrap |
是 |
采样数据构建孤立树时是否为有放回采样。 |
False |
max_samples |
是 |
训练单棵孤立树的最大样本个数,该值小于1.0时该值乘以总样本数取整得到单棵孤立树的训练样本数,大于1.0时取整得到单棵数的训练样本数。 |
256.0 |
max_features |
是 |
参与训练的特征数,小于等于1.0时特征为该值乘以总特征个数。 |
1.0 |
feature_vector_col |
是 |
input_features_str中的特征列处理为向量列后的列名。 |
"assembled_features" |
prediction_col |
是 |
预测结果列名。 |
"prediction" |
score_col |
是 |
异常分数列,该列数值为孤立森林算法中每个样本的分数值,值越大异常可能越大。 |
"outlier_score" |
contamination |
是 |
异常值比例,取值0到1浮点数,score_col列中数值大于contamination * 100%分位数值的样本视为异常值, 如果为0.0则prediction_col列输出均为0.0非异常。 |
0.0 |
contamination_error |
是 |
计算分位数时允许的误差,如果为0.0则实际计算时为contamination * 0.01。 |
0.0 |
seed |
是 |
随机种子。 |
0 |