AI开发平台MODELARTS-孤立森林[PySpark版]:参数说明

时间:2024-07-01 18:06:58

参数说明

参数

是否必选

参数说明

默认值

b_use_default_encoder

是否对数据中的类别型特征列进行编码处理。

True

input_features_str

选择特征列,逗号分隔。

num_trees

孤立森林中树的个数。

100

bootstrap

采样数据构建孤立树时是否为有放回采样。

False

max_samples

训练单棵孤立树的最大样本个数,该值小于1.0时该值乘以总样本数取整得到单棵孤立树的训练样本数,大于1.0时取整得到单棵数的训练样本数。

256.0

max_features

参与训练的特征数,小于等于1.0时特征为该值乘以总特征个数。

1.0

feature_vector_col

input_features_str中的特征列处理为向量列后的列名。

"assembled_features"

prediction_col

预测结果列名。

"prediction"

score_col

异常分数列,该列数值为孤立森林算法中每个样本的分数值,值越大异常可能越大。

"outlier_score"

contamination

异常值比例,取值0到1浮点数,score_col列中数值大于contamination * 100%分位数值的样本视为异常值, 如果为0.0则prediction_col列输出均为0.0非异常。

0.0

contamination_error

计算分位数时允许的误差,如果为0.0则实际计算时为contamination * 0.01。

0.0

seed

随机种子。

0

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0245.html
推荐文章