AI开发平台MODELARTS-PMI:输入参数说明

时间:2024-05-28 16:22:36

输入参数说明

参数名称

参数描述

参数要求

doc_col_name

分词后的文本列

string类型;必填;多列时每列当做单独的句子处理

doc_sep

分词列中的词分隔符

string类型;必填;默认为" "

min_count

最小词频

integer类型;非必填;默认为5,小于该值的词会被过滤掉,不填则识别为0,取值范围[0,2147483647]

window_size

滑动窗口大小

integer类型;非必填;默认为整行,取值范围[1, 2147483647]

partitions

数据重分区数

integer类型;非必填;取值范围[1,5000];

  1. partitions

大数据量情况下建议partitions重分区数取大一些,100w长文本数据建议取1000,500w长文本数据建议取2000,如果在前两种场景下用户自定义partitions小于需求值,系统会自动替换为需求值(即前面的1000,2000)。

  1. 资源配置

数据量较大时建议采用更大的资源配置,可以设置executor memory大一些,参考配置如下:

cluster 32配置:

--executor-memory 8G \

--executor-cores 2 \

--num-executors 14 \

--driver-cores 4 \

--driver-memory 15G \

cluster 64配置:

--executor-memory 24G \

--executor-cores 6 \

--num-executors 10 \

--driver-cores 4 \

--driver-memory 15G \

  1. 参数配置

如果运行效率过慢,可考虑增大资源配置,或修改min_count、window_size参数,min_count大一些,window_size小一些。

support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0276.html