AI开发平台MODELARTS-PMI:输入参数说明
输入参数说明
参数名称 |
参数描述 |
参数要求 |
---|---|---|
doc_col_name |
分词后的文本列 |
string类型;必填;多列时每列当做单独的句子处理 |
doc_sep |
分词列中的词分隔符 |
string类型;必填;默认为" " |
min_count |
最小词频 |
integer类型;非必填;默认为5,小于该值的词会被过滤掉,不填则识别为0,取值范围[0,2147483647] |
window_size |
滑动窗口大小 |
integer类型;非必填;默认为整行,取值范围[1, 2147483647] |
partitions |
数据重分区数 |
integer类型;非必填;取值范围[1,5000]; |
- partitions
大数据量情况下建议partitions重分区数取大一些,100w长文本数据建议取1000,500w长文本数据建议取2000,如果在前两种场景下用户自定义partitions小于需求值,系统会自动替换为需求值(即前面的1000,2000)。
- 资源配置
数据量较大时建议采用更大的资源配置,可以设置executor memory大一些,参考配置如下:
cluster 32配置:
--executor-memory 8G \
--executor-cores 2 \
--num-executors 14 \
--driver-cores 4 \
--driver-memory 15G \
cluster 64配置:
--executor-memory 24G \
--executor-cores 6 \
--num-executors 10 \
--driver-cores 4 \
--driver-memory 15G \
- 参数配置
如果运行效率过慢,可考虑增大资源配置,或修改min_count、window_size参数,min_count大一些,window_size小一些。
- ModelArts是什么_AI开发平台_ModelArts功能
- 语音识别python_文字语音识别_电脑语音识别输入法
- GaussDB查版本命令_GaussDB命令参考_高斯数据库查版本命令-华为云
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- 部署服务快速上手入门教程
- web应用防火墙新增策略_web应用防火墙添加规则_web应用防火墙添加域名
- 数据转发至函数工作流_数据处理_FunctionGraph处理流数据
- 数据安全-数据加密-AK&SK防泄漏
- IPD项目需求管理_IPD需求管理_需求管理工具-华为云