网络智能体-创建特征工程
创建特征工程
用户可以在“数据集详情”页面基于数据集实例新建特征工程,对数据集执行特征操作;也可以在“特征工程管理”页面新建特征工程。我们以在“特征工程管理”页面创建特征工程为例,操作步骤如下。
- 单击“特征工程管理”页面的。
弹出“特征处理”对话框。如图1所示。配置“特征处理”对话框参数,具体参见特征工程参数配置说明。
表1 特征工程参数配置说明 参数名称
参数说明
工程名称
特征工程的名称。
只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线“_”、“-”组成,不能以下划线结尾,且长度为[1-50]个字符。
工程描述
特征工程描述信息。
最多不超过500个字符。
开发模式
特征工程的开发环境:
开发平台
开发模式选择“旧版体验式开发”时展现,表示特征工程处理数据集的计算平台:
- Python:对于小数据量的数据集实例,选择使用Python。python 分为local python与modelarts python,特征工程单步操作支持根据数据量大小,自动选择其中一种python执行,减少单步特征操作执行时间,提升用户体验。
- Spark:对于大数据量的数据集实例,选择使用Spark,但是创建过程会比较慢。
AI引擎
特征处理算子运行平台。
规格
AI引擎的资源配置信息。
数据集
从下拉框中选择数据集。
从下拉框中选择数据。
选择文件
直接导入已有的特征工程包,对数据进行特征处理。
- 单击“创建”,创建特征工程,并进入“特征工程编辑”页面。如图2所示。
表2 特征工程编辑界面说明 区域
说明
1
特征工程信息区域。包括开发平台、数据类型、数据集名称。
2
特征工程当前操作结果概览。包括当前数据行、原始数据行、当前数据列、原始数据列、当前执行的特征操作流个数。
3
包含如下操作:
- 配置:配置“Notebook开发”中的超参。配置超参可以调用平台提供的SDK能力,以超参名称为“test”为例,SDK如下:
sai.get_hyper_param("test", type=str)
用户单击“配置”,在弹出的“配置参数”对话框中分别输入“参数名”、“默认值”和“当前值”,即可修改超参值。
- 执行记录:查看全量数据应用的历史记录。并支持在“执行记录”中删除全量数据应用操作或重新执行全量数据应用操作。
- 执行:将特征操作流应用在导入特征工程的全量数据上,并生成经过特征处理的新数据。
4
特征操作明细区域。
单击“特征操作流总览”,查看特征操作流详情,单击每个特征操作名称前面的圆形图标,可以查看每个操作的特征处理效果。
仅支持对最后一个特征处理操作进行编辑修改或删除操作。
5
特征操作区域。支持数据采样、列筛选、数据准备、特征操作、Notebook开发、绘制Mini图、绘制图形、数据过滤以及数据验证功能。具体操作请参见“特征工程”各章节内容介绍。
- 数据采样
- 列筛选
- 数据准备
- 特征操作
- Notebook开发
- 绘制Mini图:选中特征列,单击图标,选择箱线图、折线图或面积图即可。支持同时选中多列进行操作。有些数据类型不支持绘制Mini图,如“Text”类型,操作时请注意界面右上角的提示信息。
- 绘制图形:选中特征列,单击图标,选择需要展示的图形形式即可。支持同时选中多列进行操作。有些数据类型不支持绘制图形,如“Text”类型,操作时请注意界面右上角的提示信息。
- 数据过滤:类似Excel文档的数据过滤功能,同时支持对数据进行排序展示和有条件过滤展示。
- 数据验证:单击图标,对全量数据进行数据验证,查看是否有空值,可通过单击和,分别查看上一处和下一处空值。
- 配置:配置“Notebook开发”中的超参。配置超参可以调用平台提供的SDK能力,以超参名称为“test”为例,SDK如下: