华为云用户手册

  • 数据去噪 用户可以通过数据去噪,筛选掉时间序列中的异常数据。噪声分析方法: 通过局部线性回归的方法对数据进行平滑处理,得到每个点对应的预测值。 通过观测值与预测值之间的误差error的3sigma确定误差上限,超出上限的点为噪声点。 系统会从原始数据中去除上述噪声点,并采用线性插值的方法对去除噪声的数据进行填充。操作步骤如下。 单击表头,选择需要数据去噪的特征列。 单击“数据准备”,从下拉框中选择“数据去噪”。 弹出“数据去噪”对话框。检查“已选择特征”是否为用户选择的特征列。 单击“确定”,执行数据去噪。
  • 数据修复 用户可以在数据修复中对单列进行空值修复、无效值修复,以及根据取值范围进行修复,多列或者全选所有特征列进行空值修复。系统有默认的修复策略,用户也可以自行配置修复策略。操作步骤如下。 单击表头,选择需要进行数据修复的特征列。 单击“数据准备”,从下拉框中选择“数据修复”。 弹出“数据修复”对话框。参数设置如下所示: 检查“已选择特征”是否为用户选择的特征列。 配置“修复策略”如表1所示。 表1 修复策略配置 参数 参数说明 NA值 对特征列样本中的空值进行修复,修复策略有: 丢弃:直接丢弃空值所在行。 替换值:以用户指定的数值替换空值。 系统默认丢弃空值。 无效值 对特征列样本中的无效值进行修复,修复策略有: 丢弃:直接丢弃无效值所在行。 替换值:以用户指定的数值替换无效值。 系统默认丢弃无效值。 取值范围 对特征列样本中指定取值范围内的数据进行修复。 用户配置样本数据的取值范围,系统丢弃取值范围之外的数据。 系统默认不根据取值范围进行数据修复。 单击“确定”,执行数据修复。
  • 数据过滤 用户可以配置单列特征的过滤方式和过滤规则,筛选掉冗余的样本数据行,或者仅保留有效的样本数据行。操作步骤如下。 单击表头,选择需要进行数据过滤的特征列。 单击“数据准备”,从下拉框中选择“数据过滤”。 弹出“数据过滤”对话框。参数设置如下所示: 检查“已选择特征”是否为用户选择的特征列。 配置“过滤方式”和“过滤规则”如表2所示。 表2 过滤策略配置 参数 参数说明 过滤方式 过滤方式有两种: 保留行:保留符合过滤规则的样本数据行。 丢弃行:丢弃符合过滤规则的样本数据行。 过滤规则 过滤规则根据样本数据值进行配置: 大于:保留或丢弃大于指定值的样本数据行。 小于:保留或丢弃小于指定值的样本数据行。 等于:保留或丢弃等于指定值的样本数据行。 单击“确定”,执行数据过滤。
  • 模型验证 模型验证界面已经预置了模型验证服务,本次不使用,仅供参考。下面会提供端到端的操作流程,帮助用户快速熟悉模型验证界面操作。 单击菜单栏中的“模型验证”,进入模型验证界面。 可以看到预置的模型验证任务“hardisk-detect”。 单击“创建”,弹出如图1所示的对话框。 配置参数“名称”为验证服务名称,示例:Harddisk。 图1 创建验证服务 单击“确定”,进入验证服务详情界面。 单击界面右上角的图标,进入代码编辑界面。 在左侧代码目录树中,单击“validation.py”文件,右侧展示文件内容,先清空文件内容。 打开预置项目“hardisk-detect”中的“validation.py”文件,拷贝文件内容,至当前文件中,并“Ctrl+S”保存文件。 在左侧目录树中,选中根目录节点“Harddisk”,单击目录树上方的图标,在弹出的“新建文件夹”对话框中,输入目录名称“hardisk”。 选中新建目录“hardisk”,单击目录树上方的图标,在弹出的“新建文件”对话框中,输入文件名称“utils.py”。 在左侧目录树中,单击“utils.py”打开文件,拷贝预置项目“hardisk-detect”中同名文件的代码至此文件中,“Ctrl+S”保存文件。 单击界面右上角的“验证”图标,弹出“验证配置”对话框,如图2所示。 参数配置说明,如下所示: 指标配置:指标配置于验证用例中,用于和模型实际训练结果比较,以判断验证用例是否通过。 一个指标需要设置“指标名称”,“指标类型”和“默认值”,如本例中设置“指标名称”为“acc”,“指标类型”为“Float”,“默认值”为“0.9”。完成一个指标设置后单击右侧的“”,可在下方生成该指标。支持设置多个指标。 场景名:验证场景的名字,示例:hardisk_validation。 执行入口:验证任务的主入口文件及方法,请设置为“validation.py”和“model_validation”。 用例:一行配置一个具体的模型包验证用例,需要设置用例名(示例:test)、数据集、 数据实例 和验证指标值。可单击右侧的图标,设置多条用例。 本例已写入数据集实例,无需再设置。在其他场景中,可根据实际情况设置。 AI引擎:从第一个下拉框中选择AI引擎“TensorFlow”,从第二个下拉框中选择匹配的python语言版本“TF-1.13.1-python3.6”。 计算节点规格:模型验证的资源配置信息。 图2 验证配置 单击“保存”,返回模型验证代码编辑界面。 单击界面右上角的“关闭”图标,返回到验证任务详情界面。 如果需要修改验证配置,可以单击界面右上方的图标,在弹出的对话框中,修改配置参数。 单击界面右上方的图标,在弹出的“创建验证任务”对话框内,设置模型包名称,如图3所示。 图3 创建验证任务 单击“确定”,系统开始执行验证任务。 可单击验证任务右侧的图标,查看系统日志、运行结果日志和运行图。 模型验证结束后,单击验证任务右侧的图标,查看模型验证报告,如图4所示。 图4 模型验证报告 如图4所示,用例执行结果为PASS,表示模型包验证结果达到预期。“acc指标”列的取值“0.98/0.9”分别为实际运行结果和验证服务配置的阈值。 单击界面右上角的“返回”,在验证任务详情界面,单击“展示历史指标”,可查看模型包实际运行值的历史折线图,如图5所示。 图5 模型包历史验证结果 父主题: 使用模型训练服务快速训练算法模型
  • 文档导读 本文档包含了使用模型训练服务前的准备工作、如何使用模型训练服务导入数据、特征操作、模型训练、模型打包、模型验证以及云端推理框架的操作指导,用户可以根据文档导读查找需要的内容。 表1 文档导读 阶段 章节 了解模型训练服务 训练服务简介 模型训练服务的操作流程简介及访问服务的流程 操作流程 访问训练平台 熟悉模型训练服务中数据集、特征工程、模型训练、及模型管理相关操作 项目创建 数据集 特征工程 模型训练 模型管理 在线对训练模型进行测试验证 模型验证 模型发布成服务后,在线验证模型推理效果 云端推理框架 父主题: 用户指南
  • 数据联合 数据连接操作后,新生成的数据,其特征列会增多;数据联合操作后,数据集实例的样本量会增多。 数据联合,是合并两份数据的样本,合并后数据的样本量是两份数据样本量的总和。 左表和右表特征列数不一致时,按照如下情况处理: 左表特征列数多,右表不足的特征列补充空值。 右表特征列数多,以左表为准,删除右表多余的特征列。 单击“数据目录”区域框中的,弹出“数据联合”对话框,如图2所示。 图2 数据联合界面 配置“数据联合”对话框参数: 主数据集:主数据集、主数据实例。 扩展数据集:扩展数据集、扩展数据实例。 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。 展开高级配置,用户可以根据界面展示的左数据特征、左数据类型、右数据特征、右数据类型,手动配置需要匹配的特征列。 单击“确定”,执行数据联合。 数据联合完成后,系统在目标数据集下生成一份新数据,名称即为目标数据实例名称。
  • 数据连接 数据连接可以将特征维度不完全相同,且必须至少一个特征是相同的数据集,通过数据连接,合并成一个具备更多特征列的数据集。 数据连接是基于主键字段列,即两个数据集的相同特征列,采用leftouter、rightouter、inner、outer连接方式,连接两个数据集实例。 数据连接的两份数据的键值必须相同,否则系统无法进行数据连接。 将两份数据分别理解为左表和右表。连接方式说明如下: leftouter:以左表为主,返回所有左表数据以及匹配的右表数据。右表重复字段名加后缀__duplicate。 rightouter:以右表为主,返回所有右表数据以及匹配的左表数据。左表重复字段名加后缀__duplicate。 inner:以左表为主,返回左表和右表同时匹配的数据。右表重复字段名加后缀__duplicate。 outer:以左表为主,返回左表和右表所有的数据。右表重复字段名加后缀__duplicate。 以如下表1、表2为例,键值为ID列,则按照leftouter、rightouter、inner、outer连接后的返回值分别如表3、表4、表5、表6。 表1 左表数据 ID Name Height 1 A 1 3 B 2 5 C 2 7 D 2 9 E 2 表2 右表数据 ID Name Weight 2 A 2 4 B 3 5 C 4 7 D 5 表3 Leftouter数据连接 ID Name Height Name__duplicate Weight 7 D 2 D 5 9 E 2 null null 5 C 2 C 4 1 A 1 null null 3 B 2 null null 表4 Rightouter数据连接 ID Name__duplicate Height Name Weight 7 D 2 D 5 5 C 2 C 4 2 null null A 2 4 null null B 3 表5 Inner数据连接 ID Name Height Name__duplicate Weight 7 D 2 D 5 5 C 2 C 4 表6 Outer数据连接 ID Name Height Name__duplicate Weight 7 D 2 D 5 9 E 2 null null 5 C 2 C 4 1 A 1 null null 3 B 2 null null 2 null null A 2 4 null null B 3 数据连接操作步骤如下。 单击数据目录区域框中的,弹出“数据连接”对话框,如图1所示。 图1 数据连接界面 配置“数据连接”对话框参数: 主数据集:主数据集、主数据实例、键值。 扩展数据集:扩展数据集、扩展数据实例、键值。 目标数据集:目标数据集、目标数据实例。其中目标数据名称只能以字母(A~Z、a~z)开头,由字母、数字(0~9)、下划线(_)、中划线(-)组成,不能以下划线或中划线结尾,且长度为[1-128]个字符。 连接方式:leftouter、rightouter、inner、outer。 单击“确定”,执行数据连接。 数据连接完成后,系统在目标数据集下生成一个新数据集实例,名称即为目标数据名称。
  • 创建项目 使用模型训练服务进行模型训练前,需要先创建一个项目。模型训练服务会提供一定的计算资源给每个项目。 在模型训练服务首页,单击“创建项目”上方的“+”按钮,弹出“创建项目”对话框,如图1所示。 图1 创建项目 配置“创建项目”对话框参数,如表1所示。 表1 参数说明 参数名称 参数说明 名称 项目的名称。 名称只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)(-)组成,不能以下划线和中划线结尾,且长度为[2-20]个字符。 描述 对项目的简要描述。 字数不能超过500。 类型 创建项目的类型,包括以下几种: 故障类 能源利用 资源利用 用户体验 其他 模板 已有网络领域经验的沉淀,复用已有的网络经验项目。使用模板创建项目后,项目中会预置有相关的数据集、特征处理操作流、模型训练算法以及模型验证算法。当前支持的模板有: KPI异常检测 KPI时序检测 硬盘检测 是否公开 项目是否可以被所属用户组的其他用户访问: 是 否 公开至组 仅当“是否公开”设置为“是”,才会展示“公开至组”。 默认展示当前用户所属的所有用户组,如果勾选用户所属的用户组,则被勾选用户组下的所有用户均可以查看当前项目。 图标 项目图标。 支持用户本地上传。 单击“创建”,完成模型训练服务项目的创建。 父主题: 项目创建
  • 修订记录 发布日期 修订记录 2021-06-30 资料全量优化完成,可支撑用户端到端体验模型训练服务。 2021-03-30 更新“模型管理”章节。 2021-02-25 更新“模型验证”章节。 2021-01-30 更新“模型验证”、“云端推理”章节。 2020-12-30 优化“云端推理”章节。 2020-11-30 优化“数据集”、“特征工程”、“云端推理”章节。 2020-09-30 框架切换,全篇更换截图。 优化“云端推理”章节。 2020-08-17 新增“云端推理”章节。 修改“模型管理”、“模型验证”章节截图。 2020-07-16 Jupyterlab优化,对应特征工程章节截图更新。 模型训练界面优化,对应模型训练章节截图更新。 2020-06-30 模型管理界面新增推理服务入口、新增创建联邦学习案例入口,对应模型管理章节截图更新。 Jupyterlab算子菜单位置及算子分组变更,对应特征工程章节菜单入口描述变更。 Jupyterlab特征工程选择数据增加时序数据选择,并支持多数据选择,对应特征工程章节操作截图全量更新。 2020-03-30 模型训练服务界面优化,模型训练服务操作界面截图全量更新。 2019-12-30 快速入门从鸢尾花分类建模变更为硬盘异常检测建模,资料全部重新写作。 2019-04-30 第一次正式发布。 父主题: 快速入门
  • 云端推理 本章仅以硬盘故障检测为例,旨在介绍操作方法,其他场景请根据实际情况操作。 单击菜单栏的“模型管理”,进入模型管理界面。 单击界面右上角的“开发环境”,弹出“环境信息”对话框。 单击“创建”,在弹出的“新建环境”对话框中,选择规格和实例,保持默认值即可。 单击“确定”,创建一个Webide环境。 待环境创建完成后,单击模型包所在行对应的“开发环境”列,从下拉框中选择新建的Webide环境,如图1所示。 图1 切换Webide开发环境 单击模型包所在行,对应“操作”列的图标,进入Webide代码编辑界面。 在左侧代码目录中展开与模型包同名的文件夹,然后单击“metadata.json”文件,将红框内名字改成实际推理文件文字,如图2所示。 图2 修改metadata.json 在Webide编辑界面左侧代码目录空白区域右键单击鼠标,选择“NAIE Package”。 返回模型管理界面,单击模型包所在行,对应“操作”列图标,弹出“发布推理服务”对话框。 请根据实际情况设置“版本”、“计算节点规格”等信息,或保持默认值也可以,单击“确定”。 等待系统发布推理服务,大约需要10分钟。发布成功后,模型包所在行的图标更新为。 单击模型包右侧的图标,进入推理服务快速验证页面。 在左侧的“验证消息”区域,输入json格式的验证数据,如下所示。 { "smart_1_normalized": { "ZA19CLVQ": 0.176685, "ZA1A6RN7": -1.624761, "ZA1APLSW": -0.223636, "ZA1APWX6": 0.777167, "ZA1AQ5E2": -0.223636 }, "smart_1_raw": { "ZA19CLVQ": 0.218284, "ZA1A6RN7": -1.476697, "ZA1APLSW": -0.488849, "ZA1APWX6": 1.600456, "ZA1AQ5E2": -0.659933 }, "smart_5_raw": { "ZA19CLVQ": -0.12219, "ZA1A6RN7": -0.12219, "ZA1APLSW": -0.12219, "ZA1APWX6": -0.12219, "ZA1AQ5E2": -0.12219 }, "smart_7_normalized": { "ZA19CLVQ": -0.400716, "ZA1A6RN7": -1.372835, "ZA1APLSW": 0.247364, "ZA1APWX6": 0.571403, "ZA1AQ5E2": 0.571403 }, "smart_187_raw": { "ZA19CLVQ": -0.0285, "ZA1A6RN7": -0.028502, "ZA1APLSW": -0.028502, "ZA1APWX6": -0.028502, "ZA1AQ5E2": -0.028502 }, "smart_197_raw": { "ZA19CLVQ": -0.113942, "ZA1A6RN7": -0.113942, "ZA1APLSW": -0.113942, "ZA1APWX6": -0.113942, "ZA1AQ5E2": -0.113942 }, "smart_198_raw": { "ZA19CLVQ": -0.113942, "ZA1A6RN7": -0.113942, "ZA1APLSW": -0.113942, "ZA1APWX6": -0.113942, "ZA1AQ5E2": -0.113942 }, "smart_1_normalized_slope": { "ZA19CLVQ": 1.235054, "ZA1A6RN7": -2.284543, "ZA1APLSW": 2.028689, "ZA1APWX6": 0.26889, "ZA1AQ5E2": 0.510431 }, "smart_1_raw_slope": { "ZA19CLVQ": 1.187602, "ZA1A6RN7": -3.581751, "ZA1APLSW": 0.022689, "ZA1APWX6": 0.506134, "ZA1AQ5E2": 0.060546 }, "smart_5_raw_slope": { "ZA19CLVQ": -0.107928, "ZA1A6RN7": -0.107928, "ZA1APLSW": -0.107928, "ZA1APWX6": -0.107928, "ZA1AQ5E2": -0.107928 }, "smart_7_normalized_slope": { "ZA19CLVQ": -0.254698, "ZA1A6RN7": 0.733461, "ZA1APLSW": 0.107928, "ZA1APWX6": 0.107928, "ZA1AQ5E2": 0.107928 }, "smart_187_raw_slope": { "ZA19CLVQ": -0.02716, "ZA1A6RN7": -0.02716, "ZA1APLSW": -0.02716, "ZA1APWX6": -0.02716, "ZA1AQ5E2": -0.02716 }, "smart_197_raw_slope": { "ZA19CLVQ": -0.063217, "ZA1A6RN7": -0.063217, "ZA1APLSW": -0.063217, "ZA1APWX6": -0.063217, "ZA1AQ5E2": -0.063217 }, "smart_198_raw_slope": { "ZA19CLVQ": -0.063217, "ZA1A6RN7": -0.063217, "ZA1APLSW": -0.063217, "ZA1APWX6": -0.063217, "ZA1AQ5E2": -0.063217 }} 单击“快速验证”,如图3所示。 右侧“返回结果”区域,返回在线推理结果。 图3 快速验证 父主题: 使用模型训练服务快速训练算法模型
  • 测试模型 用测试数据测试模型的泛化能力。训练数据可以是带标签或者不带标签的数据,测试数据一定是带标签的数据,方便评估模型执行效果。 单击“训练模型”左下方的“测试模型”,新增“测试模型”内容。 参数配置均保持默认值。 单击“测试模型”代码框左侧的图标,进行模型评估。 模型测试效果会通过表格的形式在下方展示。 第一列内容的含义如下所示: 0.0:标注为0的所有样本。可以理解为标签。 1.0:标注为1的所有样本。可以理解为标签。 macro average:所有标签结果的平均值。 weighted average:所有标签结果的加权平均值。 第一行内容的含义如下所示,即模型优劣的评价指标: f1-score:F1分数同时考虑精确率和召回率,让两者同时达到最高,取得平衡。 precision:精确率,又被称为查准率,是针对预测结果而言的。含义为在被预测为正的样本中实际为正样本的概率。 recall:召回率,又被称为查全率,是针对原样本而言的。含义为在实际为正的样本中被预测为正样本的概率。 support:每类标签出现的次数。 父主题: 模型训练
  • 通过数据集导入数据后,在开发代码中如何获取这些数据? 模型训练服务提供了SDK供开发人员直接获取数据集,具体使用方式如下所示: 导入模型训练服务SDK。 from naie.datasets import data_referencefrom naie.feature_processing import data_flow 使用get_data_reference获取数据集存放路径。 以数据集“air”、数据集实例“air_20190409”为例,此时SDK返回的是数据集所存储文件路径。 data_reference=get_data_reference(dataset="air",dataset_entity="air_20190409") 父主题: 模型训练
  • 修订记录 发布日期 修订记录 2020-08-30 新增“AutoML的使用入口有哪些?”章节。 更新如下章节内容: 算法工程处理的时候必须要先采样吗? 特征处理操作完成后怎么应用于数据集全量数据? 使用训练模型进行在线推理的推理入口函数在哪里编辑? 通过数据集导入数据后,在开发代码中如何获取这些数据? 2020-03-30 本次版本无变更。 2019-12-30 根据模型训练服务的菜单,对问题进行分类。 2019-10-30 新增如下章节: 如何回到模型训练服务首页? 通过数据集导入数据后,在开发代码中如何获取这些数据? 如何在模型训练时,查看镜像中Python库的版本? 如何在模型训练时,设置日志级别? 如何自定义安装python第三方库? 2019-04-30 第一次正式发布。 父主题: 常见问题
  • S 数据采样 在其他特征操作前先对数据集进行样本采样。数据采样后所有的特征操作,都是基于采样后的数据进行处理,可以减少特征操作处理的数据量,提升特征操作的处理速度。 数据服务 支持网络工参、性能、告警等各种类型数据的快速采集。一方面提供大量工具提升 数据治理 效率,同时应用多租户隔离、加密存储等安全技术,保障数据的全生命周期安全。 数据集 某业务下具有相同数据格式的数据逻辑集合。 数据集实例 数据集的实例,有具体的数据。
  • 模型训练服务首页简介 模型训练服务首页展示了用户自己创建的项目和用户所属租户下面其他用户创建的公开项目,提供如下功能: 创建项目 使用模板快速创建项目,模板中已经预制数据集、特征处理算法、模型训练算法和模型验证算法。 查看和编辑项目信息 模型训练服务首页界面如下图所示。 图1 模型训练服务首页 图2 模型训练服务首页 模型训练服务首页介绍如表1所示。 表1 模型训练服务首页说明 区域 参数名称 参数说明 1 当前服务所属的品牌名称。 单击服务名称图标下拉框,从下拉框中选择服务名称,可以进入对应服务的首页界面。 2 华北-北京一 用户账户所属Region。 当前用户的头像和用户名。 单击用户名右侧的倒三角图标,可查看当前用户创建的所有开发环境和TensorBoard环境,功能说明如下所示: 开发环境:支持启动、停止或删除开发环境(Jupyterlab、WebIDE和Notebook环境)。 TensorBoard:单击“TensorBoard”,可查看TensorBoard环境列表。单击环境列表中的TensorBoard环境名称,可跳转到相应的训练任务。 帮助中心快捷入口。 模型训练服务中英文界面切换按钮。 用户创建项目的通知信息,包括数据集、特征工程、模型训练、模型管理和模型验证中任务执行失败的所有通知。 退出登录图标。 3 创建项目图标。 4 KPI异常检测 KPI时序预测 硬盘检测 模型训练服务预置的网络领域开发模板,可以直接单击“使用模板创建”,生成对应领域的项目,项目中预置了数据集、算法工程操作流、模型训练算法和模型验证算法。 单击模板区域的“详情”,可查看模板在线说明文档。下述直接提供模板文档链接,无需登录即可访问。 KPI异常检测:https://res.hc-cdn.com/TrainService-CF-Product/1.0.28/hws/online-doc/template-notes/KPI.html KPI时序预测:https://res.hc-cdn.com/TrainService-CF-Product/1.0.28/hws/online-doc/template-notes/KPI_CBJ.html 硬盘检测:https://res.hc-cdn.com/TrainService-CF-Product/1.0.28/hws/online-doc/template-notes/HARDISK.html 5 搜索项目名称关键字,快速查找项目。 用户创建项目的时候,选择公开给指定的用户组,则用户组内的所有用户均可见和使用。 用户创建项目的时候,选择不公开,则仅当前用户可见和使用。 Walkthroughs_55068 项目名称。 项目类型 项目分类。 包含如下选项: 故障类 能源利用 资源利用 用户体验 其他 公开 项目是否公开给当前租户下的其他用户查看和使用。 包含如下选项: yes no 创建人 创建项目的用户头像和用户名。 开发环境 分类展示当前项目创建的Jupyterlab、WebIDE和普通的Notebook环境数量。 单击Jupyterlab、WebIDE或Notebook图标,打开当前项目下对应类型的开发环境信息,弹窗中单击“更多”,可以查看其它类型的开发环境列表。 创建时间 项目创建时间。 进入项目总览页面。 支持修改如下项目的信息: 描述 是否公开 自定义项目图标 如果置灰,表示您不是当前项目的创建者,没有权限修改项目信息。 删除项目。 如果置灰,表示您不是当前项目的创建者,没有权限删除项目。 父主题: 项目创建
  • 选择数据 模型训练前,需要选择训练数据和测试数据。建议训练数据和测试数据分成两个实例,方便算法查找训练或测试数据的位置。 单击第一个代码框下方的“选择数据”,弹出“选择数据”代码框。 界面对训练集、验证集和测试集的概念做出了详细的注释。 待配置参数说明,如表1所示。 表1 选择数据 参数 参数说明 训练数据集 从下拉框中选择数据集“AbnormalDetectionData”。 训练数据实例 从下拉框中选择训练数据“train”。 测试数据集 从下拉框中选择数据集“AbnormalDetectionData”。 测试数据实例 从下拉框中选择训练数据“test”。 是否为时序数据 请保持关闭。 如果开启,则需要配置如下参数: 时间列:输入时间列名称。 时间格式:指定时间字段的时间格式。 ID列:数据的标识列。 是否检测周期与平稳性:开启开关会检测时序数据的周期,或判断指定的周期是否为时序数据的周期,以及检测时序数据是否平稳。 如果开启此开关,运行时间会较长,默认关闭此开关。 数据引用变量名 当特征工程需要选择多份数据时,使用此参数给每份选定的数据命名,以免产生冲突。 均保持默认值即可。 单击“选择数据”代码框左侧的图标。运行代码,绑定训练和测试数据实例。 运行成功后,可以查看训练数据和测试数据。 父主题: 模型训练
  • 编辑代码(WebIDE) 支持使用WebIDE开发环境编辑代码。可选择下述一种方式,进入WebIDE开发环境编辑代码: 在“模型训练”菜单页面,“开发环境”为WebIDE环境的情况下,单击联邦学习工程所在行的。。 在“模型训练”菜单页面,单击联邦学习工程所在行,进入详情界面。“开发环境”为WebIDE环境的情况下,单击详情界面右上角的图标。其中“开发环境”必须选择WebIDE环境。 WebIDE界面,如图1所示,界面说明如表1所示。 图1 WebIDE界面 表1 WebIDE界面说明 区域 说明 1 WebIDE菜单栏。 2 代码运行和调试按钮。 :调试代码。 :在终端窗口运行。 :拆分编辑区域,可同时展示多个文件编辑窗口。 3 :文件管理,在文件管理中可以看到所有文件视图,双击文件可在右侧编辑区域编辑。右键单击文件视图空白区域,可打开右键菜单,用户可根据需要使用菜单对应功能。 :查找和替换,输入关键字,在所有文件中查找关键字,并替换关键字。 :git功能,可使用git功能进行版本控制。 :debug面板,调试代码时,可以通过调试面板查看管理变量、堆栈和断点等调试状态。 :插件管理,可以搜索需要的插件并安装,也可以对已安装的插件进行管理,比如卸载、停用等。 :训练任务列表展示,展开训练任务可查看任务下的文件、日志等。 4 代码编辑区。当前联邦学习工程的主算法文件可直接用于训练任务的训练,无需进行导入数据,及加入训练时的数据集配置操作。如果需要定制,可自行修改代码。 5 面板区域,分别为“问题”区域、“输出”区域、“调试”区域和“终端”区域,可以在“终端”区域输入命令行。 父主题: 创建联邦学习工程
  • 模型仓库 在菜单栏中,选择“模型仓库”。 进入“模型仓库”界面。界面以列表的形式,展示了当前租户下面已成功创建推理服务的模型包列表和模型包详细信息,如图1所示。 图1 模型仓库 界面说明如表1所示。 表1 模型仓库界面说明 区域 参数 参数说明 1 支持通过模型包名称快速检索模型包。 支持用户通过本地上传或者AI市场导入的方式,导入模型包。 2 模型包名称 模型包的名称。 版本 模型包生成时的版本。 模型类型 模型的AI算法框架类型。 运行环境 AI算法框架匹配的Python语言版本。 创建时间 模型包生成的时间。 来源 模型包的来源。包括模型训练服务、本地上传和AI市场导入三种来源。 状态 模型包的状态。 操作 可以对模型包执行下述操作: :查看模型包信息,包括名称、版本、描述、基本信息、运行依赖。 :将模型包发布成推理服务。 :删除模型包。 父主题: 云端推理框架
  • 特征画像 特征画像的作用,就是对数据进行分析,把其中一些基本特征提取出来,如:周期性、离散度、时序规律、最值、采样频率等,计算KPI曲线特点(包括周期性、趋势性、噪声、离散性、随机性等)。根据计算的曲线特点,判断KPI的大类别(毛刺型、阶梯型、周期型、离散型、稀疏型、多模态型等)。这些类别,对应到后面的特征选择、算法推荐,会有不同的策略,有效提升模型的构建效率。 单击“选择数据”左下方的“特征画像”。 新增“特征画像”内容,如图1所示。 图1 特征画像 单击“特征画像”代码框左侧的图标,运行代码。 通过运行结果左侧两个图可以直观的看一下原始数据和数据的密度分布图。运行结果右侧的参数说明,如表1所示。 表1 特征画像参数说明 参数 说明 设备数 需要检测的KPI对象的数量,如设备或端口的数目。 样本数 训练数据总的样本数。 采样率 采样频率,单位为秒。60的含义为每60秒采样一次。 开始时间 采样的时间跨度。 结束时间 周期 是否有周期的特性,给出评估的值。 最大值 KPI的最大值。 最小值 KPI的最小值。 空值率 有没有缺失值。取值为“0”说明,没有缺失值。 类型 KPI类型的计算。 标签信息 统计标签的样本数量。 父主题: 模型训练
  • 导入SDK 在学件项目中,单击菜单栏中的“模型训练”,进入模型训练“learnware”页签。 双击左侧目录中的项目名称“learnware”,进入“learnware”目录中。 双击左侧的“learnware.ipynb”文件。 打开学件项目的jupyterlab环境编辑界面,如图1所示。 图1 jupyterlab环境编辑界面 单击第一个代码框左侧的图标,导入算法依赖的模型训练服务SDK。 父主题: 模型训练
  • 创建工程 创建训练工程是从创建模型训练工程、编辑模型训练代码到调试模型训练代码的端到端的代码开发过程。 创建模型训练工程:创建模型训练代码编辑和调试的环境。 编辑模型训练代码:在线编辑模型训练代码。 调试模型训练代码:在线调试编辑好的模型训练代码。 创建训练工程步骤如下。 单击“创建”,弹出“创建训练”对话框。 配置训练工程参数,如表1所示。 表1 新建训练工程参数说明 参数名称 参数说明 请选择模型训练方式 模型训练方式。包含如下选项: 新建模型训练工程 新建联邦学习工程 新建训练服务 新建超参优化服务 请选择:新建模型训练工程。 模型训练名称 模型训练名称。 只能以字母(A~Z a~z)开头,由字母、数字(0~9)、下划线(_)组成,不能以下划线结尾,长度范围为[1,26]。 描述 对新建模型训练工程的描述。 模型试验算法 通用算法选择:分类算法、拟合算法、聚类算法、其他类型。如果选择分类算法,可以看到“创建入门模型训练代码”,如果勾选,则自动生成鸢尾花分类建模的样例代码。 开发环境 训练工程使用的开发环境,支持: WebIDE WebIDE提供类似本地VSCode的编码体验,支持代码自动补齐、调试等功能,适用于大量代码编写场景。创建在线IDE版训练模型时选择“WebIDE”开发环境。 简易编辑器 简易编辑器提供代码查看和编辑能力,不支持调试,适用于少量代码修改场景。创建WEB版训练模型时,选择“简易编辑器”开发环境。 规格 当“开发环境”选择“WebIDE”时展示,用于设置WebIDE资源的规格。请根据实际需求选择具体规格。 实例 当“开发环境”选择“WebIDE”时展示,用于设置当前环境规格对应的环境实例。 如果当前选定的规格有环境实例,可选择已存在的实例。 如果当前选定的规格没有可用的实例,可选择“新建一个新环境”。 单击“确定”。 进入模型训练工程详情页面,如图1所示。界面介绍如表2所示。 图1 模型训练工程详情界面 表2 模型训练工程详情界面说明 区域 参数名称 参数说明 1(训练工程) 创建时间 训练工程创建时间 类型 模型训练的类型 创建者 创建训练工程的用户 活动时间 最近一次模型训练执行的时间 开发环境 模型训练运行环境信息,可通过下拉框切换当前环境。 进入模型训练编辑界面 创建训练任务,详细请参考: 创建训练任务(简易编辑器) 创建训练任务(WebIDE) 删除训练工程 模型训练工程描述 模型训练工程的描述信息,支持单击“”编辑描述信息。 对训练任务的训练报告进行对比,输出训练任务在不同超参下的评估指标,同时显示各训练任务的任务系统参数。 说明: 最多支持3个模型报告对比。 切换到其他的训练工程、训练服务或超参优化服务的模型训练页面中。 Web IDE环境资源配置与管理,包括创建环境、暂停运行中的环境以及删除已有环境。还可查看当前所有配置了Web IDE环境资源的项目的环境信息。 新建训练工程、联邦学习工程、训练服务或超参优化服务。 2(模型训练任务) 根据训练状态快速检索训练任务。 仅展示关注的任务。 用户可以单击任务名称左侧的关注指定任务,再次单击取消关注。 根据任务创建时间、任务名称检索训练任务。 默认按任务创建时间检索。 按任务创建时间或者任务名称检索训练任务,检索结果按正序或者倒序排列展示。 默认按倒序排序。 任务名称 模型训练任务的名称 任务描述 模型训练任务的描述信息 任务创建时间 模型训练任务创建的时间 训练用时 模型训练耗时时长 Tensorboard Tensorboard状态 训练状态 显示训练任务当前的状态。 包括如下状态: ALL显示所有训练任务。 WAITING表示训练任务准备中。 RUNNING表示正在训练。 FINISHED表示训练成功 FAILED表示训练失败。 STOPPED表示停止训练任务。 评估报告 单击可查看训练评估报告详情。 资源占用 显示训练算法CPU、GPU和 RAM 的占用情况。 峰值 显示训练算法CPU、GPU和RAM使用过程中的峰值。 训练状态为RUNNING时,可以执行此按钮停止训练任务。 查看验证任务的详细情况,包括系统日志、运行日志、运行图和Tensorboard。 删除训练任务。 查看优化报告。 打包训练模型。 说明: 仅训练成功的模型支持打包。 父主题: 创建模型训练工程
  • 创建验证任务 验证任务主要是对指定的模型包,基于调试好的验证代码,设置验证用例和计算资源,执行验证任务,验证该模型包的优劣。 配置验证任务的入口: 在验证代码编辑页面,单击右上角的“验证”,弹出“验证配置”对话框,配置“验证配置”对话框参数。如果已经配置过验证参数,后续单击“验证”则直接弹出模型包选择弹窗。 在验证服务详情页面,单击右上角的,弹出“验证配置”对话框,配置“验证配置”对话框参数。 在模型验证页面,单击右上角的,弹出“验证配置”对话框,配置“验证配置”对话框参数。 此处以在验证服务详情页面进行验证配置为例,配置方法如下。 在验证服务详情页面,单击右上角的“”。 弹出“验证配置”对话框,如图1所示。参数配置如表1所示。 图1 验证配置 表1 验证配置参数说明 参数名称 参数说明 指标配置 指标是模型训练精度参数,配置在验证用例中以判断模型包的优劣。如果模型包实际训练精度指标值大于用例中指定的指标值,则验证通过;如果模型包实际训练精度指标值小于用例中指定指标值,则验证不通过。 指标配置包含: “指标名称”:指标的名称,不能为空。 “指标类型”:指标值类型,可选择“Float”、“int”、“String”。 “默认值”:指标的默认值,指标添加成功后 ,用例中自动增加指标及其默认值。 完成指标配置后,单击右侧“”,添加配置的指标。可设置多个指标。 场景名 当前验证场景名字。 执行入口 下拉框从左至右依次为验证算法文件及算法文件中的方法名。 用例 执行用例,一个用例对应一个验证结果,一个验证任务可包含多个用例。 一条用例包含: “用例名”:用例名字,不能为空。 “描述”:用例的描述信息。 “数据集”:用例选用的验证数据集。 “数据实例”:用例选用的验证数据集对应的数据集实例。 acc:指标,按照指标配置中的指标名称展示名称和默认值,默认值可修改。 AI引擎 AI引擎及AI引擎的版本。 计算节点规格 系统提供的计算节点资源。 单击“保存”,保存验证任务参数配置。 单击“”,在弹出的“创建验证任务”对话框内选择待验证的模型包,单击“确定”。 系统自动执行验证任务,用户可以直接在验证服务详情页面查看验证任务,或者单击“”进入验证代码编辑页面,单击验证代码编辑页面右上角,查看验证任务的执行情况: :验证任务执行过程中,动态查看验证任务的系统日志、运行日志和运行图。 :验证任务结束后,查看验证任务的验证报告。验证报告展示验证任务中,所有用例的执行结果,通过指标列可以查看模型包实际运行结果指标值和用例配置的指标阈值。如果实际运行结果指标值大于用例配置指标阈值,则用例执行结果为“PASS”,反之则为“FAILED”。 在验证任务执行过程中,用户可以单击停止任务。 父主题: 模型验证
  • 发布推理服务 模型训练服务支持一键发布在线推理服务。用户基于成熟的模型包,创建推理服务,直接在线调用服务得到推理结果。操作步骤如下。 单击模型包“操作”列的,弹出“发布推理服务”对话框,如图1所示。 图1 推理服务 配置对话框参数如表1所示。 表1 创建推理服务参数配置 参数名称 参数描述 模型包名称 发布成推理服务的模型包名称。 版本 推理服务的版本。 版本建议格式为“xx.xx.0”,其中xx为0-99的整数。 是否自动停止 是否开启推理服务自动停止,如果开启,需要设置自动停止的时间,开启了自动停止的推理服务将会在设置时间后停止运行。 计算节点规格 计算节点资源,包括CPU和GPU。 用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。 计算节点个数 计算节点的个数。 1代表单节点计算 2代表分布式计算,开发者需要编写相应的调用代码。可使用内置的MoXing分布式训练加速框架进行训练,训练算法需要符合MoXing程序结构。可参考如下文档:https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc 描述 推理服务描述信息。 环境变量 用户可以在训练算法编辑界面中代码目录下predict文件夹中的predict.py文件中编辑推理算法。在创建推理服务的界面中配置环境变量的参数值。 变量名:环境变量的名称 变量值:环境变量的取值 增加:新增环境变量 :删除环境变量 :单击可隐藏变量值的真实数据。 单击“确定”,发布推理服务。 :发布服务成功,单击图标可以跳转至推理服务的快速验证界面,用户可在此界面上对当前发布的推理服务效果进行验证。 :发布服务失败,可重新发布。 父主题: 模型管理
  • 本地上传数据集操作说明 针对硬盘故障检测,需要提前在本地准备四份数据集,分别如下所示: HardDisk-Detect_Train_Good.csv:无故障硬盘训练数据 HardDisk-Detect_Train_Fail.csv:故障硬盘训练数据 HardDisk-Detect_Test_Good.csv:无故障硬盘测试数据 HardDisk-Detect_Test_Fail.csv:故障硬盘测试数据 目前数据不允许出湖,所以无法将四份数据传递给用户,因此下述操作,仅供参考。用户可以使用本地数据,参考下述操作,熟悉数据上传能力。 在“项目概览”界面,单击“数据集”下的“创建”。 进入“数据集”界面,界面自动弹出如图1所示的对话框。 创建无故障训练数据集,参数含义如下所示: 数据集:默认为“Default”,支持自定义输入,例如:Harddisk。单击“创建”后,自动在左侧导航中,新增Harddisk节点。 实例名称:支持自定义。示例:TrainGood。 实例别名:支持自定义。示例:无故障训练。方便识别数据。 数据来源:下拉框中有两个选项,一是“本地上传”,即从本地上传数据文件,文件会自动上传至OBS租户空间中。二是“样例数据”,即模型训练服务预置的样例数据。 图1 导入数据 单击“创建”,数据文件自动上传至用户OBS租户空间中。 单击数据所在行,对应“操作”列的图标。 进入数据操作界面,如图2所示。 图2 数据操作界面 单击导入状态旁的“元数据”。 进入数据分析界面。 对于文本类型的数据集实例,单击数据上方“状态”旁的“元数据”,该数据集实例下的所有csv文件会被进行合并分析。 对于数据集实例下的单个csv文件,单击数据“操作”列的“元数据”,可对单个文件进行元数据分析。 设置引擎和规格,单击界面右下角的“分析数据”。 数据分析完成后,数据详情信息,如图3所示。 图3 数据详情 单击数据预览界面右上方的关闭图标“”,返回数据操作界面。 单击左侧导航中的数据集节点“Harddisk”,回到Harddisk数据集页面。 请参考1~7,单击界面右上角的“本地上传”,分别创建故障硬盘训练、无故障硬盘测试和故障硬盘测试数据集并完成数据分析。 创建完成后,界面可以看到四份数据,如硬盘故障检测所示。 图4 硬盘故障检测
  • 使用特征工程服务对剩余的三份数据做特征处理 四份数据的特征处理操作完全相同,可以将前面的特征处理工程,发布成特征工程服务,再通过创建任务的方式,分别生成经过特征处理的数据集。 下述操作以故障硬盘训练集的操作为例,进行操作说明。 在JupyterLab环境编辑界面,单击“Harddisk.ipynb”页签下方的图标,保存算法主文件的所有操作。 在将特征工程发布成服务前,请先保存算法主文件,否则会导致特征工程服务异常,无法正常调用。 在JupyterLab环境编辑界面,单击界面右上角的图标,弹出如图5所示的对话框。 参数“ServiceName”为特征工程发布服务名,请根据实际情况设置。示例:harddisk。 图5 特征工程服务 单击“Publish”,将特征工程发布成服务。 发布成功后,会弹出成功提示框,单击“OK”。 在菜单栏中,单击“特征工程”,进入“特征工程管理”界面。 单击“已发布服务”页签,查看特征工程服务,如图6所示。 图6 特征工程服务 单击特征工程服务行对应“操作”列的图标。 弹出“创建任务”对话框。参数配置说明,如下所示,其余参数保持默认值即可。 任务名称:特征工程服务任务名称。示例:Train_Fail。 数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。 数据实例:从下拉框中选择故障硬盘训练数据集“HardDisk-Detect_Train_Fail”。 目标数据集:从下拉框中选择预置数据集“HardDisk-Detect(HardDisk)”。 目标数据实例:经过特征工程任务处理后,生成的数据集名称。示例:Train_fail_FE。 AI引擎:AI算法运行平台,从下拉框中选择“TF-1.8.0-python3.6”。 规格:资源配置信息,从下拉框中选择“2核|8G”。 单击“创建”,进入特征工程任务详情界面。 当任务的“任务状态”列为“FINISHED”时,说明故障硬盘训练集的特征处理操作完成。 请参考6~7,依次对无故障硬盘测试和故障硬盘测试数据集做特征工程处理。 等待所有特征工程任务处理完成。 单击菜单栏中的“数据集”,进入数据集页面。 查看经过特征处理,生成的四份新数据,如图7所示。通过特征工程任务,生成的新数据的“数据来源”均为“JOB”。 图7 数据集页面
  • 模型训练 硬盘故障检测模板会预置模型训练工程,无需关注,下面会提供端到端的操作流程,帮助用户快速熟悉模型训练界面操作。 单击菜单栏中的“模型训练”,进入模型训练首页。 可以看到预置的“hardisk_detect”模型训练工程,这是硬盘故障检测模板预置的模型训练工程,本次不使用。 单击界面右上角的“创建”,弹出“创建训练”对话框。 参数配置说明,如下所示,其余参数保持默认值即可。 请选择模型训练方式:保持默认值“新建模型训练工程”。 模型训练名称:请根据实际情况设置。示例:harddisk。 开发环境:选择“简易编辑器”。 单击“确定”。 进入模型训练工程详情界面。 单击界面右上角的图标,进入代码编辑界面。 界面左侧的图标,查看代码目录。 可根据实际情况,在代码目录下添加代码文件。单击代码文件,编辑代码。 以下代码目录及文件,皆参考硬盘故障检测模板中的模型训练工程创建。此处旨在介绍操作方法,用户请按实际情况创建。 在界面左侧目录,选中根节点“harddisk”,单击图标。在弹出的“新建文件”对话框中,输入文件名称“hardisk_predict.py”。 将预置模型训练工程“hardisk_detect_predict.py”中的文件代码,拷贝至新建的“hardisk_predict.py”文件中,并按“Ctrl+S”保存。 在界面左侧目录,选中根节点“harddisk”,单击上方的图标,在根目录下创建目录“hardisk”。 选中新建目录“hardisk”,单击上方的图标,分别创建代码文件“preprocess.py”和“train.py”。 将预置模型训练工程“hardisk_detect”中同名文件“preprocess.py”和“train.py”的代码,分别拷贝至新建文件“preprocess.py”和“train.py”中,并按“Ctrl+S”保存。 单击与训练工程同名的“.py”主入口文件,并清空文件内容。将预置模型训练工程“hardisk_detect”中的“hardisk_detect.py”文件代码拷贝进当前主入口文件,并按“Ctrl+S”保存。 单击界面左侧的图标,查看数据集目录,如图1所示。 HardDisk-Detect节点下面会展示预置的四份数据集和经过特征处理后生成的四份新数据集。 当前数据集目录中展示的数据实例数量比数据集菜单页面多,属于正常,无需关注。 图1 数据集 单击“训练”,进入“训练任务配置”界面,配置训练任务,配置效果如图2所示。 参数配置说明,如下所示,其余参数保持默认值即可。 AI引擎:AI算法运行平台。从第一个下拉框中选择AI引擎“TensorFlow”,从第二个下拉框中选择匹配的python语言版本“TF-1.8.0-python3.6”。 计算节点规格:模型训练的资源配置信息。 计算节点个数:是否进行分布式训练,请设置为“1”,即不进行分布式训练。 数据集超参:每行一个超参,单击超参行右侧的“增加”图标,新增2个超参。共需要设置3个数据集超参,标签列均为“failure”,如下所示: train_good_data:设置为无故障硬盘训练数据集,经过特征处理后生成的数据集,对应数据集实例“Train_good_FE”。 test_good_data:设置为无故障硬盘测试数据集,经过特征处理后生成的数据集,对应数据集实例“Test_good_FE”。 train_failure_data:设置为故障硬盘训练数据集,经过特征处理后生成的数据集,对应数据集实例“Train_fail_FE”。 运行超参:模型参数是模型内部的配置变量,参数值可以根据数据自动估算。参数是机器学习的关键,通常从过去的训练数据中总结得出。超参区别于参数,是模型外部的配置,必须手工设置和调整,可用于帮助估算模型参数值。请勾选“超参优化”,第一列设置超参名称,第二列设置超参类型。第三列和第四列,分别设置为超参取值范围的下限和上限。 共需要设置如下3个随机森林参数: n_estimators:勾选“超参优化”,INT类型,依次输入“10”和“500”。 min_samples_split:勾选“超参优化”,INT类型,依次输入“2”和“20”。 max_features:勾选“超参优化”,FLOAT类型,依次输入“0”和“1”。 优化方法:选择优化方法“贝叶斯优化 - GP”和优化目标“最大值”。 终止条件:配置超参优化终止的条件。设置“迭代次数”为“10”,即使用“贝叶斯优化 - GP”算法,选取十个超参组合,依次进行模型训练。 图2 超参优化配置 单击“开始训练”,回到代码编辑界面。 可通过单击界面右上角的“训练任务”,查看训练任务状态。如图3所示。 单击训练任务下方的图标,下方会展示模型训练日志、运行结果日志、运行图和Tensorboard窗口。 图3 训练任务 模型训练结束后,单击训练任务下方的图标,可查看10个超参组合对应的10个模型训练评估结果,如图4所示。 “评分”页签分别展示了10个模型训练任务的评分。 “超参”页签分别展示了10个超参组合的取值。 “试验时长”页签分别展示了10个超参组合对应的模型训练时长。 “详情”页签分别展示了10个超参组合的迭代信息、耗时、评估值、超参取值,并支持对每个超参组合重新加入训练。 图4 模型评估结果 在评分页签内选取一个评分最高的模型任务数据,记录其三个超参值。参考7~8,配置最优模型的训练任务并进行训练。 对评分最高的模型再创建训练任务是为了在训练结束后,打包该最优模型包。模型训练任务在进行“超参配置”时,去勾选“超参优化”,三个超参值分别配置为此前记录的最优模型的三个对应超参值。 单击菜单栏的“模型训练”。 进入模型训练界面。 单击模型训练任务所在行。 进入模型训练任务详情界面。 在“模型训练任务”下面,单击最优模型训练任务右侧的图标。 弹出“归档”对话框,如图5所示。参数说明如下所示,其余参数保持默认值即可。 归档名:归档模型包名称。示例:HardDisk_predict。 生成模型包:是否直接在归档的时,打包模型包。选择“是”,表示同时对模型执行归档和打包操作;选择“否”表示仅对模型执行归档操作。默认选择“是”。 包含代码:模型包是否包含训练和推理相关代码。选择“是”,表示包含;选择“否”,表示不包含。默认选择“是”。 图5 模型归档 单击“确定”,等待模型打包完成。 父主题: 使用模型训练服务快速训练算法模型
  • 创建项目 多层嵌套异常检测学件服务,目前封装在模型训练服务的JupyterLab平台中。可通过在项目中创建JupyterLab环境,体验多层嵌套异常检测学件服务。 在模型训练服务首页,单击界面左上角的“创建项目”上方的“+”图标。 弹出“创建项目”对话框。请根据实际情况,配置如下参数: 名称:项目名称。 是否公开:项目是否可以被所属用户组的其他用户访问。 公开至组:仅当“是否公开”设置为“是”,才会展示“公开至组”。默认展示当前用户所属的所有用户组,如果勾选用户所属的用户组,则被勾选用户组下的所有用户均可以查看当前项目。如果只想公开给用户组中的部分用户,可以单击“请选择用户”,筛选出希望共享的用户。 单击“创建”。项目创建完成后,进入项目概览界面。 父主题: 多层嵌套异常检测学件
  • 全量数据应用 特征操作完成后,需要单击“执行”,应用特征操作流至全量数据。同时支持选择其他数据集和数据集实例,应用当前特征操作流。全量数据应用操作步骤如下。 单击。 弹出“执行”对话框。如图1所示。 图1 全量数据应用 在“数据集”和“数据”下拉框中,分别选择数据集和数据。 支持同时添加多份数据,每份数据必须满足与当前特征工程中的数据特征维度完全相同。 其中,“目标数据实例”为特征处理后生成的数据集实例名称,请根据实际情况配置。 单击“执行”,对数据执行特征操作流。 系统自动生成经过特征处理后的数据,支持用户在“数据集”中查看。 用户可以执行下述操作: 在特征工程详情页面单击“执行记录”,查看数据实例名称、目标数据实例名称、时间、状态。其中“操作”列,支持重新执行全量数据应用操作、基于新生成的数据实例创建算法,或删除新生成的数据实例操作。 在数据集页面查看应用特征操作流后生成的新数据集实例,“数据集”中此类数据的数据来源为“FEATURE”。 父主题: Python和Spark开发平台
  • 创建自定义学件项目 在模型训练服务首页,单击新增项目所在行的图标,进入JupyterLab环境界面,如图1所示。 图1 JupyterLab环境界面 单击“Notebook”下方的“自定义模版”,在弹出的“创建自定义模板”对话框中,输入“模板名称”,示例:custom_01。 在界面左侧的文件夹根目录下面,可以看到,以模板名称命名的文件夹“custom_01”,如图2所示。 自定义学件“custom_01”的目录结构如下所示: custom:自定义模板的配置文件等内容存放目录,后续学件打包会将此目录一起打包。 此目录包含config目录和sdk目录。其中,config目录中的“custom.template.json”文件为自定义模板的算子定义等配置信息。sdk目录用于存放自定义SDK,目录中包含的“learnware.py”文件为学件对象的定义样例,需要根据学件自行定制。 naie_platform:NAIE SDK相关参数配置信息。 requirements.txt:自定义学件依赖包的列表。 custom_01.ipynb:学件的主文件。 图2 自定义学件项目 父主题: 开发学件
  • 卡方检验 卡方检验通过计算数据集的特征列和标签列之间的偏离程度(即卡方值)筛选出有价值的特征列。将卡方值由小到大排序,筛选出TOPN的特征列: 特征列与标签列之间的偏离程度越大,卡方值越大,说明特征列与标签列不符 特征列与标签列之间的偏离程度越小,卡方值越小,说明特征列越接近于标签列 如果特征列与标签列完全相等,卡方值为0,说明特征列与标签列完全符合 以投掷硬币为例,投掷一枚硬币50次,记录正面特征值和反面特征值的实际值分别是多少。假设硬币是均匀的,正面特征值的理论值是25,反面特征值的理论值也是25,如果实际投掷结果为:正面22,反面28,则卡方值为(22-25)*(22-25)/25+(28-25)*(28-25)/25=0.72。 选定特征列不同值的数量不能超过10000。 如果特征列的样本数据中存在负数,在进行卡方检验之前,系统会采用MinMaxScaler算法对特征列进行归一化。 如果特征列的样本数据为字符型,在进行卡方检验之前,系统会先对特征列进行数值化,再采用MinMaxScaler算法进行归一化。
共99354条