检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型训练 企业A在完成特征选择后,可以单击右下角的“启动训练”按钮,配置训练的超参数并开始训练。 等待训练完成后就可以看到训练出的模型指标。 模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数,直至训练出满意的模型。
训练模型 用户自定义模型,样例请参考准备本地横向联邦数据资源中步骤3。 初始权重参数 评估时必填,训练时可选,样例请参考准备本地横向联邦数据资源中步骤3。 迭代次数 即epoch,数据迭代计算的次数。 训练轮数 训练的轮数,每一轮训练结束都会对各方训练出的权重进行一次安全聚合。
查询训练作业下的成功模型 功能介绍 查询训练作业下的成功模型 调用方法 请参见如何调用API。
图1 创建训练型横向联邦学习作业 配置作业的执行脚本,训练模型文件。 执行脚本是每个参与方的计算节点在本地会执行的模型训练、评估程序,用于基于本地的数据集训练子模型。 训练模型文件则定义了模型的结构,会用于每个参与方在本地初始化模型。
图1 注册ma资源池 创建可信联邦学习训练型作业 参考步骤创建横向训练型作业创建可信联邦学习训练型作业,运行环境选择ModelArts和PriorityModelArts时,新增的资源配额是使用MA Lite资源池进行训练时,工作负载需要配置的资源参数。
执行纵向联邦模型训练作业 功能介绍 执行纵向联邦模型训练作业 调用方法 请参见如何调用API。
选择“算法类型”之后,勾选“选择训练作业”列表中的某一训练作业,然后勾选“选择模型”列表中对应模型,再勾选”选择数据集”列表中参与方预测要用的某一数据集,最后单击“保存并提交审批”按钮完成作业创建。等审批方审批完后,就可以执行任务。
图7 查看预处理作业 发布预处理后的训练数据集。在预处理作业列表,单击“发布”可以将作业生成的训练数据集发布到空间。发布时可查看生成数据集的各项属性,包括数据名称(预处理生成的数据集前缀为preprocessed,后缀为train)、数据文件位置、数据结构等。
不同训练参数对模型准确率、训练时长的影响 训练轮数对模型准确率的影响(迭代次数固定为20) 训练轮数 1 10 20 测试集准确率 (%) 98.016 98.016 98.016 测试集AUC 0.996 0.996 0.996 训练时长 (秒) 19 173 372 迭代轮数对模型准确率
模型评估 训练时的评估指标是用训练的数据集中随机采样的记录计算的,完成训练后企业A也可以使用其他的数据集对同一个模型进行多次的评估。单击“发起评估”选择训练参与方不同的数据集即可发起模型评估。
本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。 前提条件 已提前准备好训练数据,和评估/预测数据。 存在未参与其他预处理作业的结构化数据集,且在创建数据集时已定义字段的分布类型。注意预处理作业对数据集的发布状态无要求。
企业A需要通过“算法类型”、“训练作业”等筛选条件可以找到用于预测的模型,点选使用的模型后单击“确定”按钮即完成联邦预测作业的创建。 父主题: 使用TICS联邦预测进行新数据离线预测
评估型横向联邦作业流程 基于横向联邦作业的训练结果,可以进一步评估横向联邦模型,将训练好的模型用于预测。 选择对应训练型作业的“历史作业”按钮,获取最新作业的模型结果文件路径。 图1 查看模型结果文件的保存位置 前往工作节点上步骤1展示的路径,下载模型文件。
逻辑回归/FiBiNET 学习率 控制权重更新的幅度,影响训练收敛速度和模型精度,取值范围为0~1。 迭代次数 完成全部样本训练的次数,取值为正整数。 批大小 单次训练使用的样本数,取值为正整数。
模型训练页面展示了历史作业的执行情况、模型的评估指标和生成时间。模型的评估指标是使用训练数据集产生的。 单击“查看参数”可以查看该模型训练时指定的机器学习作业参数;逻辑回归作业可以单击“查看中间结果”实时查看每一次迭代的评估指标。 图12 模型训练参数 进行模型评估。
企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。
统计量 取值 特征数目 30 xx医院的训练样本数目 7366 其他机构的训练样本数目 7366 测试集样本数目 7257 操作步骤 进入TICS服务控制台。 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。