检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练型横向联邦学习作业 配置作业的执行脚本,训练模型文件。 执行脚本是每个参与方的计算节点在本地会执行的模型训练、评估程序,用于基于本地的数据集训练子模型。 训练模型文件则定义了模型的结构,会用于每个参与方在本地初始化模型。 图2 配置执行脚本、训练模型文件 配置已方、对方数据集。在作业的数据集配置
模型训练 企业A在完成特征选择后,可以单击右下角的“启动训练”按钮,配置训练的超参数并开始训练。 等待训练完成后就可以看到训练出的模型指标。 模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数,直至训练出满意的模型。 父主题: 使用TICS可信联邦学习进行联邦建模
源中步骤4。 训练模型 用户自定义模型,样例请参考准备本地横向联邦数据资源中步骤3。 初始权重参数 评估时必填,训练时可选,样例请参考准备本地横向联邦数据资源中步骤3。 迭代次数 即epoch,数据迭代计算的次数。 训练轮数 训练的轮数,每一轮训练结束都会对各方训练出的权重进行一次安全聚合。
注册”。 图1 注册ma资源池 创建可信联邦学习训练型作业 参考步骤创建横向训练型作业创建可信联邦学习训练型作业,运行环境选择ModelArts和PriorityModelArts时,新增的资源配额是使用MA Lite资源池进行训练时,工作负载需要配置的资源参数。 图2 配置参数
评估型横向联邦作业流程 基于横向联邦作业的训练结果,可以进一步评估横向联邦模型,将训练好的模型用于预测。 选择对应训练型作业的“历史作业”按钮,获取最新作业的模型结果文件路径。 图1 查看模型结果文件的保存位置 前往工作节点上步骤1展示的路径,下载模型文件。由于Logistic
测试步骤 数据准备 训练型横向联邦作业流程 评估型横向联邦作业流程 父主题: 横向联邦学习场景
执行纵向联邦模型训练作业 功能介绍 执行纵向联邦模型训练作业 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/leagues/{league_id}/fl-vertical-jobs/{job_id}/execute 表1 路径参数 参数 是否必选
ndardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集,用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小,采用了Imbalanced-Learn中的S
本节实验包含了如下三个部分:(1)训练轮数对联邦学习模型分类性能的影响;(2)迭代次数对联邦学习模型分类性能的影响;(3)参与方数据量不同时,本地独立训练对比横向联邦的模型性能。 不同训练参数对模型准确率、训练时长的影响 训练轮数对模型准确率的影响(迭代次数固定为20) 训练轮数 1 10 20 测试集准确率
查询训练作业下的成功模型 功能介绍 查询训练作业下的成功模型 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/leagues/{league_id}/fl-job-instances 表1 路径参数 参数 是否必选 参数类型 描述 project_id
模型评估 训练时的评估指标是用训练的数据集中随机采样的记录计算的,完成训练后企业A也可以使用其他的数据集对同一个模型进行多次的评估。单击“发起评估”选择训练参与方不同的数据集即可发起模型评估。 至此使用可信联邦学习进行联邦建模的过程已经完成,企业A已经训练出了一个符合自己要求的算
开发数据预处理作业 数据预处理通常被用于评估/训练作业场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。 训练数据预处理作业 评估/预测数据预处理 前提条件 已提前准备好训练数据,和评估/预测数据。 数据预处理作业选择的结构化数据集(包括
自定义参数配置 填写完作业参数,单击“确定”即可开始训练作业。启动作业后会生成一条新的历史作业记录。模型训练页面展示了历史作业的执行情况、模型的评估指标和生成时间。模型的评估指标是使用训练数据集产生的。 单击“查看参数”可以查看该模型训练时指定的机器学习作业参数;逻辑回归作业可以单击“
征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。 例如
分类阈值 区分正负例的得分阈值。 逻辑回归/FiBiNET 学习率 控制权重更新的幅度,影响训练收敛速度和模型精度,取值范围为0~1。 迭代次数 完成全部样本训练的次数,取值为正整数。 批大小 单次训练使用的样本数,取值为正整数。 分类阈值 区分正负例的得分阈值 自定义配置: 通过jso
测试连接器创建参数 功能介绍 本接口用于测试连接器创建参数。 - 测试mysql连接器时需上传驱动文件,详见应用示例 - 该接口需将请求body转换为json字符串,详见请求示例 - 可校验连接器账户密码、网络连通性。 调用方法 请参见如何调用API。 URI POST /v1/
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串
此即为离散特征编码。 图1 数据集样例 数据预处理通常被用于评估和预测场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。 前提条件 已提前准备好训练数据,和评估/预测数据。 存在未参与其他预处理作业的结构化数据集,且在创建数据集时已定义
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict
验证安全沙箱防护能力 接下来模拟篡改文件的恶意行为,来验证安全沙箱防护能力。 发起方获取某个横向联邦训练作业的训练结果路径。 图1 获取作业结果路径 发起方执行恶意脚本,试图篡改所获取的路径中的作业训练结果。 图2 执行恶意脚本 发起方执行恶意脚本后,由于安全沙箱确保每个横向联邦作业都是隔离