检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型训练 企业A在完成特征选择后,可以单击右下角的“启动训练”按钮,配置训练的超参数并开始训练。 等待训练完成后就可以看到训练出的模型指标。 模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数,直至训练出满意的模型。
训练模型 用户自定义模型,样例请参考准备本地横向联邦数据资源中步骤3。 初始权重参数 评估时必填,训练时可选,样例请参考准备本地横向联邦数据资源中步骤3。 迭代次数 即epoch,数据迭代计算的次数。 训练轮数 训练的轮数,每一轮训练结束都会对各方训练出的权重进行一次安全聚合。
查询训练作业下的成功模型 功能介绍 查询训练作业下的成功模型 调用方法 请参见如何调用API。
图1 创建训练型横向联邦学习作业 配置作业的执行脚本,训练模型文件。 执行脚本是每个参与方的计算节点在本地会执行的模型训练、评估程序,用于基于本地的数据集训练子模型。 训练模型文件则定义了模型的结构,会用于每个参与方在本地初始化模型。
至此使用可信联邦学习进行联邦建模的过程已经完成,企业A已经训练出了一个符合自己要求的算法模型,后续文档会介绍如何使用已有的算法模型对新的数据进行预测。 父主题: 使用TICS可信联邦学习进行联邦建模
图1 注册ma资源池 创建可信联邦学习训练型作业 参考步骤创建横向训练型作业创建可信联邦学习训练型作业,运行环境选择ModelArts和PriorityModelArts时,新增的资源配额是使用MA Lite资源池进行训练时,工作负载需要配置的资源参数。
执行纵向联邦模型训练作业 功能介绍 执行纵向联邦模型训练作业 调用方法 请参见如何调用API。
评估型横向联邦作业流程 基于横向联邦作业的训练结果,可以进一步评估横向联邦模型,将训练好的模型用于预测。 选择对应训练型作业的“历史作业”按钮,获取最新作业的模型结果文件路径。 图1 查看模型结果文件的保存位置 前往工作节点上步骤1展示的路径,下载模型文件。
图1 创建作业 在弹出的对话框中编辑“作业名称”,选择“算法类型”。 选择“算法类型”之后,勾选“选择训练作业”列表中的某一训练作业,然后勾选“选择模型”列表中对应模型,再勾选”选择数据集”列表中参与方预测要用的某一数据集,最后单击“保存并提交审批”按钮完成作业创建。
企业A需要通过“算法类型”、“训练作业”等筛选条件可以找到用于预测的模型,点选使用的模型后单击“确定”按钮即完成联邦预测作业的创建。 父主题: 使用TICS联邦预测进行新数据离线预测
创建数据预处理作业 数据预处理是训练机器学习模型的一个重要前置步骤,其主要是通过转换函数将特征数据转换成更加适合算法模型的特征数据过程。
单击列表字段后的添加预处理方法,系统将利用所选的预处理方法(转换函数)将特征数据转换成更加适合算法模型的特征数据。当前TICS支持的特征预处理方法如表1所示。
填写完作业参数,单击“确定”即可开始训练作业。 常规配置:通过界面点选算法使用的常规参数,具体支持的参数请参考表1。 表1 常规配置参数 算法类型 参数名 参数描述 XGBoost 学习率 控制权重更新的幅度,以及训练的速度和精度。取值范围为0~1的小数。
约束限制 纵向联邦作业XGBoost算法只支持两方参与训练。 训练作业必须选择一个当前计算节点发布的数据集。 作业创建者的数据集必须含有特征。 创建纵向联邦学习作业 纵向联邦学习作业在本地运行,目前支持XGBoost算法、逻辑回归LR算法和FiBiNET算法。
不同训练参数对模型准确率、训练时长的影响 训练轮数对模型准确率的影响(迭代次数固定为20) 训练轮数 1 10 20 测试集准确率 (%) 98.016 98.016 98.016 测试集AUC 0.996 0.996 0.996 训练时长 (秒) 19 173 372 迭代轮数对模型准确率
企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。
公测 审批作业 2021年4月 序号 功能名称 功能描述 阶段 相关文档 1 纵向联邦支持LR算法 LR纵向联邦学习主要用于具有线性边界的二分类问题,支持用户双方训练联合逻辑回归(LR)模型。相较于单方训练,纵向联邦LR训练覆盖用户双方特征,模型预测精度更高。
为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集,用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小,采用了Imbalanced-Learn中的SMOTE算法,进行了数据集的扩充。
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。