检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
方联合建模,金融机构补充了风控模型特征维度,提升模型准确率。 优势: 提升模型准确率 多方机构实现算法层面联合建模,提升了需求方模型的预测效果。 数据隐私保护强 多方采用隐私集合求交PSI对齐样本数据,本地数据或模型加密后在安全环境中运算,实现数据可用不可得。精细化的数据隐私保护
筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练
String 数据集名 label_dataset 否 String 标签数据集,最大长度100 label_agent 否 String 标签方可信计算节点,最大长度100 label_agent_name 否 String 标签方可信计算节点名称,最大长度128 host_agent_id
步骤4中勾选的模型不包含标签方特征,联邦预测支持只勾选己方数据集发起单方预测。 图1 发起预测 图2 勾选数据集 在“联邦预测”页面批量预测Tab页单击“历史预测”,可以“查看结果”和“作业报告”。 “查看结果”为预测结果存储相对路径。分类作业的预测结果为0/1标签以及正负样本概率,0
VFL_SAMPLE_ALIGNMENT, VFL_PREDICT, PIR_SQL; label_dataset 是 String 标签数据集,最大值100 label_agent 是 String 标签方可信计算节点,最大值100 job_name 是 String 作业名称。名称不能以空白字符开头结尾、或者包含下列任何字符:\
某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 本文主要
某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 基于多方
某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 根据前一
联机分析处理的字段类型:UNIQUE_ID,SENSITIVE,NON_SENSITIVE fl_label_type String 字段标签分类:UNIQUE_ID.唯一标识,FEATURE.特征,LABEL.标签,FILTER.过滤字段 请求示例 获取字段隐私详情 get https://x.x.x.x:1234
“启动分箱和IV计算”,计算得到所选特征对标签的影响程度。计算完成后,单击特征行的可以展开图表形式的分箱woe值。 “FiBiNET”算法新增限制: 特征方必须要有两个及以上离散特征,连续特征可有可无。 标签方可以不提供任何特征,如果标签方提供特征也要遵循1规则。 其他算法无限制
服务或者登录到计算节点后台获取到对应路径的文件。 当只有一方提供特征时,预测的结果如下,第一列是用户的id,第二列是用户是否是高价值用户的标签,第三列、第四列是对应的概率: id,label,proba_0,proba_1 4e07408562bedb8b60ce05c1decf
叠较少的情况,联合多个参与者的具有相同特征的多行样本进行可信联邦学习,联合建模。 模型评估 评估训练得出的模型权重在某一数据集上的预测输出效果。 纵向联邦机器学习 纵向联邦机器学习,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况,联合多个参与者的共同样本的不同数据特征进行可信联邦学习,联合建模。
job_instance_id 否 String 模型ID,最大32位,由字母和数字组成 train_label_agent 否 String 标签方可信计算节点,最大32位,由字母和数字组成 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 job_id String
-1.103220799,2.375621631 注意由于这是新产生的业务数据,企业A并不知道这些用户是否是高价值用户,因此没有label用户标签字段。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征
数据集id data_type String 字段类型 fl_label_type String 学习数据集标签类型。UNIQUE_ID唯一标识,FEATURE特征,LABEL标签,FILTER过滤字段 is_discrete Boolean 是否离散 length Integer 长度
objects 所选数据集特征 label_dataset 否 String 标签数据集,最大长度100 label 否 String 标签列名,最大长度1000 label_agent 否 String 标签方代理id,最大32位,由字母和数字组成 job_name 否 String
(2)字段配置中特征字段(x_{特征序号})均配置为字段类型:FLOAT,字段类别:特征,特征类型:连续;标签字段(label)配置为字段类型:INTEGER,字段类别:标签。 图3 配置数据集参数 发布数据集。 图4 发布数据集 数据集发布的过程并不会直接从数据源中导出用户数据
learning_rate String 纵向联邦算法学习率,最大长度16 label_dataset String 标签数据集,最大长度100 label_agent String 标签方可信计算节点,最大长度100 batch_size Integer lr批大小,最小值1 grad_epsilon
learning_rate 否 String 纵向联邦算法学习率,最大长度16 label_dataset 否 String 标签数据集,最大长度100 label_agent 否 String 标签方可信计算节点,最大长度100 batch_size 否 Integer lr批大小,最小值1 grad_epsilon
__name__ == '__main__': train() 准备本地纵向联邦数据资源 纵向联邦学习的数据方分为标签方(数据集中有标签列的一方)和特征方(数据集中没有标签列的一方),目前仅支持CSV格式的文本文件,以及包含CSV文本的数据目录。目录数据集下必须至少包含一个CSV文件