检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。
之间的安全连接。 图3 输入信息 建立完成后,连接器显示正常说明连接正常。 图4 连接正常 进入数据管理,进行数据集发布。 图5 新建数据管理 填写参数信息。 图6 填写参数 重复步骤1~7,发布support资助金数据表和power_data能源表。 数据发布的过程并不会直接从
关系型数据库的数据集默认是“结构化”数据类型。“选择“数据库”以及“数据表”,再配置创建数据的参数,配置完成后单击“确定”。 结构化数据是指具有标准化行、列数据属性的数据,例如sql、csv数据等。 配置结构化数据集时,需要注意以下几点: 选择数据文件:仅本地连接器需要配置。
弹出发布数据集选择框。 图3 发布数据 在发布数据集选择框中选择需要发布的合作方,单击“发布”,数据就会被同步到对应合作方作业管理的数据集中。数据集创建者默认拥有数据集权限。 图4 发布数据集 如果需要取消合作方的访问权限,需要重新发布数据集,单击“发布”并去勾选该合作方,单击“确认”。
企业信用评估应用场景示意图 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和su
data_type String 连接器数据类型 1.RDS--云数据库类型 2.MYSQL--MySQL类型 3.DWS--高斯数据库类型 4.MRS--MapReduce数据类型 5.ORACLE--ORACLE数据类型 6.LOCAL_CSV--本地数据类型 ag_dataset_table
参与方租户名称 dataset_id String 数据集id dataset_intercept_cnt Long 数据集拦截次数 dataset_name String 数据集名称 dataset_use_cnt Long 数据集使用次数 状态码: 401 表6 响应Body参数
123456 MySQL数据库 IP地址 本地的MySQL数据库的IP地址,且该地址允许可信节点所在虚机通过此IP访问。 1xx.1.1.1 端口 MySQL数据库的端口。 3306 驱动文件 对应数据库版本的驱动文件。 mysql-driver.jar 用户名 访问MySQL数据库的
使用TICS可信联邦学习进行联邦建模 场景描述 准备数据 发布数据集 创建可信联邦学习作业 选择数据 样本对齐 筛选特征 模型训练 模型评估 父主题: 纵向联邦建模场景
单击右下角的下一步进入“样本对齐”页面,这一步是为了进行样本的碰撞,过滤出共有的数据交集,作为后续步骤的输入。企业A需要选择双方的样本对齐字段,并单击“对齐”按钮执行样本对齐。执行完成后会在下方展示对齐后的数据量及对齐结果路径。 父主题: 使用TICS可信联邦学习进行联邦建模
评估/预测数据预处理 参考创建数据预处理作业,在“数据管理>数据预处理”界面创建用于处理评估/预测数据的数据预处理作业。注意,作业中所选的数据集应为评估/预测数据集,且字段定义、尤其是分布类型的定义与之前的训练数据集相同。 单击创建的数据预处理作业后的开发按钮,进入作业开发页面。然后单击
申请使用数据 数据需求方公司B在自己的计算节点页面上可以查看数据目录,找到数据拥有方公司A创建并发布的数据。 图1 创建数据申请 对数据集单击“申请使用”,在弹窗中填写需要使用的字段和访问需求,保存后可以提交审批,由公司A审核。 访问需求包括: 访问截止时间:设置访问的时间限制,
出结果。 如果错误提示是可能泄露的敏感数据(may disclose the value of the measurement…),则查看分组时选择的键是否有问题,不建议选用分类后组内数量非常少的分组键,这种分组键容易在求和后,泄露实际的敏感数据。
选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。
在作业开发页面“合作方数据”一栏可查看此空间合作方共享的数据。 数据第一级是合作方名称,第二级是数据名称。 SQL语句中用“合作方名.数据名”表示一张表。 SQL语句开发完成, 可单击页面上方“格式化”来对排版进行美化 图3 编写SQL语句 SQL语句的完整内容如下: select
使用TICS多方安全计算进行联合样本分布统计 场景描述 准备数据 发布数据集 创建样本分布统计作业 执行样本分布联合统计 数据优化 父主题: 纵向联邦建模场景
创建数据 数据拥有方公司A创建和发布数据集。可供选择有两种数据资产类型:结构化数据集、非结构化数据集。创建数据集后,发布数据集,此时对空间内的所有代理可见。 父主题: 可信数据交换场景
多方安全计算”页面单击创建,进入sql开发页面,展开左侧的“合作方数据”可以看到企业A、大数据厂商B发布的不同数据集。 单击某一个数据集可以看到数据集的表结构信息。 此时企业A可以编写如下的sql语句统计双方的数据碰撞后的正负样本总数,正负样本总数相加即为双方共有数据的总数。 select sum(
准备数据 企业A的实时业务不需要准备数据,在发起查询时通过参数传递需要查询的用户id。 表1 企业B用户画像数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 用户数据画像特征 bigdata_all.csv id,f0,f1,f2
企业A在完成特征选择后,可以单击右下角的“启动训练”按钮,配置训练的超参数并开始训练。 等待训练完成后就可以看到训练出的模型指标。 模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数,直至训练出满意的模型。 父主题: 使用TICS可信联邦学习进行联邦建模