检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备数据 A方提供了待查询的用户ID数据,样例如下: blacklist_query.csv id 1914fd1aef9346e7a1b0a63c95aa918e 6b86b273ff34fce19d6b804eff5a3f57 66985617b4f74d14b4eceeaa25d61f5e
数据准备 乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集
必要端口。 准备MRS Hive用户,操作步骤参考准备开发用户。需要注意的是用户必须具有Hive权限以及对应库表的访问权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考以下步骤创建一个新的MRS用户:
发布数据 前提条件 计算节点已创建完成,创建方法请参考部署计算节点。 发布数据 发布数据前,若不存在已创建好的连接器和数据,需先执行创建连接器和创建数据集操作。 若待发布的数据已经创建完成,参照以下流程进入“数据管理”页,执行以下操作即可。 用户登录TICS控制台。 进入TICS
创建数据 数据拥有方公司A创建和发布数据集。可供选择有两种数据资产类型:结构化数据集、非结构化数据集。创建数据集后,发布数据集,此时对空间内的所有代理可见。 父主题: 可信数据交换场景
管理数据 数据管理概述 创建连接器 创建数据集 发布数据 数据预处理 父主题: 计算节点管理
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,最大32位,由字母和数字组成 league_id 是 String 空间ID,最大32位,由字母和数字组成 job_id 是 String 作业id,最大32位,由字母和数字组成 请求参数
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
准备数据 企业A的实时业务不需要准备数据,在发起查询时通过参数传递需要查询的用户id。 表1 企业B用户画像数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 用户数据画像特征 bigdata_all.csv id,f0,f1,f2
project_id 是 String 项目ID,最大32位,由字母和数字组成 league_id 是 String 空间ID,最大32位,由字母和数字组成 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户To
功能总览 功能总览 全部 空间管理 计算节点管理 多方安全计算作业 可信联邦学习作业 联邦预测作业 空间管理 空间是联邦计算的载体。合作方只有加入空间才能参与联邦计算。空间为首个成员部署计算节点时创建。首个成员空间内的别名为默认league_creator。空间名在创建者租户范围
审批数据申请 数据拥有方公司A登录进入计算节点页面。 在左侧导航树上选择“可信数据交换 > 数据申请”,打开数据申请页面。 在数据申请页面单击“我收到的”,查看供数方节点收到的申请列表。 数据来源为数据需求方公司B发送来的使用申请:申请交换的数据集、数据集字段(结构化数据才有该字段)。
dataset_id 是 String 数据集id。 支持数字,英文字母,下划线,长度32。 样例:2257599e68e74b648185da2d90ee3f26 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。
外部数据共享 场景描述 准备数据 发布数据集 创建实时隐匿查询作业 执行实时隐匿查询作业 父主题: 实时隐匿查询场景
数据预处理 创建数据预处理作业 开发数据预处理作业 父主题: 管理数据
描述 project_id 是 String 项目ID league_id 是 String 空间ID 表2 Query参数 参数 是否必选 参数类型 描述 offset 是 Integer 起始位置。最小值0,最大值2的32次方-1 limit 是 Integer 查询个数。最小值0,最大值100
发布数据集 企业B分别自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集,并单击“发布”。 企业B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 外部数据共享
数据库连接器,例如RDS、MYSQL、DWS、HIVE等,关系型数据库的数据集默认是“结构化”数据类型。“选择“数据库”以及“数据表”,再配置创建数据的参数,配置完成后单击“确定”。 结构化数据是指具有标准化行、列数据属性的数据,例如sql、csv数据等。 配置结构化数据集时,需要注意以下几点:
数据集管理 获取字段隐私详情 数据集列表 父主题: 计算节点API
数据集发布 前提条件 完成数据准备工作。 操作步骤 进入TICS服务控制台。 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。 图1 前往计算节点 登录计算节点后,在下图所述位置新建连接器。 图2 新建连接器 输入正确的连接信息,建立数据源和计算节点之间的安全连接。