检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理数据 数据管理概述 创建连接器 创建数据集 发布数据 数据预处理 父主题: 计算节点管理
集、DWS数据集、Oracle数据集、Mysql数据集,后续会支持更多华为云服务及原生服务的资源访问功能。连接信息中的敏感部分不会离开参与方侧。 数据管理包含创建数据和数据预处理,是可信智能计算服务的一项获取、配置及发布数据资源的功能。参与方进入数据管理>数据创建页面,选择对应连
数据集管理 获取字段隐私详情 数据集列表 父主题: 计算节点API
数据集管理 查询空间已注册数据集列表 父主题: 空间API
数据集注册管理 数据集列表展示 创建或更新数据集 批量删除数据集 发布数据集到空间 获取数据详情 父主题: 计算节点API
图2 前往计算节点 在“数据管理”页签找到待发布的数据名称,单击“发布”,弹出发布数据集选择框。 图3 发布数据 在发布数据集选择框中选择需要发布的合作方,单击“发布”,数据就会被同步到对应合作方作业管理的数据集中。数据集创建者默认拥有数据集权限。 图4 发布数据集 如果需要取消合作
创建数据 数据拥有方公司A创建和发布数据集。可供选择有两种数据资产类型:结构化数据集、非结构化数据集。创建数据集后,发布数据集,此时对空间内的所有代理可见。 父主题: 可信数据交换场景
选择数据 首先企业A要在“数据选择”页面选择双方发布的数据集,已选择的数据集会出现在右侧,所选的数据集会用于后续的步骤。 父主题: 使用TICS可信联邦学习进行联邦建模
选择界面左侧“数据管理>数据预处理”,单击“创建”,可输入作业名称、描述及数据集,单击保存。若当前选不到目标数据集,可查看该数据集是否已参与其他的预处理作业。 目标数据集需要对所选字段的分布类型进行严格定义。处理评估/预测数据前建议先使用训练数据进行预处理,以确保当数据处理达到目标需求。
数据预处理 创建数据预处理作业 开发数据预处理作业 父主题: 管理数据
在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。 图1 前往计算节点 登录到计算节点后,进入数据管理并进行数据集发布。 图2 数据管理中新建数据集 参考下图填写参数信息。(1)指定连接器为localConnector,选择数据文件的路径,填写数据名称;(2
数据准备 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和su
发布后可在“数据管理>数据创建”页面查看生成的数据集。 图8 查看生成的数据集 (可选)单击作业列表中对应作业的“更多>下载参数配置”,下载本地文件。文件包含字段在作业开发页面使用预处理方法及参数,便于后期线下处理数据。 评估/预测数据预处理 参考创建数据预处理作业,在“数据管理>数据预处
关系型数据库连接器:在弹出的界面选择关系型数据库连接器,例如RDS、MYSQL、DWS、HIVE等,关系型数据库的数据集默认是“结构化”数据类型。“选择“数据库”以及“数据表”,再配置创建数据的参数,配置完成后单击“确定”。 结构化数据是指具有标准化行、列数据属性的数据,例如sql、csv数据等。 配置结构化数据集时,需要注意以下几点:
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
参考准备本地横向联邦数据资源 -> 上传数据集文件,将该文件上传到计算节点的挂载路径下,即完成多方安全计算数据集配置。 如果数据集文件不含有csv文件表头,需要用户提供额外的配置文件用来说明数据集每一列的信息。以上述标签方数据集为例,没有表头的数据集文件和数据配置文件的格式如下:
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict
准备数据 A方提供了待查询的用户ID数据,样例如下: blacklist_query.csv id 1914fd1aef9346e7a1b0a63c95aa918e 6b86b273ff34fce19d6b804eff5a3f57 66985617b4f74d14b4eceeaa25d61f5e