检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹出发布数据集选择框。 图3 发布数据 在发布数据集选择框中选择需要发布的合作方,单击“发布”,数据就会被同步到对应合作方作业管理的数据集中。数据集创建者默认拥有数据集权限。 图4 发布数据集 如果需要取消合作方的访问权限,需要重新发布数据集,单击“发布”并去勾选该合作方,单击“确认”。
创建数据 数据拥有方公司A创建和发布数据集。可供选择有两种数据资产类型:结构化数据集、非结构化数据集。创建数据集后,发布数据集,此时对空间内的所有代理可见。 父主题: 可信数据交换场景
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict
String 数据类型,DWS.DWS类型数据集,LOCAL_CSV.本地文件类型数集据,MRS.HIVE类型数据集,MYSQL.MySql类型数据集,ORACLE.Oracle类型数据集,RDS.RDS类型数据集 枚举值: DWS LOCAL_CSV MRS MYSQL ORACLE
(label)配置为字段类型:INTEGER,字段类别:标签。 图3 配置数据集参数 发布数据集。 图4 发布数据集 数据集发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。 父主题: 测试步骤
选择数据 首先企业A要在“数据选择”页面选择双方发布的数据集,已选择的数据集会出现在右侧,所选的数据集会用于后续的步骤。 父主题: 使用TICS可信联邦学习进行联邦建模
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
准备数据 企业A的实时业务不需要准备数据,在发起查询时通过参数传递需要查询的用户id。 表1 企业B用户画像数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 用户数据画像特征 bigdata_all.csv id,f0,f1,f2
准备数据 A方提供了待查询的用户ID数据,样例如下: blacklist_query.csv id 1914fd1aef9346e7a1b0a63c95aa918e 6b86b273ff34fce19d6b804eff5a3f57 66985617b4f74d14b4eceeaa25d61f5e
以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和support,在用户计算节点agent_gov上发布。
管理数据 数据管理概述 创建连接器 创建数据集 发布数据 数据预处理 父主题: 计算节点管理
需具有数据库的读写权限(参考修改权限)。“密码”为该用户登录RDS实例的密码。 “连接器类型”选择MySql时,需保证计算节点与数据库所在虚机的连通性,“驱动文件”需与目标MySQL数据库版本一致。驱动类名com.mysql.cj.jdbc.Driver,仅支持mysql-connector-java-5
connector_type 是 String 连接器类型 1.MRS--MapReduce连接器 2.JDBC--JAVA数据库连接器 3.MYSQL--MySQL连接器 4.DWS--高斯数据库连接器 5.ORACLE--ORACLE连接器 auth_type 是 String 认证类型1.PWD----密码
审批数据申请 数据拥有方公司A登录进入计算节点页面。 在左侧导航树上选择“可信数据交换 > 数据申请”,打开数据申请页面。 在数据申请页面单击“我收到的”,查看供数方节点收到的申请列表。 数据来源为数据需求方公司B发送来的使用申请:申请交换的数据集、数据集字段(结构化数据才有该字段)。
批量预测 批量预测通过在计算节点后台发起离线预测任务的方式,在任务完成后可以获得指定数据集中所有样本的预测结果。 创建批量预测作业 编辑批量预测作业 执行批量预测作业 删除批量预测作业 父主题: 联邦预测作业
connector_type 是 String 连接器类型 1.MRS--MapReduce连接器 2.JDBC--JAVA数据库连接器 3.MYSQL--MySQL连接器 4.DWS--高斯数据库连接器 5.ORACLE--ORACLE连接器 auth_type 是 String 认证类型1.PWD----密码
数据预处理 创建数据预处理作业 开发数据预处理作业 父主题: 管理数据
发布数据集到空间 功能介绍 本接口用于发布数据集到空间。 调用方法 请参见如何调用API。 URI POST /v1/agents/{agent_id}/datasets/{dataset_id}/publish 表1 路径参数 参数 是否必选 参数类型 描述 agent_id 是