检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是区域和可用区? 什么是区域、可用区? 用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region)指物理的数据中心。每个区域完全独立,这样可以实现较大程度的容错能力和稳定性。资源创建成功后不能更换区域。 可用区(AZ,Availability
终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 tics.cn-north-4.myhuaweicloud.com HTTPS 华东-上海一 cn-east-3 tics.cn-east-3.myhuaweicloud.com HTTPS 华北-乌兰察布一 cn-north-5
创建样本分布统计作业 创建样本分布统计作业步骤如下: 在“作业管理 > 多方安全计算”页面单击创建,进入sql开发页面,展开左侧的“合作方数据”可以看到企业A、大数据厂商B发布的不同数据集。 单击某一个数据集可以看到数据集的表结构信息。 此时企业A可以编写如下的sql语句统计双方
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float
发布数据集 企业A和大数据厂商B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集。 企业A的数据集如下: 大数据厂商B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 使用TICS多方安全计算进行联合样本分布统计
发布数据集 企业A和大数据厂商B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集。 企业A的数据集如下: 大数据厂商B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 使用TICS可信联邦学习进行联邦建模
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串
发布数据集 企业A将自己的需要预测的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建用于预测的数据集。 企业A预测数据集如下: 大数据厂商B仍使用训练时的提供的全量数据作为预测数据集,没有发布新的数据集。 父主题: 使用TICS联邦预测进行新数据离线预测
管理数据 数据管理概述 创建连接器 创建数据集 发布数据 数据预处理 父主题: 计算节点管理
创建数据 数据拥有方公司A创建和发布数据集。可供选择有两种数据资产类型:结构化数据集、非结构化数据集。创建数据集后,发布数据集,此时对空间内的所有代理可见。 父主题: 可信数据交换场景
发布数据 前提条件 计算节点已创建完成,创建方法请参考部署计算节点。 发布数据 发布数据前,若不存在已创建好的连接器和数据,需先执行创建连接器和创建数据集操作。 若待发布的数据已经创建完成,参照以下流程进入“数据管理”页,执行以下操作即可。 用户登录TICS控制台。 进入TICS
准备数据 (可选)准备MRS Hive数据源 如果您的数据需通过MRS Hive发布到TICS,则您需要提前准备MRS Hive数据源。 准备数据步骤如下: 购买MRS服务,操作步骤参考创建集群章节,且MRS服务的VPC必须与计算节点部署节点处于同一个VPC内。 注意事项: “区域”必须与CCE集群在同一个VPC下。
数据准备 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和su
选择数据 首先企业A要在“数据选择”页面选择双方发布的数据集,已选择的数据集会出现在右侧,所选的数据集会用于后续的步骤。 父主题: 使用TICS可信联邦学习进行联邦建模
准备数据 A方提供了待查询的用户ID数据,样例如下: blacklist_query.csv id 1914fd1aef9346e7a1b0a63c95aa918e 6b86b273ff34fce19d6b804eff5a3f57 66985617b4f74d14b4eceeaa25d61f5e
数据准备 乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
准备数据 企业A的实时业务不需要准备数据,在发起查询时通过参数传递需要查询的用户id。 表1 企业B用户画像数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 用户数据画像特征 bigdata_all.csv id,f0,f1,f2
概述 目前TICS支持两种隐匿查询方式: 批量隐匿查询:支持SQL语言查询,适用大数据量批量查询场景。 实时隐匿查询:适用高性能、实时性要求高的查询场景,应用程序可以通过提供的标准API使用。 父主题: 隐匿查询