检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理数据 数据管理概述 创建连接器 创建数据集 发布数据 数据预处理 父主题: 计算节点管理
数据预处理 创建数据预处理作业 开发数据预处理作业 父主题: 管理数据
进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图1 选择计算节点 在“计算节点详情”页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。
数据集管理 获取字段隐私详情 数据集列表 父主题: 计算节点API
数据集注册管理 数据集列表展示 创建或更新数据集 批量删除数据集 发布数据集到空间 获取数据详情 父主题: 计算节点API
数据准备 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和su
集、DWS数据集、Oracle数据集、Mysql数据集,后续会支持更多华为云服务及原生服务的资源访问功能。连接信息中的敏感部分不会离开参与方侧。 数据管理包含创建数据和数据预处理,是可信智能计算服务的一项获取、配置及发布数据资源的功能。参与方进入数据管理>数据创建页面,选择对应连
进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图1 选择计算节点 在“计算节点详情”页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。
data_type String 连接器数据类型 1.RDS--云数据库类型 2.MYSQL--MySQL类型 3.DWS--高斯数据库类型 4.MRS--MapReduce数据类型 5.ORACLE--ORACLE数据类型 6.LOCAL_CSV--本地数据类型 ag_dataset_table
与“登录密码”保持一致即可。 指定开放端口 计算节点控制台系统的网络端口。 部署配置相关参数 部署方式 当前版本支持云租户部署和边缘节点部署。 云租户部署:数据上云的用户可以选择“云租户部署”,可信计算节点部署在华为云租户的虚拟私有云VPC中,可信计算节点组件部署在基于华为云CCE服务的容器中。关于CCE集群的更多信息可参考CCE。
处理作业对数据集的发布状态无要求。 创建数据预处理作业 用户登录TICS控制台。 进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图2 选择计算节点 在“
可信数据交换 概述 创建申请 确认申请 创建合约 签署合约 查看履约记录 查看作业计算过程和作业报告
开发数据预处理作业 数据预处理通常被用于评估/训练作业场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。 训练数据预处理作业 评估/预测数据预处理 前提条件 已提前准备好训练数据,和评估/预测数据。 数据预处理作业选择的结构化数据集(包括
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float
参考准备本地横向联邦数据资源 -> 上传数据集文件,将该文件上传到计算节点的挂载路径下,即完成多方安全计算数据集配置。 如果数据集文件不含有csv文件表头,需要用户提供额外的配置文件用来说明数据集每一列的信息。以上述标签方数据集为例,没有表头的数据集文件和数据配置文件的格式如下:
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
数据集管理 查询空间已注册数据集列表 父主题: 空间API
图4 连接正常 进入数据管理,进行数据集发布。 图5 新建数据管理 填写参数信息。 图6 填写参数 重复步骤1~7,发布support资助金数据表和power_data能源表。 数据发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。
外部数据共享 场景描述 准备数据 发布数据集 创建实时隐匿查询作业 执行实时隐匿查询作业 父主题: 实时隐匿查询场景
dataset_type 是 String 数据集类型,按照传入枚举类型,返回所属作业类型的数据集。例如:传入MYSQL,返回分析作业可用的数据集;传入LOCAL_CSV,返回学习作业可用数据集 agent_id 否 String 可信计算节点id,最大32位,由字母和数字组成 请求参数