检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
计算。 图1 企业信用评估应用场景示意图 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。
https://iam.cn-north-4.myhuaweicloud.com/v3/auth/tokens 图1 URI示意图 为查看方便,在每个具体API的URI部分,只给出resource-path部分,并将请求方法写在一起。这是因为URI-scheme都是HTTPS,而Endpoint在同一
情形一:直接查询其他参与方的唯一标识、度量数据。 情形二:试图使用唯一标识做条件过滤操作。 情形三:使用直接可以逆推度量数据的简单计算式。 情形四:将标识分组后的度量数据聚合值直接明文呈现。
行日志。 连接器(Connector) 连接器是可信智能计算节点内置的连接特定数据源所需的对象模板,目前支持连接MRS Hive、MySQL、RDS、DWS、ORACLE等多种连接器,并支持扩展增加新的连接器。 数据集(Data set) 数据集为计算节点获取并配置的合作方数据的元数据信息,以及附加其上的隐私策略。
并填写描述信息。 不可区分度是指数据方无法从该数量级中区分出具体的查询值,例如百级不可区分度说明数据方不知道查询方具体查询了百级数量级中哪一条数据。 作业是否可被授权执行是指作业是否可被授权给空间内其他节点执行,被授权节点可以直接执行作业并获取作业结果,无编辑、查看、删除、初始化等权限。
训练时需勾选使用的特征选项,勾选后可以跳过特征分箱,直接进行训练。 分箱方式包括等频分箱和等距分箱。等频分箱是指经过计算使得每个分箱区间包含大致相等的实例数量;等距分箱是指经过计算使得每个箱体的区间间隔保持一致。 需要至少勾选一个无标签数据集特征才能进行模型训练。如果不勾选任何特征,会提示“选择
如果错误提示是可能泄露的敏感数据(may disclose the value of the measurement…),则查看分组时选择的键是否有问题,不建议选用分类后组内数量非常少的分组键,这种分组键容易在求和后,泄露实际的敏感数据。
数据类型,DWS.DWS类型数据集,LOCAL_CSV.本地文件类型数据集,MRS.HIVE类型数据集,MYSQL.MySql类型数据集,ORACLE.Oracle类型数据集,RDS.RDS类型数据集 description String 描述 id String 数据集id name String
数据准备 乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集
棵树预测值的加权和。取值范围为1~50的整数。 树深度 定义每棵决策树的深度,根节点为第一层。取值范围为1~10的整数。 切分点数量 定义每个特征切分点的数量,数量越多,准确率越高,计算时间越长。取值范围为5~10的整数。 分类阈值 区分正负例的得分阈值。 逻辑回归/FiBiNET
行日志。 连接器(Connector) 连接器是可信智能计算节点内置的连接特定数据源所需的对象模板,目前支持连接MRS Hive、MySQL、RDS、DWS、ORACLE等多种连接器,并支持扩展增加新的连接器。 数据集(Data set) 数据集为计算节点获取并配置的合作方数据的元数据信息,以及附加其上的隐私策略。
支持在分布式的、信任边界缺失的多个参与方之间建立互信空间; 实现跨组织、跨行业的多方数据融合分析和多方联合学习建模。 灵活多态 支持对接主流数据源(如MRS、 DLI、 RDS、 Oracle等)的联合数据分析; 支持对接多种深度学习框架(TICS,TensorFlow)的联邦计算; 支持控制流和数据流的分离,用
步骤7:空间成员创建作业 创建多方安全计算作业 空间成员登录进入计算节点页面。 在左侧导航树上依次选择“作业管理 > 多方安全计算”,在页面上方选择作业创建的空间后,单击“创建”。 图1 创建多方安全计算作业 在弹出的对话框中,输入作业“名称”和“描述”信息后单击“确定”。 图2
是否必选 参数类型 描述 dataset_type 是 String 数据集类型,按照传入枚举类型,返回所属作业类型的数据集。例如:传入MYSQL,返回分析作业可用的数据集;传入LOCAL_CSV,返回学习作业可用数据集 agent_id 否 String 可信计算节点id,最大32位,由字母和数字组成
否 String 连接器类型,主要分为多方安全计算连接器和可信联邦学习连接器。 多方安全计算连接器 MRS, RDS_MYSQL, DWS, JDBC, MYSQL, ORACLE, 可信联邦学习连接器 LOCAL 请求参数 表2 请求Header参数 参数 是否必选 参数类型
准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float
为什么我的计算结果每次计算时结果都不一样? 当空间开启了“结果差分隐私”开关时, 对敏感数据字段的sum操作都会添加一个差分噪声,来保护单条敏感数据不被泄露。 如果需要更精确的结果, 可联系空间管理员关闭“结果差分隐私”开关, 或者联系敏感字段的合作方修改字段分类。
现对数据的探索、分析、规整以及转换,以达到数据在训练模型中可使用、可实用,在TICS平台内完成数据处理到建模的闭环。 假设您有如下数据集(只展示部分数据),由于数据不够完整,如job、gender等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准,需要
Content-Type 是 String 发送的实体的MIME类型 表3 请求Body参数 参数 是否必选 参数类型 描述 datasets 是 String 每个可信计算节点的数据集名 features 否 Array of DatasetFeatureEntity objects 数据集特征列 label
创建训练型横向联邦学习作业 配置作业的执行脚本,训练模型文件。 执行脚本是每个参与方的计算节点在本地会执行的模型训练、评估程序,用于基于本地的数据集训练子模型。 训练模型文件则定义了模型的结构,会用于每个参与方在本地初始化模型。 图2 配置执行脚本、训练模型文件 配置已方、对方数