检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节以“小微企业信用评分”场景为例。 背景信息 社保、水电气和资助金等数据统一存储在某政务云,由不同的局进行管理,机构想单独申请进行企业相关评分的计算会非常困难。 因此可以由市政数局出面,统一制定隐私规则,审批数据提供方的数据使用申请, 并通过华为TICS可信智能计算平台进行安全计算。 图1 企业信用评估应用场景示意图
查找待查看计算过程的作业,单击作业名称展开,在操作栏单击“计算过程”。 图2 空间侧查看作业计算过程 计算过程页面可以单击任务节点,查看开始和结束时间等信息。在计算过程页面下方详情列表打开任务详情,可以查看更详细的计算过程信息。 图3 作业计算过程信息详情(截图为多方安全计算作业示例,请以实际作业为准)
阶段五:基于MPC算法的高安全级别计算 完成demo验证阶段,为提升数据保护级别,接入以纯密文的状态做计算的更高安全级别的数据,可以通过开启高隐私级别开关,提升空间安全级别。 图1 高隐私级别开关 再次单击作业,审批进行的同时敏感数据被进行了秘密分享加密。DAG图显示了“psi +
横向训练型作业在作业配置页面单击“保存”按钮后,单击“提交审批”按钮,审批完成后再单击“执行”按钮。 横向评估型作业在作业配置页面单击“保存”按钮后,可以直接单击“执行”按钮。 用户登录进入计算节点页面。 在左侧导航树上依次选择“作业管理 > 可信联邦学习”,打开可信联邦学习作业页面。 在“
进行数据交换的角色分为用数方和供数方,用数方通过发送申请传递数据使用需求;供数方确认使用需求后,创建合约发送到供数方进行签署,一旦合约生效,数据交换作业就可以执行。 父主题: 可信数据交换
获取计算节点列表 功能介绍 功能描述:用户可以使用该接口获取可信节点信息列表。支持节点名称与空间名称的模糊查询。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/agents 表1 路径参数 参数 是否必选 参数类型 描述 project_id
基于MPC算法的高安全级别计算 完成demo验证阶段,为提升数据保护级别,接入以纯密文的状态做计算的更高安全级别的数据,可以通过开启高隐私级别开关,提升空间安全级别。 图1 高隐私级别开关 再次单击作业,审批进行的同时敏感数据被进行了同态加密。DAG图显示了“psi + 同态”的
数据准备 乳腺癌数据集从UCI获取,该数据集只包含连续类型特征,因此对所有特征使用Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集
训练时长 (秒) 166 167 216 从上面两张表可以看出: (1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的; (2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。 参与方数据量不同时,独立训练对比横向联邦训练的准确率
该参数的值为创建新容器的内存。 样本粗筛:当己方数据过大无法导出成文本文件时,可以使用样本粗筛获取合作方的明文id前缀,使用大数据组件筛选出id前缀相符的数据,达到减少数据量的目的。样本粗筛时还可以选择多个标记为“非敏感”的字段进行过滤,结果会按照“id前缀,过滤字段1,过滤字段2……”的格式保存成csv文本文件。
筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
模型评估 训练时的评估指标是用训练的数据集中随机采样的记录计算的,完成训练后企业A也可以使用其他的数据集对同一个模型进行多次的评估。单击“发起评估”选择训练参与方不同的数据集即可发起模型评估。 至此使用可信联邦学习进行联邦建模的过程已经完成,企业A已经训练出了一个符合自己要求的算
某个其他机构,不同机构数据所包含的特征相同。 这种情况下,xx医院想申请使用其他机构的乳腺癌患者数据进行乳腺癌预测模型建模会非常困难。因此可以通过华为TICS可信智能计算平台的横向联邦功能,实现在患者隐私不泄露的前提下,利用其他机构的医疗数据提升乳腺癌预测模型的准确率。 进一步地
据。 存在已创建的合约。 约束限制 仅用数方操作。 如果用数方一直未审批签署合约,供数方可以撤回合约,重新编辑。一旦用数方确认,则合约内容无法修改。但供数方可中止合约。 对审批中的合约才可以进行签署。 操作步骤 用户登录进入计算节点页面。 在左侧导航树上选择“可信数据交换 > 数据合约”,打开数据合约页面。
数据集,最后单击“保存并提交审批”按钮完成作业创建。等审批方审批完后,就可以执行任务。 注意:选择的数据集中需要有样本id列,后面预测需要使用。 图2 新建作业 等待参与方审批,当参与方单击“同意”后,就可以执行任务了。 图3 审批详情 父主题: 实时预测
作业后的开发按钮,进入作业开发页面。该页面描述了字段的属性,如字段名称和分布类型。另外可以通过列表下方的“描述性统计”按键来统计字段的统计量,包括缺失值数量、最大值、最小值及数据分布图。还可以通过为字段添加预处理方法。 图3 作业开发页面 进行字段描述性统计。单击列表下方的“描述
阶段三:审批防护 开启审批防护功能 前提条件 完成隐私规则防护。 操作步骤 敏感数据被查询时,可以在审批详情中,看到是否使查询敏感数据的结果可见,可由该提供方进行识别,并进行拒绝操作。 图1 审批详情 在审批详情中也可看到两个字段相加的情况,如下图所示。 图2 字段相加 通过查看
b, Partner2.POWER_DATA c where b.id = c.id and a.id = b.id 审批时可以看到如下的信息,涉及关联字段较多,其使用方式都能够在审批界面中展示出来。 图1 基础信息 执行结果如下。 图2 执行结果 结果显示,TICS支持大量基础的SQL语法。
b, Partner2.POWER_DATA c where b.id = c.id and a.id = b.id 审批时可以看到如下的信息,涉及关联字段较多,其使用方式都能够在审批界面中展示出来。 图1 基础信息 执行结果如下。 图2 执行结果 结果显示,TICS支持大量基础的SQL语法。