检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
= b.id TICS会识别并提示。 图4 执行失败告警 上述隐私规则,均为TICS系统提供的默认规则。 父主题: 基于TICS实现端到端的企业积分查询作业
果标签、0的概率、1的概率),两个文件的行数相等且每一行相互对应。 至此,企业A完成了整个TICS联邦建模的流程,并将模型应用到了营销业务当中。这个预测作业可以作为后续持续预测的依据,企业A可以定期地使用模型预测自己的新业务数据。同时企业A也可以根据新积累的数据训练出新的模型,进
执行样本分布联合统计 企业A单击“执行”并等待一段时间之后,可以在页面下方“执行结果”看到sql的运行结果。 也可以通过“作业管理 > 多方安全计算 > 历史作业 > 查看结果”查看对应的结果。 父主题: 使用TICS多方安全计算进行联合样本分布统计
创建合约 供数方可以在TICS 可信数据交换数据合约页面编辑、查看、发送合约给用数方,确认数据使用的合约详情,还可以撤回、中止合约。 前提条件 空间组建完成,参考组建空间。 空间成员完成计算节点部署,配置参数时选择挂载方式和数据目录,参考部署计算节点。 空间成员在计算节点中完成数据发布,参考发布数据。
Identifier) 用于标识某个事物实体身份的字段。例如身份证、工号、公司代码等。 敏感(Sensitive) 涉及隐私的数据,例如薪水、纳税、用电量、成交量等。 非敏感(Nonsensitive) 不涉及隐私的数据, 例如所处城市、公司类型等。 脱敏(Desensitization) 按照一定的算法,将原始数据的敏感部分隐去。
筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练
第一次执行作业的结果如下: 图2 作业结果 在返回最终统计结果前,增加了一个差分隐私计算的任务节点,如图3所示。 图3 差分隐私计算任务节点 再执行如下sql,sql中过滤掉了某个企业,试图用差值去计算这个企业的税收值。 Select industry, sum(tax_bal)
场景描述 本章节以“小微企业信用评分”场景为例。 背景信息 社保、水电气和资助金等数据统一存储在某政务云,由不同的局进行管理,机构想单独申请进行企业相关评分的计算会非常困难。 因此可以由市政数局出面,统一制定隐私规则,审批数据提供方的数据使用申请, 并通过华为TICS可信智能计算平台进行安全计算。
模型训练 企业A在完成特征选择后,可以单击右下角的“启动训练”按钮,配置训练的超参数并开始训练。 等待训练完成后就可以看到训练出的模型指标。 模型训练完成后如果指标不理想可以重复调整7、8两步的所选特征和超参数,直至训练出满意的模型。 父主题: 使用TICS可信联邦学习进行联邦建模
发布数据集 企业A和企业B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集,并单击“发布”。 以企业A为例,数据集信息如下: 隐私求交场景需要将求交的字段设置为“非敏感”的唯一标识。 父主题: 隐私求交黑名单共享场景
基本计算能力验证 验证TICS的基础计算能力,以计算各企业在2021年的价值评分,用于评估信贷能力,其中的公式仅为简单的参考计算式。 操作步骤 执行如下的sql作业。 select c.id as `企业id`, 0.5 * a.tax_bal + 0.8 * b.supp_bal
训练时的评估指标是用训练的数据集中随机采样的记录计算的,完成训练后企业A也可以使用其他的数据集对同一个模型进行多次的评估。单击“发起评估”选择训练参与方不同的数据集即可发起模型评估。 至此使用可信联邦学习进行联邦建模的过程已经完成,企业A已经训练出了一个符合自己要求的算法模型,后续文档会介绍如何使用已有的算法模型对新的数据进行预测。
"description" : "is a test", "columns" : [ { "comments" : "企业号(企业社会信用代码)", "data_id" : "d839d96befe74d5d8ae74689cfdad2e1", "column_name"
准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict
时可能会使用到该信息。 离散:离散变量是在任意两个值之间具有可计数的值的数值变量。离散变量始终为数值变量。例如,客户投诉数量或者瑕疵或缺陷数。 连续:连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量,也可以是日期/时间变量。例如,零件的长度,或者收到付款的日期和时间。
查看求交结果 隐私求交作业执行完成后,企业A可以通过单击“历史作业 > 查看结果”看到隐私求交作业的运行结果,包括交集的大小和交集文件的路径。 打开obs到指定目录下查看,可以看到有两个结果文件,其中一个是交集记录的序号alignedIds.csv,另一个是交集记录的id alignedOriginalIds
提高营销效果、降低营销成本的业务诉求。 根据前一篇文章,企业A已经通过可信联邦学习功能训练出了一个预测客户时候是高价值用户的模型。 本文主要介绍企业A和大数据厂商B如何通过已有的模型对新的业务数据进行预测。 父主题: 使用TICS联邦预测进行新数据离线预测
发布数据集 企业B分别自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集,并单击“发布”。 企业B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 外部数据共享
发布数据集 企业A将自己的需要预测的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建用于预测的数据集。 企业A预测数据集如下: 大数据厂商B仍使用训练时的提供的全量数据作为预测数据集,没有发布新的数据集。 父主题: 使用TICS联邦预测进行新数据离线预测
"column_name" : "credit_no", "data_type" : "STRING", "comments" : "企业号(企业社会信用代码)", "sql_col_privacy_type" : "NON_SENSITIVE", "privacy_policy"