检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可信联邦学习作业是可信智能计算服务提供的在保障用户数据安全的前提下,利用多方数据实现的联合建模。 安全可信。 多种训练场景。 方便与已有服务对接。 使用场景 横向联邦机器学习 横向联邦机器学习,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况,联合多个参与者的具有相同特征的多行样本进行可信联邦学习,联合建模。
作业描述可按需填写。 勾选参与双方的数据集,同时单击右侧已选数据集的对齐列框选择需要求交集的字段信息。 对齐列只能选择非敏感的唯一标识。 选择求交算法。 选择椭圆曲线。 选择大数据量节点。 配置重试参数。开关开启后,执行失败的作业会根据配置定时进行重试,仅对开启后的执行作业生效。开关关闭后
场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。
首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4
发布数据集 企业A和企业B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集,并单击“发布”。 以企业A为例,数据集信息如下: 隐私求交场景需要将求交的字段设置为“非敏感”的唯一标识。 父主题: 隐私求交黑名单共享场景
Scikit-Learn的StandardScaler进行了归一化。为了模拟横向联邦学习场景,将数据集随机划分为三个大小类似的部分:(1)xx医院的训练集;(2)其他机构的训练集;(3)独立的测试集,用于准确评估横向联邦学习得到的模型准确率。此外由于原始的数据集较小,采用了Imb
从上面两张表可以看出: (1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的; (2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。 参与方数据量不同时,独立训练对比横向联邦训练的准确率 本节实验不再将训练集均匀划
管理任务 任务管理是可信智能计算服务提供的一项查看计算节点参与任务的功能。通过任务管理,用户可以查看到曾在该计算节点上执行过的所有作业,并查看自己这个计算节点在作业中的位置以及数据流向。 通过任务管理,用户可以查看自己的计算节点在空间中的作业参与度,并通过“计算过程”来确认数据是否合理、安全地被使用。
数据需求方公司B在自己的计算节点页面上可以查看数据目录,找到数据拥有方公司A创建并发布的数据。 图1 创建数据申请 对数据集单击“申请使用”,在弹窗中填写需要使用的字段和访问需求,保存后可以提交审批,由公司A审核。 访问需求包括: 访问截止时间:设置访问的时间限制,超过访问时间后,对方的访问权限
根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。 将TICS资源委托给更专业、高效的其他华为账号或者云服务,这些账号或者云服务可以根据权限进行代运维。 如果华为账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用TICS服务的其它功能。
首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征
本案例以“预测乳腺癌是良性/恶性”的场景为例。假设一部分的乳腺癌患者数据存储在xx医院,另一部分数据存储在某个其他机构,不同机构数据所包含的特征相同。 这种情况下,xx医院想申请使用其他机构的乳腺癌患者数据进行乳腺癌预测模型建模会非常困难。因此可以通过华为TICS可信智能计算平台的横向联邦功能,实
查看结果”看到隐私求交作业的运行结果,包括交集的大小和交集文件的路径。 打开obs到指定目录下查看,可以看到有两个结果文件,其中一个是交集记录的序号alignedIds.csv,另一个是交集记录的id alignedOriginalIds.csv。 alignedIds.csv的内容如下: 1
样本对齐 单击右下角的下一步进入“样本对齐”页面,这一步是为了进行样本的碰撞,过滤出共有的数据交集,作为后续步骤的输入。企业A需要选择双方的样本对齐字段,并单击“对齐”按钮执行样本对齐。执行完成后会在下方展示对齐后的数据量及对齐结果路径。 父主题: 使用TICS可信联邦学习进行联邦建模
什么是项目? 什么是项目? 云的每个区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以区域默认单位为项目进行授权,IAM用户可以访问您账号中该区域的所有资源。 如果您希望进行更加精细的权限控制,可以在区域默认的项目中创建子项目,并在子
保证目录下至少包含一个csv文件,且所有csv文件的特征数保持一致。此外,选择数据集的原始文件,需要指定csv文件的“分隔符”、“是否包含表头”。“是否包含表头”是指文件的第一行是否是每一个字段的名称。 数据结构:配置每个字段的类别标签,包括以下几种: “字段类型”:支持BOOL
联邦预测作业在保障用户数据安全、模型资产安全的前提下,利用多方数据和模型实现样本联合预测。 目前TICS支持两种类型的预测方式: 批量预测: 批量预测通过在计算节点后台发起离线预测任务的方式,在任务完成后可以获得指定数据集中所有样本的预测结果。 实时预测: 实时预测通过在计算节点部署在线预测服务的方式,允许用户
项目名 TICS所属的项目名。 Project Name 项目ID TICS所属的项目ID。 1551c7f6c808414d8e9f3c514a170f2e 账户名 用户所属的企业账户名称。 Account Name 用户名 使用云服务的用户名,该用户需要拥有TICS的操作权限。 Username
管理实例 实例管理是可信智能计算服务提供的一项查看计算节点作业实例的功能。通过实例管理,用户可以查看到该计算节点所有作业的执行实例,并查看作业的状态、计算过程、执行结果。 用户登录TICS控制台。 进入TICS控制台后,单击页面左侧“计算节点管理”,进入计算节点管理页面。 在“计
dpoint。 获取终端节点 终端节点(Endpoint)即调用空间API的请求地址,不同服务不同区域的终端节点不同。 可信智能计算服务的终端节点Endpoint构造规则如下,请您根据业务需要选择对应区域的终端节点。 表1 可信智能计算服务Endpoint 区域名称 区域ID 终端节点(Endpoint)