检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署计算节点时,“状态”列长时间显示为“部署中”(超过20分钟),如何查看计算节点部署情况? 用户部署计算节点的节点,如果是第一次部署计算节点,会从远端拉取计算节点的镜像版本到节点,导致时间较长。当节点上已经存在镜像版本,再次在该节点上部署计算节点时,会直接使用节点上的镜像版本创建计算节点,创建时间较快。
编写完成后单击“保存”和“提交审批”,由于这条sql使用到了大数据厂商B的数据集,为保证数据安全和参与方的知情权,tics服务会自动解析sql语句将大数据厂商B需要执行的sql语句发送到大数据厂商B的计算节点上,当大数据厂商B同意审批之后才可以执行该条sql。 除此之外,tics服务会
发布数据集 企业A和大数据厂商B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集。 企业A的数据集如下: 大数据厂商B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 使用TICS多方安全计算进行联合样本分布统计
发布数据集 企业A和大数据厂商B分别将自己的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建各自的数据集。 企业A的数据集如下: 大数据厂商B的数据集如下: 创建数据集后单击“发布”按钮即可将数据的元数据信息发布到tics空间侧,供其他合作方参考。 父主题: 使用TICS可信联邦学习进行联邦建模
发布数据集 企业A将自己的需要预测的csv数据文件上传到自己的计算节点上,通过“数据管理”模块创建用于预测的数据集。 企业A预测数据集如下: 大数据厂商B仍使用训练时的提供的全量数据作为预测数据集,没有发布新的数据集。 父主题: 使用TICS联邦预测进行新数据离线预测
场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。
场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。
场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。
筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练
数据优化 根据统计结果,双方可能会发现存在以下两个问题: 碰撞后的数据总数比较小。 碰撞后的数据分布不太均衡,负样本的比例过高。 这种情况下双方可以重复2-5的步骤更新自己提供的数据,多次执行样本分布统计直至达到比较满意的碰撞结果和分布结果。 至此联邦建模的数据准备阶段完成,接下来就是使用准备好的数据进行联邦建模。
管理计算节点 计算节点升级 用户可在空间特性升级后,对已有的计算节点进行版本升级,体验最新功能特性与安全保障。 用户登录TICS控制台。 在计算节点管理界面查找需要升级的计算节点,单击“升级”。查看升级版本介绍,并在弹出框勾选“确认已经与空间其他参与方达成共识”,单击“确定”,开始计算节点升级。
发起联邦预测 企业A单击“发起预测”按钮,选择己方和大数据厂商B的预测数据集,单击确定即可发起预测。 TICS服务会对两方的数据先进行样本对齐,并对双方共有的数据进行联邦预测,预测的结果会保存在企业A(作业发起方)的计算节点上。企业A可以通过obs服务或者登录到计算节点后台获取到对应路径的文件。
横向联邦训练作业对接MA 前提条件 MA Lite资源池已创建完毕。 空间组建完成,参考组建空间。 空间成员完成计算节点部署,配置参数时选择存储方式和数据目录,参考4.1 部署计算节点。 空间成员完成数据集准备工作,参考准备本地横向联邦数据资源。 空间成员在数据目录中完成数据发布,参考4
1.370376188,-1.2368325,1 大数据厂商B的数据如下,一共有10条记录。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata1.csv id,f0,f1,f2
265951206785454,-0.5504387433588089,1 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5
注意由于这是新产生的业务数据,企业A并不知道这些用户是否是高价值用户,因此没有label用户标签字段。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5
基本概念 空间(League) 可信智能计算服务的逻辑概念,由组织方创建。空间绑定不同数据保护方式的聚合器,并邀请多方数据提供者参与,在空间内实现数据有限共享应用,提炼数据价值。 空间是联邦计算的载体。空间需要购买才能使用,在空间中可以管理合作成员,合作数据以及查看可信智能计算环境。执行联邦计算任务需要指定空间。
model_selection import train_test_split from sklearn.preprocessing import LabelBinarizer # 读取目录数据集,读取目录下所有CSV文件 if os.path.isdir(CSV_FILE_PATH):