华为云用户手册

  • 入门实践 当您参考准备工作章节完成注册账号并实名认证、配置CCE服务、配置IEF服务、购买购买 TICS 服务、授权 IAM 用户使用TI CS 、准备数据、启用 区块链 审计服务(可选)等一系列操作后,可以根据自身的业务需求使用TICS提供的常用实践。 表1 常用最佳实践 实践 描述 基于TICS实现端到端的企业积分查询作业 本最佳实践提供了通过统一制定隐私规则,使用TICS进行安全计算,避免真实数据被窃取的使用案例。 父主题: 快速入门
  • 发布数据 空间成员登录TICS控制台。进入TICS控制台后,单击页面左侧“计算节点管理”,进入“计算节点管理”页面。 在“计算节点管理”页,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图1 选择计算节点 在“计算节点详情”页,单击“前往计算节点”,在登录页输入部署计算节点时设置的“登录用户名”和“密码”。 图2 前往计算节点 登录成功后,进入到计算节点界面,选择左侧导航栏中“连接器管理”,单击“创建”,在弹出的界面配置创建连接器的参数,配置完成后单击“确定”。 测试功能为数据源连通性及密码正确性的检查测试。 图3 创建连接器(以RDS服务为例) 表1 参数说明 参数名 描述 连接器类型 “连接器类型”选择Hive连接时,需要选择Hive版本,当前仅支持 MRS 2.x和MRS3.x版本,选择的MRS集群需与当前计算节点部署CCE或IEF(非云上IEF节点不支持接入Hive)在同一VPC。“用户名”为MRS集群中拥有Hive权限的集群用户,“用户认证凭据”需要上传对应用户的认证凭据,请在 MapReduce服务 的下载用户认证文件中获取。 “连接器类型”选择RDS服务时,所选择的RDS服务实例需与计算节点在同一VPC下,且端口开放。填写的用户名,需具有数据库的读写权限(参考修改权限)。“密码”为该用户登录RDS实例的密码。 “连接器类型”选择MySql时,需保证计算节点与数据库所在虚机的连通性,“驱动文件”需与目标MySQL数据库版本一致。驱动类名com.mysql.cj.jdbc.Driver,仅支持mysql-connector-java-5.x以后的版本,驱动文件请在Mysql驱动下载地址中获取。 “连接器类型” 选择DWS连接时,填写的用户名,需具有数据库的读写权限(参考权限管理)。“密码”为该用户登录DWS实例的密码。 “连接器类型” 选择ORACLE连接时,需保证计算节点与数据库的连通性,当前仅支持ORACLE 12c和19c版本。驱动文件需与目标ORACLE数据库版本一致,请在ORACLE驱动下载地址中获取。 “连接器类型” 选择API连接时,需保证计算节点与api接口的连通性,当前仅支持基础认证方式。 连接器名称 根据实际情况设置即可。 数据库版本 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置即可。 数据库名称 “连接器类型”选择ORACLE时,呈现此参数。根据实际情况设置即可。 数据库服务器 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 端口 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 实例名称 “连接器类型”选择RDS或DWS服务时,呈现此参数。下拉选择实例即可。 数据库 “连接器类型”选择DWS服务时,呈现此参数。可手动输入DWS服务里面购买的数据库名称。 用户名 用户根据实际情况设置。 密码 用户根据实际情况设置。 驱动类名 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置,注意驱动类名com.mysql.cj.jdbc.Driver仅支持mysql-connector-java-5.x以后的版本。 JDBC URL “连接器类型”选择MySql时,呈现此参数。JDBC访问端口。取值样例:198.0.0.1:3306。 驱动文件 “连接器类型”选择MySql和ORACLE时,呈现此参数。JDBC驱动。 其他属性 “连接器类型”选择MySql时,呈现此参数。用户根据实际情况设置任务所需的Key和Value。 选择界面左侧“数据管理”,单击“创建”,在弹出的界面配置创建数据的参数,配置完成后单击“确定”。 配置数据参数时,若“连接器”为Hive、MySQL、RDS、DWS、ORACLE类型时,可对字段信息进行隐私策略的配置: 字段类别: 唯一标识:指用于标识某个事物实体身份的字段。例如身份证、工号、公司代码等。勾选后,会通过一定的语法限制和运行期校验,保护数据集内的id总集,确保无法被恶意逆推。 敏感:指会参与统计、计算的敏感数据。例如薪水、纳税、用电量。勾选后,其他参与方只能使用敏感数据进行不可逆推的四则运算、聚合计算(sum/avg/variance)、条件过滤(where)。TICS会保护唯一标识和敏感数据不被成对地明文泄露,同时会对敏感数据的求和计算添加差分噪声,以保护敏感数据不被泄露。 非敏感:指不参与数值分析,也和唯一身份无关的数据。例如等级、公司类型。 脱敏:勾选后,会对数据进行脱敏。 在“数据管理”页签找到待发布的数据名称,单击“发布”,数据就会被同步到作业管理的数据集中。 编辑完成后,需再次发布,变更才会生效。
  • 下载计算节点配置信息 下载计算节点配置相关的信息,下载的信息可在部署计算节点的时候导入。“计算节点配置”代表“部署计算节点”属于哪个空间,用户输入的数据就会在哪个空间中参与计算。 配置信息包含证书,用于计算节点之间通信双向认证。证书保证了空间下的用户,部署的计算节点能够数据交互,参与计算。同时,也隔离了不同空间之间的数据访问。 合作方登录TICS控制台。进入TICS控制台后,单击页面左侧“通知管理”,进入通知管理页面。 浏览通知信息,单击“下载计算节点配置”,得到agentConfig.zip文件,解压到本地。 图1 下载计算节点配置
  • 使用TICS的用户角色 根据人员的职能进行划分,使用TICS的用户主要可以分为以下两类。 组织方 面向熟悉业务并具有管理、决策、审核权限的管理人员。组织方具有TICS的所有权限,包括创建空间、邀请空间成员、删除空间等权限。例如,在创建空间模块中,组织方可以对合作方人员发布的数据进行审核,把好质量关。 合作方 合作方使用数据源计算节点模块实现自主可控的数据源注册、隐私策略(脱敏、加密、水印)的设定、元数据的发布等,为数据源计算节点提供全生命周期的可靠性监控、运维管理。
  • 准备本地横向联邦数据资源 上传数据集文件(作业参与方) 上传数据集文件到计算节点挂载路径下,供计算节点执行的脚本读取。如果是主机挂载,上传到宿主机的挂载路径下。如果是OBS挂载,使用华为云提供的 对象存储服务 ,上传到当前计算节点使用的对象桶中。 图5 对象桶名称 此处以主机挂载为例: 创建一个主机挂载的计算节点Agent1,挂载路径为/tmp/tics1/。 使用文件上传工具上传包含数据集iris1.csv的dataset文件夹到宿主机/tmp/tics1/目录下。 iris1.csv内容如下: sepal_length,sepal_width,petal_length,petal_width,class 5.1,3.5,1.4,0.3,Iris-setosa 5.7,3.8,1.7,0.3,Iris-setosa 5.1,3.8,1.5,0.3,Iris-setosa 5.4,3.4,1.7,0.2,Iris-setosa 5.1,3.7,1.5,0.4,Iris-setosa 4.6,3.6,1,0.2,Iris-setosa 5.1,3.3,1.7,0.5,Iris-setosa 4.8,3.4,1.9,0.2,Iris-setosa 5,3,1.6,0.2,Iris-setosa 5,3.4,1.6,0.4,Iris-setosa 5.2,3.5,1.5,0.2,Iris-setosa 5.2,3.4,1.4,0.2,Iris-setosa 4.7,3.2,1.6,0.2,Iris-setosa 4.8,3.1,1.6,0.2,Iris-setosa 5.4,3.4,1.5,0.4,Iris-setosa 5.2,4.1,1.5,0.1,Iris-setosa 5.5,4.2,1.4,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa 5,3.2,1.2,0.2,Iris-setosa 5.5,3.5,1.3,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa 4.4,3,1.3,0.2,Iris-setosa 5.1,3.4,1.5,0.2,Iris-setosa 5,3.5,1.3,0.3,Iris-setosa 4.5,2.3,1.3,0.3,Iris-setosa 4.4,3.2,1.3,0.2,Iris-setosa 5,3.5,1.6,0.6,Iris-setosa 5.1,3.8,1.9,0.4,Iris-setosa 4.8,3,1.4,0.3,Iris-setosa 5.1,3.8,1.6,0.2,Iris-setosa 4.6,3.2,1.4,0.2,Iris-setosa 5.3,3.7,1.5,0.2,Iris-setosa 5,3.3,1.4,0.2,Iris-setosa 6.8,2.8,4.8,1.4,Iris-versicolor 6.7,3,5,1.7,Iris-versicolor 6,2.9,4.5,1.5,Iris-versicolor 5.7,2.6,3.5,1,Iris-versicolor 5.5,2.4,3.8,1.1,Iris-versicolor 5.5,2.4,3.7,1,Iris-versicolor 5.8,2.7,3.9,1.2,Iris-versicolor 6,2.7,5.1,1.6,Iris-versicolor 5.4,3,4.5,1.5,Iris-versicolor 6,3.4,4.5,1.6,Iris-versicolor 6.7,3.1,4.7,1.5,Iris-versicolor 6.3,2.3,4.4,1.3,Iris-versicolor 5.6,3,4.1,1.3,Iris-versicolor 5.5,2.5,4,1.3,Iris-versicolor 5.5,2.6,4.4,1.2,Iris-versicolor 6.1,3,4.6,1.4,Iris-versicolor 5.8,2.6,4,1.2,Iris-versicolor 5,2.3,3.3,1,Iris-versicolor 5.6,2.7,4.2,1.3,Iris-versicolor 5.7,3,4.2,1.2,Iris-versicolor 5.7,2.9,4.2,1.3,Iris-versicolor 6.2,2.9,4.3,1.3,Iris-versicolor 5.1,2.5,3,1.1,Iris-versicolor 5.7,2.8,4.1,1.3,Iris-versicolor 6.3,3.3,6,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 7.1,3,5.9,2.1,Iris-virginica 6.3,2.9,5.6,1.8,Iris-virginica 6.5,3,5.8,2.2,Iris-virginica 7.6,3,6.6,2.1,Iris-virginica 4.9,2.5,4.5,1.7,Iris-virginica 7.3,2.9,6.3,1.8,Iris-virginica 6.7,2.5,5.8,1.8,Iris-virginica 7.2,3.6,6.1,2.5,Iris-virginica 6.5,3.2,5.1,2,Iris-virginica 6.4,2.7,5.3,1.9,Iris-virginica 6.8,3,5.5,2.1,Iris-virginica 5.7,2.5,5,2,Iris-virginica 5.8,2.8,5.1,2.4,Iris-virginica 6.4,3.2,5.3,2.3,Iris-virginica 6.5,3,5.5,1.8,Iris-virginica 7.7,3.8,6.7,2.2,Iris-virginica 7.7,2.6,6.9,2.3,Iris-virginica 6,2.2,5,1.5,Iris-virginica 6.9,3.2,5.7,2.3,Iris-virginica 5.6,2.8,4.9,2,Iris-virginica 7.7,2.8,6.7,2,Iris-virginica 6.3,2.7,4.9,1.8,Iris-virginica 6.7,3.3,5.7,2.1,Iris-virginica 7.2,3.2,6,1.8,Iris-virginica 为了使容器内的计算节点程序有权限能够读取到文件,使用命令chown -R 1000:1000 /tmp/tics1/修改挂载目录下的文件的属主和组为1000:1000。 在第二台主机上创建计算节点Agent2,挂载路径为/tmp/tics2/。上传包含数据集iris2.csv的dataset文件夹到宿主机目录下,修改属主。 iris2.csv的内容如下: sepal_length,sepal_width,petal_length,petal_width,class 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5,3.4,1.5,0.2,Iris-setosa 4.4,2.9,1.4,0.2,Iris-setosa 4.9,3.1,1.5,0.1,Iris-setosa 5.4,3.7,1.5,0.2,Iris-setosa 4.8,3.4,1.6,0.2,Iris-setosa 4.8,3,1.4,0.1,Iris-setosa 4.3,3,1.1,0.1,Iris-setosa 5.8,4,1.2,0.2,Iris-setosa 5.7,4.4,1.5,0.4,Iris-setosa 5.4,3.9,1.3,0.4,Iris-setosa 7,3.2,4.7,1.4,Iris-versicolor 6.4,3.2,4.5,1.5,Iris-versicolor 6.9,3.1,4.9,1.5,Iris-versicolor 5.5,2.3,4,1.3,Iris-versicolor 6.5,2.8,4.6,1.5,Iris-versicolor 5.7,2.8,4.5,1.3,Iris-versicolor 6.3,3.3,4.7,1.6,Iris-versicolor 4.9,2.4,3.3,1,Iris-versicolor 6.6,2.9,4.6,1.3,Iris-versicolor 5.2,2.7,3.9,1.4,Iris-versicolor 5,2,3.5,1,Iris-versicolor 5.9,3,4.2,1.5,Iris-versicolor 6,2.2,4,1,Iris-versicolor 6.1,2.9,4.7,1.4,Iris-versicolor 5.6,2.9,3.6,1.3,Iris-versicolor 6.7,3.1,4.4,1.4,Iris-versicolor 5.6,3,4.5,1.5,Iris-versicolor 5.8,2.7,4.1,1,Iris-versicolor 6.2,2.2,4.5,1.5,Iris-versicolor 5.6,2.5,3.9,1.1,Iris-versicolor 5.9,3.2,4.8,1.8,Iris-versicolor 6.1,2.8,4,1.3,Iris-versicolor 6.3,2.5,4.9,1.5,Iris-versicolor 6.1,2.8,4.7,1.2,Iris-versicolor 6.4,2.9,4.3,1.3,Iris-versicolor 6.6,3,4.4,1.4,Iris-versicolor 6.8,2.8,4.8,1.4,Iris-versicolor 6.2,2.8,4.8,1.8,Iris-virginica 6.1,3,4.9,1.8,Iris-virginica 6.4,2.8,5.6,2.1,Iris-virginica 7.2,3,5.8,1.6,Iris-virginica 7.4,2.8,6.1,1.9,Iris-virginica 7.9,3.8,6.4,2,Iris-virginica 6.4,2.8,5.6,2.2,Iris-virginica 6.3,2.8,5.1,1.5,Iris-virginica 6.1,2.6,5.6,1.4,Iris-virginica 7.7,3,6.1,2.3,Iris-virginica 6.3,3.4,5.6,2.4,Iris-virginica 6.4,3.1,5.5,1.8,Iris-virginica 6,3,4.8,1.8,Iris-virginica 6.9,3.1,5.4,2.1,Iris-virginica 6.7,3.1,5.6,2.4,Iris-virginica 6.9,3.1,5.1,2.3,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 6.8,3.2,5.9,2.3,Iris-virginica 6.7,3.3,5.7,2.5,Iris-virginica 6.7,3,5.2,2.3,Iris-virginica 6.3,2.5,5,1.9,Iris-virginica 6.5,3,5.2,2,Iris-virginica 6.2,3.4,5.4,2.3,Iris-virginica 5.9,3,5.1,1.8,Iris-virginica 准备模型文件/初始权重(作业发起方) 作业发起方需要提供模型、初始权重(非必须),上传到Agent1的挂载目录下并使用命令chown -R 1000:1000 /tmp/tics1/修改挂载目录下的文件的属主和组。 使用python代码创建模型文件,保存为二进制文件model.h5,以鸢尾花为例,生成如下的模型: import tensorflow as tf import keras model = keras.Sequential([ keras.layers.Dense(4, activation=tf.nn.relu, input_shape=(4,)), keras.layers.Dense(6, activation=tf.nn.relu), keras.layers.Dense(3, activation='softmax') ]) model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) model.save("d:/model.h5") 初始权重的格式是浮点数的数组,与模型对应。使用联邦学习训练出来的结果result_1可以作为初始权重,样例如下: -0.23300957679748535,0.7804553508758545,0.0064492723904550076,0.5866460800170898,0.676144003868103,-0.7883696556091309,0.5472091436386108,-0.20961782336235046,0.58524489402771,-0.5079598426818848,-0.47474920749664307,-0.3519996106624603,-0.10822880268096924,-0.5457949042320251,-0.28117161989212036,-0.7369481325149536,-0.04728877171874046,0.003856887575238943,0.051739662885665894,0.033792052417993546,-0.31878742575645447,0.7511205673217773,0.3158722519874573,-0.7290999293327332,0.7187696695327759,0.09846954792737961,-0.06735057383775711,0.7165604829788208,-0.730293869972229,0.4473201036453247,-0.27151209115982056,-0.6971480846405029,0.7360773086547852,0.819558322429657,0.4984433054924011,0.05300116539001465,-0.6597640514373779,0.7849202156066895,0.6896201372146606,0.11731931567192078,-0.5380218029022217,0.18895208835601807,-0.18693888187408447,0.357051283121109,0.05440644919872284,0.042556408792734146,-0.04341210797429085,0.0,-0.04367709159851074,-0.031455427408218384,0.24731603264808655,-0.062861368060112,-0.4265706539154053,0.32981523871421814,-0.021271884441375732,0.15228557586669922,0.1818728893995285,0.4162319302558899,-0.22432318329811096,0.7156463861465454,-0.13709741830825806,0.7237883806228638,-0.5489991903305054,0.47034209966659546,-0.04692812263965607,0.7690137028694153,0.40263476967811584,-0.4405142068862915,0.016018997877836227,-0.04845477640628815,0.037553105503320694 编写训练脚本(作业发起方) 作业发起方还需要编写联邦学习训练脚本,其中需要用户自行实现读取数据、训练模型、评估模型、获取评估指标的逻辑。计算节点会将数据集配置文件中的path属性作为参数传递给训练脚本。 JobParam属性如下: class JobParam: """训练脚本参数 """ # 作业id job_id = '' # 当前轮数 round = 0 # 迭代次数 epoch = 0 # 模型文件路径 model_file = '' # 数据集路径 dataset_path = '' # 是否仅做评估 eval_only = False # 权重文件 weights_file = '' # 输出路径 output = '' # 其他参数json字符串 param = '' 鸢尾花的训练脚本iris_train.py样例如下: # -*- coding: utf-8 -*- import getopt import sys from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelBinarizer import keras import pandas as pd import horizontal.horizontallearning as hl def train(): # 解析命令行输入 jobParam = JobParam() jobParam.parse_from_command_line() job_type = 'evaluation' if jobParam.eval_only else 'training' print(f"Starting round {jobParam.round} {job_type}") # 加载模型,设置初始权重参数 model = keras.models.load_model(jobParam.model_file) hl.set_model_weights(model, jobParam.weights_file) # 加载数据、训练、评估 -- 用户自己实现 print(f"Load data {jobParam.dataset_path}") train_x, test_x, train_y, test_y, class_dict = load_data(jobParam.dataset_path) if not jobParam.eval_only: b_size = 1 model.fit(train_x, train_y, batch_size=b_size, epochs=jobParam.epoch, shuffle=True, verbose=1) print(f"Training job [{jobParam.job_id}] finished") eval = model.evaluate(test_x, test_y, verbose=0) print("Evaluation on test data: loss = %0.6f accuracy = %0.2f%% \n" % (eval[0], eval[1] * 100)) # 结果以json格式保存 -- 用户读取评估指标 result = {} result['loss'] = eval[0] result['accuracy'] = eval[1] # 生成结果文件 hl.save_train_result(jobParam, model, result) # 读取CSV数据集,并拆分为训练集和测试集 # 该函数的传入参数为CSV_FILE_PATH: csv文件路径 def load_data(CSV_FILE_PATH): IRIS = pd.read_csv(CSV_FILE_PATH) target_var = 'class' # 目标变量 # 数据集的特征 features = list(IRIS.columns) features.remove(target_var) # 目标变量的类别 Class = IRIS[target_var].unique() # 目标变量的类别字典 Class_dict = dict(zip(Class, range(len(Class)))) # 增加一列target, 将目标变量进行编码 IRIS['target'] = IRIS[target_var].apply(lambda x: Class_dict[x]) # 对目标变量进行0-1编码(One-hot Encoding) lb = LabelBinarizer() lb.fit(list(Class_dict.values())) transformed_labels = lb.transform(IRIS['target']) y_bin_labels = [] # 对多分类进行0-1编码的变量 for i in range(transformed_labels.shape[1]): y_bin_labels.append('y' + str(i)) IRIS['y' + str(i)] = transformed_labels[:, i] # 将数据集分为训练集和测试集 train_x, test_x, train_y, test_y = train_test_split(IRIS[features], IRIS[y_bin_labels], train_size=0.7, test_size=0.3, random_state=0) return train_x, test_x, train_y, test_y, Class_dict class JobParam: """训练脚本参数 """ # required parameters job_id = '' round = 0 epoch = 0 model_file = '' dataset_path = '' eval_only = False # optional parameters weights_file = '' output = '' param = '' def parse_from_command_line(self): """从命令行中解析作业参数 """ opts, args = getopt.getopt(sys.argv[1:], 'hn:w:', ['round=', 'epoch=', 'model_file=', 'eval_only', 'dataset_path=', 'weights_file=', 'output=', 'param=', 'job_id=']) for key, value in opts: if key in ['--round']: self.round = int(value) if key in ['--epoch']: self.epoch = int(value) if key in ['--model_file']: self.model_file = value if key in ['--eval_only']: self.eval_only = True if key in ['--dataset_path']: self.dataset_path = value if key in ['--weights_file']: self.weights_file = value if key in ['--output']: self.output = value if key in ['--param']: self.param = value if key in ['--job_id']: self.job_id = value if __name__ == '__main__': train()
  • 创建连接器 用户登录TICS控制台。 进入TICS控制台后,单击页面左侧“计算节点管理”。 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图1 选择计算节点 在“计算节点详情”页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。 图2 前往计算节点 登录成功后,进入到计算节点界面,选择左侧导航栏中“连接器管理”,单击“创建”,在弹出的界面配置创建连接器的参数,配置完成后单击“确定”。 测试功能为数据源连通性及密码正确性的检查测试。 图3 创建连接器(以RDS服务为例) 表1 参数说明 参数名 描述 连接器类型 “连接器类型”选择Hive连接时,需要选择Hive版本,当前仅支持MRS2.x和MRS3.x版本,选择的MRS集群需与当前计算节点部署CCE或IEF(非云上IEF节点不支持接入Hive)在同一VPC。“用户名”为MRS集群中拥有Hive权限的集群用户,“用户认证凭据”需要上传对应用户的认证凭据,请在MapReduce服务的下载用户认证文件中获取。 “连接器类型”选择RDS服务时,所选择的RDS服务实例需与计算节点在同一VPC下,且端口开放。填写的用户名,需具有数据库的读写权限(参考修改权限)。“密码”为该用户登录RDS实例的密码。 “连接器类型”选择MySql时,需保证计算节点与数据库所在虚机的连通性,“驱动文件”需与目标MySQL数据库版本一致。驱动类名com.mysql.cj.jdbc.Driver,仅支持mysql-connector-java-5.x以后的版本,驱动文件请在Mysql驱动下载地址中获取。 “连接器类型” 选择DWS连接时,填写的用户名,需具有数据库的读写权限(参考权限管理)。“密码”为该用户登录DWS实例的密码。 “连接器类型” 选择ORACLE连接时,需保证计算节点与数据库的连通性,当前仅支持ORACLE 12c和19c版本。驱动文件需与目标ORACLE数据库版本一致,请在ORACLE驱动下载地址中获取。 “连接器类型” 选择API连接时,需保证计算节点与api接口的连通性,当前仅支持基础认证方式。 连接器名称 根据实际情况设置即可。 数据库版本 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置即可。 数据库名称 “连接器类型”选择ORACLE时,呈现此参数。根据实际情况设置即可。 数据库服务器 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 端口 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 实例名称 “连接器类型”选择RDS或DWS服务时,呈现此参数。下拉选择实例即可。 数据库 “连接器类型”选择DWS服务时,呈现此参数。可手动输入DWS服务里面购买的数据库名称。 用户名 用户根据实际情况设置。 密码 用户根据实际情况设置。 驱动类名 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置,注意驱动类名com.mysql.cj.jdbc.Driver仅支持mysql-connector-java-5.x以后的版本。 JDBC URL “连接器类型”选择MySql时,呈现此参数。JDBC访问端口。取值样例:198.0.0.1:3306。 驱动文件 “连接器类型”选择MySql和ORACLE时,呈现此参数。JDBC驱动。 其他属性 “连接器类型”选择MySql时,呈现此参数。用户根据实际情况设置任务所需的Key和Value。
  • 前提条件 计算节点处于运行中,且所在空间信息的“认证状态”为“已认证”。 建议使用者提前了解MapReduce服务(MRS Hive)集群。 “连接器类型”选择MapReduce服务(MRS Hive)时,选择的MRS集群需与当前计算节点部署CCE在同一VPC。填写的用户名,需具有Hive的读写权限。“集群名称”为用户所需要使用的MRS Hive数据源所在的MRS集群。“用户名”为MRS集群中拥有Hive权限的集群用户。
  • 服务授权操作 进入TICS服务控制台,为保证正常创建TICS服务,需要先设置服务委托。 进入计算节点购买页面,在“部署配置”区域,设置部署方式为“边缘节点部署”,在弹出的对话框单击“同意授权”。 同意授权后,TICS将在 统一身份认证 服务IAM下为您创建名为tics_admin_trust的委托,委托绑定的权限名为tics_role_trust。授权成功后,可以进入委托列表查看。 图1 授权访问权限名 委托tics_admin_trust和权限tics_role_trust创建成功后,请勿删除。 表1 TICS委托权限列表 权限名 详细信息 备注 tics_role_trust TICS服务计算节点依赖IEF作为底层资源,因此需要tics_role_trust角色来部署应用。 由于云服务缓存需要时间,该权限3分钟左右才能生效。
  • 乳腺癌数据集作业结果 本节实验包含了如下三个部分:(1)训练轮数对联邦学习模型分类性能的影响;(2)迭代次数对联邦学习模型分类性能的影响;(3)参与方数据量不同时,本地独立训练对比横向联邦的模型性能。 不同训练参数对模型准确率、训练时长的影响 训练轮数对模型准确率的影响(迭代次数固定为20) 训练轮数 1 10 20 测试集准确率 (%) 98.016 98.016 98.016 测试集AUC 0.996 0.996 0.996 训练时长 (秒) 19 173 372 迭代轮数对模型准确率、训练时长的影响(训练轮数固定为10) 迭代次数 10 25 50 测试集准确率 (%) 97.065 98.140 98.415 测试集AUC 0.995 0.996 0.997 训练时长 (秒) 166 167 216 从上面两张表可以看出: (1)训练轮数对于联邦学习模型的性能影响不大,这主要是由于乳腺癌数据集的分类相对简单,且数据集经过了扩充导致的; (2)增大每个参与方本地模型训练的迭代次数,可以显著提升最终联邦学习模型的性能。 参与方数据量不同时,独立训练对比横向联邦训练的准确率 本节实验不再将训练集均匀划分到两个参与方,而是以不同的比例进行划分,从而探究当参与方数据量不同时,模型性能的变化情况。具体划分如下所示。实验中训练轮数固定为10,迭代次数固定为50。 参与方持有的样本数目信息 Host所持样本占比(%) Host样本数 Guest样本数 0.2 2946 11786 0.4 5892 8840 0.6 8839 5893 0.8 11785 2947 下图为当Host方拥有不同数据量时,使用横向联邦对比己方独立训练的性能对比。 图1 Host方拥有不同数据量时,横向联邦对比对立训练的模型性能 结论为:使用横向联邦学习,在己方拥有不同数据量的情况下都可以显著提升模型性能。 父主题: 实验结果
  • 评估型横向联邦作业流程 基于横向联邦作业的训练结果,可以进一步评估横向联邦模型,将训练好的模型用于预测。 选择对应训练型作业的“历史作业”按钮,获取最新作业的模型结果文件路径。 图1 查看模型结果文件的保存位置 前往工作节点上步骤1展示的路径,下载模型文件。由于Logistic Regression模型本质上还是线性模型,因此模型文件result_10为该线性模型的系数加上偏置项。 图2 查看模型结果文件 本地利用测试集评估模型。可以采用如下脚本,会打印出模型在测试集上的准确率和AUC两个指标。 图3 本地评估模型的Python脚本 父主题: 测试步骤
  • 训练型横向联邦作业流程 联邦学习分为横向联邦及纵向联邦。相同行业间,特征一致,数据主体不同,采用横向联邦。不同行业间,数据主体一致,特征不同,采用纵向联邦。xx医院的应用场景为不同主体的相同特征建模,因此选用横向联邦。 创建训练型横向联邦学习作业。 图1 创建训练型横向联邦学习作业 配置作业的执行脚本,训练模型文件。 执行脚本是每个参与方的计算节点在本地会执行的模型训练、评估程序,用于基于本地的数据集训练子模型。 训练模型文件则定义了模型的结构,会用于每个参与方在本地初始化模型。 图2 配置执行脚本、训练模型文件 配置已方、对方数据集。在作业的数据集配置中,选择己方、对方的本地数据集,此外需将已方的数据集设为评估数据集。横向联邦中,需要确保不同参与方的数据集结构完全一致。 图3 配置数据集 保存并执行作业。单击下方的“保存并执行”按钮,即可发起执行横向联邦学习作业。 单击“历史作业”按钮,查看当前作业的执行情况。 单击“计算过程”按钮可以查看作业的具体执行计划。 单击“执行结果”按钮可以查看作业保存的模型文件路径,用于后续的评估型作业。 图4 查看作业的执行情况 图5 查看作业的具体执行计划 图6 查看作业的执行结果 父主题: 测试步骤
  • 操作步骤 进入TICS服务控制台。 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。 图1 前往计算节点 登录到计算节点后,进入数据管理并进行数据集发布。 图2 数据管理中新建数据集 参考下图填写参数信息。(1)指定连接器为localConnector,选择数据文件的路径,填写数据名称;(2)字段配置中特征字段(x_{特征序号})均配置为字段类型:FLOAT,字段类别:特征,特征类型:连续;标签字段(label)配置为字段类型:INTEGER,字段类别:标签。 图3 配置数据集参数 发布数据集。 图4 发布数据集 数据集发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。
  • 背景信息 本案例以“预测乳腺癌是良性/恶性”的场景为例。假设一部分的乳腺癌患者数据存储在xx医院,另一部分数据存储在某个其他机构,不同机构数据所包含的特征相同。 这种情况下,xx医院想申请使用其他机构的乳腺癌患者数据进行乳腺癌预测模型建模会非常困难。因此可以通过华为TICS 可信智能计算 平台的横向联邦功能,实现在患者隐私不泄露的前提下,利用其他机构的医疗数据提升乳腺癌预测模型的准确率。 进一步地,可根据该模型案例发散,构建老年人健康预测、高血压预测、失能早期预警模型等。 图1 乳腺癌预测研究应用场景示意 作业发起方通过计算节点上传数据、待训练模型的定义文件; 作业发起方配置TICS的横向联邦学习作业,启动训练; 模型参数、梯度数据在TICS提供的安全聚合节点中进行加密交换; 训练过程中,各参与方计算节点会在本地生成子模型,由TICS负责安全聚合各子模型的参数,得到最终的模型; 空间的整体配置通过空间管理员进行统一管理。
  • 执行实时隐匿查询作业 企业A在发起实时隐匿查询前需要先执行数据初始化。 待实时预测作业初始化完成后,企业A可以通过页面单击“执行”试用发起查询。 例如查询id为“19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7”这样的一条数据,查询结果中即会返回企业A所选择的企业B的数据字段。 同时企业A的业务系统后台也可以通过API调用的方式调用企业A计算节点的接口发起实时隐匿查询,更好地服务生产业务。 父主题: 外部数据共享
  • 准备数据 企业A的实时业务不需要准备数据,在发起查询时通过参数传递需要查询的用户id。 表1 企业B用户画像数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 用户数据画像特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-0.246852445,-1.761531756,-2.840375975,-0.562750693,-2.23499737 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.150047899,-1.323266508,3.01679156,1.728583156,0.656158732 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,-0.333871414,-1.21968931,-0.082894791,0.020390259,-0.076884947 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.438861166,0.111880807,-3.51428545,1.123004835,0.228893969 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,0.189352371,-0.607297495,-0.808339321,2.048455567,1.303872778 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,0.379250902,1.962293246,0.066277661,3.083228267,1.952626328 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,-0.372531118,1.559382514,2.403559204,-0.041093457,0.169341125 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-2.773477116,-1.137653133,-1.50133841,0.82842642,-1.25476711 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-1.542814756,1.019110477,1.395515599,0.539956076,0.100325065 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 父主题: 外部数据共享
  • 场景描述 现有企业A和企业B达成了一项数据共享合作协议,企业B允许企业A根据用户id查询企业B的数据,辅助企业A的实时分析业务。而企业A不想暴露给企业B自己查询的用户id,因为查询该用户的信息隐含着“该用户是企业A的客户”的信息,存在用户隐私泄露的风险。 企业A和企业B可以使用TICS服务的实时隐匿查询功能,既能满足实时业务高效低延迟的业务需求,又能避免暴露企业A想要查询哪个用户的隐私安全风险。 父主题: 外部数据共享
  • 准备数据 A方提供了待查询的用户ID数据,样例如下: blacklist_query.csv id 1914fd1aef9346e7a1b0a63c95aa918e 6b86b273ff34fce19d6b804eff5a3f57 66985617b4f74d14b4eceeaa25d61f5e 935098fe075343a5864db257bc40dfa5 d4735e3a265e16eee03f59718b9b5d03 4ec9599fc203d176a301536c2e091a19 79f2c17703f0442ebb4d57800e2666a2 ea9257156eca491cada3e38b6d1000e9 acdef43b89014fab8d5916b7ce756f75 3855ad3d30c446ed94a0f34dbd7be63e d9465361c73549739fd0ae252705c190 B方提供了共享的黑名单用户ID名单,样例如下: blacklist_all.csv id 5feceb66ffc86f38d952786c6d696c79 6b86b273ff34fce19d6b804eff5a3f57 d4735e3a265e16eee03f59718b9b5d03 4b227777d4dd1fc61c6f884f48641d02 ef2d127de37b942baad06145e54b0c61 e7f6c011776e8db7cd330b54174fd76f 7902699be42c8a8e46fbbb4501726517 2c624232cdd221771294dfbb310aca00 19581e27de7ced00ff1ce50b2047e7a5 4a44dc15364204a80fe80e9039455cc1 6b51d431df5d7f141cbececcf79edf3d 3fdba35f04dc8c462986c992bcf87554 8527a891e224136950ff32ca212b45bc e629fa6598d732768f7c726b4b621285 b17ef6d19c7a5b1ee83b907c595526dc 4523540f1504cd17100c4835e85b7eef 4ec9599fc203d176a301536c2e091a19 9400f1b21cb527d7fa3d3eabba93557a 父主题: 隐私求交黑名单共享场景
  • 场景描述 有效的风险控制能够消灭或减少风险事件发生的各种可能性,或减少风险事件发生时造成的损失,对于企业具有重要意义。现阶段,企业级的单方风控体系已逐步建立,在机构内数据统一共享的基础上实现了覆盖业务前、中、后各环节的智能风控。然而,单方数据风控面临存在数据不全面、风控不及时的问题。随着隐私计算等技术为数据要素的有效流通提供了必要手段,多方数据联合风控成为新趋势。其中,黑名单共享查询是风控中的一个重要环节,企业间的黑名单共享能有效发挥风险联防联控效用。 在信息核验过程中,通过隐私计算技术实现多方黑名单数据共享,对电诈、洗钱、骗贷等行为的黑名单用户进行安全求交、匿踪查询,能够有效提升客户背景调查的安全可信程度。 现有两家企业A、B,双方决定通过TICS平台实现黑名单数据共享,通过隐私求交作业计算两方黑名单ID交集。本文以企业A为计算作业的发起方为例。 父主题: 隐私求交黑名单共享场景
  • 发起联邦预测 企业A单击“发起预测”按钮,选择己方和大数据厂商B的预测数据集,单击确定即可发起预测。 TICS服务会对两方的数据先进行样本对齐,并对双方共有的数据进行联邦预测,预测的结果会保存在企业A(作业发起方)的计算节点上。企业A可以通过obs服务或者登录到计算节点后台获取到对应路径的文件。 当只有一方提供特征时,预测的结果如下,第一列是用户的id,第二列是用户是否是高价值用户的标签,第三列、第四列是对应的概率: id,label,proba_0,proba_1 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce, 1,0.268941,0.731059 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3, 0,0.731059,0.268941 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61, 0,0.731059,0.268941 可以看出企业A提供的预测数据集中有部分用户被模型预测成了高价值的客户,后续企业A可以对这一部分用户进行定向精准营销,缩小营销广告的投放范围,减少了营销的成本。 当两方都提供特征时,预测结果分为对齐id文件(只有一列id)和预测结果文件(包括预测结果标签、0的概率、1的概率),两个文件的行数相等且每一行相互对应。 至此,企业A完成了整个TICS联邦建模的流程,并将模型应用到了营销业务当中。这个预测作业可以作为后续持续预测的依据,企业A可以定期地使用模型预测自己的新业务数据。同时企业A也可以根据新积累的数据训练出新的模型,进一步优化模型预测的精确率,再创建新的联邦预测作业,产出更精准的预测结果供业务使用。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict.csv id,col0,col1,col2,col3,col4 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.823913755,0.787712038,0.429635596,-1.315646486,-1.652321611 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.041881096,-0.651684341,3.661649955,0.035548734,3.477873904 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,0.162210842,0.177167621,4.553682264,-1.103220799,2.375621631 注意由于这是新产生的业务数据,企业A并不知道这些用户是否是高价值用户,因此没有label用户标签字段。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-0.246852445,-1.761531756,-2.840375975,-0.562750693,-2.23499737 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.150047899,-1.323266508,3.01679156,1.728583156,0.656158732 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,-0.333871414,-1.21968931,-0.082894791,0.020390259,-0.076884947 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.438861166,0.111880807,-3.51428545,1.123004835,0.228893969 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,0.189352371,-0.607297495,-0.808339321,2.048455567,1.303872778 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,0.379250902,1.962293246,0.066277661,3.083228267,1.952626328 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,-0.372531118,1.559382514,2.403559204,-0.041093457,0.169341125 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-2.773477116,-1.137653133,-1.50133841,0.82842642,-1.25476711 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-1.542814756,1.019110477,1.395515599,0.539956076,0.100325065 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 根据前一篇文章,企业A已经通过可信联邦学习功能训练出了一个预测客户时候是高价值用户的模型。 本文主要介绍企业A和大数据厂商B如何通过已有的模型对新的业务数据进行预测。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。 例如这里大数据厂商提供的f4特征iv值是0,说明这个特征对于标签的识别没有区分度,可以不选用;而f0、f2特征的iv值中等,适合作为模型的训练特征。 根据计算得出的iv值,企业A调整了训练使用的特征,没有选用双方提供的特征全集,去掉了部分iv值较低的特征,减少了无用的计算消耗。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 label float int 企业A数据特征 企业A对用户的标签属性 industry_all.csv id,col0,col1,col2,col3,col4,label 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-1.4092505981594734,-0.5893679205612337,-4.467396692737264,1.370376187747878,-1.236832500268279,1 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.5143756509526236,-1.9007475942180778,-5.617412558508785,2.2624690030531363,0.2886799132470795,0 d4735e3a265e16eee03f59718b9b5d03019c07d8b6c51f90da3a666eec13ab35,-1.768367116508903,1.2721845837988317,1.1497337351126178,-1.3322677230347135,0.9716103319957519,1 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,0.37260755643902965,-0.2919401803207504,0.08086265459068624,0.3915016044811785,-0.01227642831882032,1 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.963183239713765,0.15113195842028704,-3.8749664899828824,1.0598464836794779,-4.400883309764479,1 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-0.35120767987472346,1.8018318746365054,1.4431627055321963,0.33307198119824927,0.8626132267902704,0 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,-2.6642415757243825,0.8836647864509011,-1.2340786744195096,-1.4945873871135977,-2.6999504889710626,1 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.0418810956792526,-0.6516843409674193,3.6616499550343105,0.035548733627266224,3.477873903864847,0 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,-0.8239137547429756,0.7877120377027675,0.4296355963569869,-1.315646485980162,-1.652321610851379,1 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,0.24150521920304757,-0.21911471888817458,1.5143874504690156,-0.6652345113435701,0.17857570592695637,0 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,0.9669487046029339,-1.5427187535294289,2.490658334326762,0.4233920429380765,2.972622142213776,0 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-1.847252571492643,0.4969814473631169,1.6544165211185982,-1.9450069019776826,0.39415199332185435,1 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,0.1622108420432964,0.1771676208189943,4.55368226430978,-1.1032207991089722,2.375621631048501,0 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,4.0527809556953,1.2053939486734313,3.260708709473611,1.1400990661834884,5.025657734758696,0 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-0.21563539406333465,0.5231489445682316,-2.639937297036372,2.3738020768486425,0.34341393069722226,1 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-0.5935568930535046,-0.35175055806960276,0.9645122559090376,-0.017390131639078914,0.09256256476781644,1 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,1.0066513658973761,-0.9724037855292317,1.314115256428494,0.363296291355055,5.171128738363806,0 9400f1b21cb527d7fa3d3eabba93557a18ebe7a2ca4e471cfe5e4c5b4ca7f767,0.1406977237605178,-1.455646778048175,-0.7223212422509906,1.265951206785454,-0.5504387433588089,1 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-0.246852445,-1.761531756,-2.840375975,-0.562750693,-2.23499737 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.150047899,-1.323266508,3.01679156,1.728583156,0.656158732 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,-0.333871414,-1.21968931,-0.082894791,0.020390259,-0.076884947 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.438861166,0.111880807,-3.51428545,1.123004835,0.228893969 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,0.189352371,-0.607297495,-0.808339321,2.048455567,1.303872778 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,0.379250902,1.962293246,0.066277661,3.083228267,1.952626328 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,-0.372531118,1.559382514,2.403559204,-0.041093457,0.169341125 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-2.773477116,-1.137653133,-1.50133841,0.82842642,-1.25476711 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-1.542814756,1.019110477,1.395515599,0.539956076,0.100325065 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 基于多方安全计算功能准备好合适的数据,本文主要介绍双方对已有的数据进行样本对齐、特征筛选和联邦建模,并对产生的模型进行评估。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 label int 企业A对用户的标签属性 industry1.csv id,col0,col1,col2,col3,col4,label 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,-0.823913755,0.787712038,0.429635596,-1.315646486,-1.652321611,1 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.041881096,-0.651684341,3.661649955,0.035548734,3.477873904,0 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-1.847252571,0.496981447,1.654416521,-1.945006902,0.394151993,1 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-0.593556893,-0.351750558,0.964512256,-0.017390132,0.092562565,1 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,0.241505219,-0.219114719,1.51438745,-0.665234511,0.178575706,0 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,0.372607556,-0.29194018,0.080862655,0.391501604,-0.012276428,1 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,1.544282251,-0.203027285,3.076050022,-0.530666302,2.156693386,0 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,1.006651366,-0.972403786,1.314115256,0.363296291,5.171128738,0 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-2.859681221,-1.465959913,-0.930994729,-0.773533542,-3.673734138,0 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-1.409250598,-0.589367921,-4.467396693,1.370376188,-1.2368325,1 大数据厂商B的数据如下,一共有10条记录。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata1.csv id,f0,f1,f2,f3,f4 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS多方安全计算进行联合样本分布统计
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 本文主要介绍在进行建模之前,双方需要对已有的数据进行碰撞求交,找到双方共有的数据,了解数据的分布情况并为后续的建模做好调整。 父主题: 使用TICS多方安全计算进行联合样本分布统计
  • 导入数据 在第一个合作方Partner1的MySQL数据源中,通过如下的SQL语句创建数据表: CREATE TABLE tax ( id integer COMMENT '企业id' , tax_bal integer COMMENT '税收金额' , industry varchar(150) COMMENT '行业' ); CREATE TABLE support ( id integer COMMENT '企业id' , supp_bal integer COMMENT '资助金额', industry varchar(150) COMMENT '行业' ); 在第二个合作方Partner2的MySQL数据源中,通过如下的SQL语句创建数据表: CREATE TABLE power ( id integer COMMENT '企业id' , electric_bal integer COMMENT '电费', water_bal integer COMMENT '水费' ); 将下面的数据分别导入csv文件并上传到MySQL数据源所在服务器。 Tax表的数据如下: id,tax_bal,industry 123400999,745,互联网 123400998,324,其他 123400997,664,其他 123400996,243,金融 123400995,715,互联网 123400994,475,通讯 123400993,526,其他 123400992,272,互联网 123400991,646,金融 123400990,510,其他 Support表的数据如下: id,supp_bal,industry 123400999,314,互联网 123400998,405,其他 123400997,371,其他 123400996,484,金融 123400995,381,互联网 123400994,405,通讯 123400993,292,其他 123400992,503,互联网 123400991,303,金融 123400990,412,其他 Power表的数据如下: id,electric_bal,water_bal 123400999,79,48 123400998,57,70 123400997,69,37 123400996,50,57 123400995,66,50 123400994,56,55 123400993,63,53 123400992,45,76 123400991,80,36 123400990,39,63 执行如下SQL语句,将csv文件内的数据导入创建的数据表。 LOAD DATA INFILE 'csv数据文件名' INTO TABLE 表名 或者执行如下的插入语句: Tax表: insert into tax values (123400999,745,'互联网'), (123400998,324,'其他' ), (123400997,664,'其他' ), (123400996,243,'金融' ), (123400995,715,'互联网' ), (123400994,475,'通讯' ), (123400993,526,'其他'), (123400992,272,'互联网' ), (123400991,646,'金融' ), (123400990,510,'其他'); Support表: insert into support values (123400999,314,'互联网' ), (123400998,405,'其他' ), (123400997,371,'其他' ), (123400996,484,'金融' ), (123400995,381,'互联网' ), (123400994,405,'通讯' ), (123400993,292,'其他' ), (123400992,503,'互联网' ), (123400991,303,'金融' ), (123400990,412,'其他'); Power表: insert into power values (123400999,79,48), (123400998,57,70), (123400997,69,37), (123400996,50,57), (123400995,66,50 ), (123400994,56,55), (123400993,63,53), (123400992,45,76), (123400991,80,36), (123400990,39,63);
  • 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和support,在用户计算节点agent_gov上发布。 能源信息提供方的数据power,在用户计算节点agent_power上发布。 表1 企业税收和资助金情况表tax 列名 含义 字段分类 Id 企业id 唯一标识 tax_bal 税收 敏感 Industry 行业类型 不敏感 表2 企业政府资助金数据表support 列名 含义 字段分类 Id 企业id 唯一标识 supp_bal 资助金的金额 敏感 Industry 行业类型 不敏感 表3 企业水电情况表power 列名 含义 字段分类 Id 企业id 唯一标识 electric_bal 电费 敏感 water_bal 水费 敏感 从业务角度考虑,安排五个阶段,来对TICS系统进行验证和测试。本章重点讲述如何端到端实现一个该场景下的隐私计算作业完整执行流程。
  • 操作步骤 进入TICS服务控制台。 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。 图1 前往计算节点 登录计算节点后,在下图所述位置新建连接器。 图2 新建连接器 输入正确的连接信息,建立数据源和计算节点之间的安全连接。 图3 输入信息 建立完成后,连接器显示正常说明连接正常。 图4 连接正常 进入数据管理,进行数据集发布。 图5 新建数据管理 填写参数信息。 图6 填写参数 重复步骤1~7,发布tax税务表和power_data能源表。 数据发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。
  • 开发环境简介 在进行多方安全计算应用开发时,要准备的环境如表1所示。 同时需要准备运行调测的Linux环境,用于验证应用程序运行正常。 表1 准备项 准备项 说明 购买TICS服务 在TICS控制台通过下单建立数据空间,或者将租户加入已有的数据空间。 部署计算节点 在TICS控制台通过购买计算节点,支持接入数据空间进行操作。 创建连接器 在计算节点中,通过连接器连接数据源,用于后续的加密计算操作。 网络 确保计算节点能够与TICS空间部署节点互联互通。 父主题: 环境准备
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全