华为云用户手册

  • 发起联邦预测 企业A单击“发起预测”按钮,选择己方和大数据厂商B的预测数据集,单击确定即可发起预测。 TICS 服务会对两方的数据先进行样本对齐,并对双方共有的数据进行联邦预测,预测的结果会保存在企业A(作业发起方)的计算节点上。企业A可以通过obs服务或者登录到计算节点后台获取到对应路径的文件。 当只有一方提供特征时,预测的结果如下,第一列是用户的id,第二列是用户是否是高价值用户的标签,第三列、第四列是对应的概率: id,label,proba_0,proba_1 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce, 1,0.268941,0.731059 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3, 0,0.731059,0.268941 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61, 0,0.731059,0.268941 可以看出企业A提供的预测数据集中有部分用户被模型预测成了高价值的客户,后续企业A可以对这一部分用户进行定向精准营销,缩小营销广告的投放范围,减少了营销的成本。 当两方都提供特征时,预测结果分为对齐id文件(只有一列id)和预测结果文件(包括预测结果标签、0的概率、1的概率),两个文件的行数相等且每一行相互对应。 至此,企业A完成了整个TI CS 联邦建模的流程,并将模型应用到了营销业务当中。这个预测作业可以作为后续持续预测的依据,企业A可以定期地使用模型预测自己的新业务数据。同时企业A也可以根据新积累的数据训练出新的模型,进一步优化模型预测的精确率,再创建新的联邦预测作业,产出更精准的预测结果供业务使用。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 准备数据 企业A和大数据厂商B需要按照训练模型使用的特征,提供用于预测的数据集,要求预测的数据集特征必须包含训练时使用的特征。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 industry_predict.csv id,col0,col1,col2,col3,col4 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.823913755,0.787712038,0.429635596,-1.315646486,-1.652321611 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.041881096,-0.651684341,3.661649955,0.035548734,3.477873904 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,0.162210842,0.177167621,4.553682264,-1.103220799,2.375621631 注意由于这是新产生的业务数据,企业A并不知道这些用户是否是高价值用户,因此没有label用户标签字段。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-0.246852445,-1.761531756,-2.840375975,-0.562750693,-2.23499737 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.150047899,-1.323266508,3.01679156,1.728583156,0.656158732 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,-0.333871414,-1.21968931,-0.082894791,0.020390259,-0.076884947 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.438861166,0.111880807,-3.51428545,1.123004835,0.228893969 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,0.189352371,-0.607297495,-0.808339321,2.048455567,1.303872778 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,0.379250902,1.962293246,0.066277661,3.083228267,1.952626328 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,-0.372531118,1.559382514,2.403559204,-0.041093457,0.169341125 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-2.773477116,-1.137653133,-1.50133841,0.82842642,-1.25476711 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-1.542814756,1.019110477,1.395515599,0.539956076,0.100325065 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 根据前一篇文章,企业A已经通过可信联邦学习功能训练出了一个预测客户时候是高价值用户的模型。 本文主要介绍企业A和大数据厂商B如何通过已有的模型对新的业务数据进行预测。 父主题: 使用TICS联邦预测进行新数据离线预测
  • 筛选特征 样本对齐执行完成后单击下一步进入“特征选择”页面,这一步企业A需要选出企业A自己和大数据厂商B的特征及标签用于后续的训练。 企业A可以选择特征及标签后“启动分箱和IV计算”,通过联邦的统计算法计算出所选特征的iv值,一般而言iv值较高的特征更有区分性,应该作为首选的训练特征;过低的iv值没有区分性会造成训练资源的浪费,过高的iv值又过于突出可能会过度影响训练出来的模型。 例如这里大数据厂商提供的f4特征iv值是0,说明这个特征对于标签的识别没有区分度,可以不选用;而f0、f2特征的iv值中等,适合作为模型的训练特征。 根据计算得出的iv值,企业A调整了训练使用的特征,没有选用双方提供的特征全集,去掉了部分iv值较低的特征,减少了无用的计算消耗。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集,之后使用每周产生的新数据作为联邦预测的预测集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 label float int 企业A数据特征 企业A对用户的标签属性 industry_all.csv id,col0,col1,col2,col3,col4,label 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-1.4092505981594734,-0.5893679205612337,-4.467396692737264,1.370376187747878,-1.236832500268279,1 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.5143756509526236,-1.9007475942180778,-5.617412558508785,2.2624690030531363,0.2886799132470795,0 d4735e3a265e16eee03f59718b9b5d03019c07d8b6c51f90da3a666eec13ab35,-1.768367116508903,1.2721845837988317,1.1497337351126178,-1.3322677230347135,0.9716103319957519,1 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,0.37260755643902965,-0.2919401803207504,0.08086265459068624,0.3915016044811785,-0.01227642831882032,1 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.963183239713765,0.15113195842028704,-3.8749664899828824,1.0598464836794779,-4.400883309764479,1 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-0.35120767987472346,1.8018318746365054,1.4431627055321963,0.33307198119824927,0.8626132267902704,0 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,-2.6642415757243825,0.8836647864509011,-1.2340786744195096,-1.4945873871135977,-2.6999504889710626,1 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.0418810956792526,-0.6516843409674193,3.6616499550343105,0.035548733627266224,3.477873903864847,0 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,-0.8239137547429756,0.7877120377027675,0.4296355963569869,-1.315646485980162,-1.652321610851379,1 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,0.24150521920304757,-0.21911471888817458,1.5143874504690156,-0.6652345113435701,0.17857570592695637,0 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,0.9669487046029339,-1.5427187535294289,2.490658334326762,0.4233920429380765,2.972622142213776,0 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-1.847252571492643,0.4969814473631169,1.6544165211185982,-1.9450069019776826,0.39415199332185435,1 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,0.1622108420432964,0.1771676208189943,4.55368226430978,-1.1032207991089722,2.375621631048501,0 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,4.0527809556953,1.2053939486734313,3.260708709473611,1.1400990661834884,5.025657734758696,0 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-0.21563539406333465,0.5231489445682316,-2.639937297036372,2.3738020768486425,0.34341393069722226,1 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-0.5935568930535046,-0.35175055806960276,0.9645122559090376,-0.017390131639078914,0.09256256476781644,1 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,1.0066513658973761,-0.9724037855292317,1.314115256428494,0.363296291355055,5.171128738363806,0 9400f1b21cb527d7fa3d3eabba93557a18ebe7a2ca4e471cfe5e4c5b4ca7f767,0.1406977237605178,-1.455646778048175,-0.7223212422509906,1.265951206785454,-0.5504387433588089,1 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata_all.csv id,f0,f1,f2,f3,f4 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-0.246852445,-1.761531756,-2.840375975,-0.562750693,-2.23499737 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,-0.150047899,-1.323266508,3.01679156,1.728583156,0.656158732 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,-0.333871414,-1.21968931,-0.082894791,0.020390259,-0.076884947 ef2d127de37b942baad06145e54b0c619a1f22327b2ebbcfbec78f5564afe39d,-2.438861166,0.111880807,-3.51428545,1.123004835,0.228893969 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 7902699be42c8a8e46fbbb4501726517e86b22c56a189f7625a6da49081b2451,0.189352371,-0.607297495,-0.808339321,2.048455567,1.303872778 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,0.379250902,1.962293246,0.066277661,3.083228267,1.952626328 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e629fa6598d732768f7c726b4b621285f9c3b85303900aa912017db7617d8bdb,-0.372531118,1.559382514,2.403559204,-0.041093457,0.169341125 b17ef6d19c7a5b1ee83b907c595526dcb1eb06db8227d650d5dda0a9f4ce8cd9,-2.773477116,-1.137653133,-1.50133841,0.82842642,-1.25476711 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-1.542814756,1.019110477,1.395515599,0.539956076,0.100325065 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 基于多方安全计算功能准备好合适的数据,本文主要介绍双方对已有的数据进行样本对齐、特征筛选和联邦建模,并对产生的模型进行评估。 父主题: 使用TICS可信联邦学习进行联邦建模
  • 准备数据 首先,企业A和大数据厂商B需要商议确定要提供的数据范围及对应的元数据信息,例如双方初始决定使用最近三个月的已有用户转化数据作为联邦训练的训练集和评估集。 表1 企业A的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 col0-col4 float 企业A数据特征 label int 企业A对用户的标签属性 industry1.csv id,col0,col1,col2,col3,col4,label 19581e27de7ced00ff1ce50b2047e7a567c76b1cbaebabe5ef03f7c3017bb5b7,-0.823913755,0.787712038,0.429635596,-1.315646486,-1.652321611,1 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,3.041881096,-0.651684341,3.661649955,0.035548734,3.477873904,0 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-1.847252571,0.496981447,1.654416521,-1.945006902,0.394151993,1 4523540f1504cd17100c4835e85b7eefd49911580f8efff0599a8f283be6b9e3,-0.593556893,-0.351750558,0.964512256,-0.017390132,0.092562565,1 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,0.241505219,-0.219114719,1.51438745,-0.665234511,0.178575706,0 4b227777d4dd1fc61c6f884f48641d02b4d121d3fd328cb08b5531fcacdabf8a,0.372607556,-0.29194018,0.080862655,0.391501604,-0.012276428,1 4e07408562bedb8b60ce05c1decfe3ad16b72230967de01f640b7e4729b49fce,1.544282251,-0.203027285,3.076050022,-0.530666302,2.156693386,0 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,1.006651366,-0.972403786,1.314115256,0.363296291,5.171128738,0 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-2.859681221,-1.465959913,-0.930994729,-0.773533542,-3.673734138,0 5feceb66ffc86f38d952786c6d696c79c2dbc239dd4e91b46729d73a27fb57e9,-1.409250598,-0.589367921,-4.467396693,1.370376188,-1.2368325,1 大数据厂商B的数据如下,一共有10条记录。 表2 大数据厂商B的数据 字段名称 字段类型 描述 id string hash过后的手机号字符串 f0-f4 float 大数据厂商数据特征 bigdata1.csv id,f0,f1,f2,f3,f4 2c624232cdd221771294dfbb310aca000a0df6ac8b66b696d90ef06fdefb64a3,0.390064223,0.664175034,3.20228741,0.380574513,0.017733811 3fdba35f04dc8c462986c992bcf875546257113072a909c162f7e470e581e278,-0.483250226,0.616586578,3.001851708,2.407914633,0.856369412 4a44dc15364204a80fe80e9039455cc1608281820fe2b24f1e5233ade6af1dd5,-0.070919538,-2.219653517,1.461645551,1.66185096,0.778770954 4ec9599fc203d176a301536c2e091a19bc852759b255bd6818810a42c5fed14a,0.024227451,-1.087235302,3.67470964,-2.420729037,-3.132456573 4fc82b26aecb47d2868c4efbe3581732a3e7cbcc6c2efb32062c08170a05eeb8,-0.771151327,-1.184821181,-0.674077615,-0.379858223,0.158957184 6b51d431df5d7f141cbececcf79edf3dd861c3b4069f0b11661a3eefacbba918,-0.738091802,-1.474822882,2.93475295,-3.763763721,-1.817301398 6b86b273ff34fce19d6b804eff5a3f5747ada4eaa22f1d49c01e52ddb7875b4b,-1.216062821,-1.093614452,-1.632396806,0.887601314,-4.40930101 8527a891e224136950ff32ca212b45bc93f69fbb801c3b1ebedac52775f99e61,-0.789268594,1.071733834,3.763254446,-3.760298263,0.49776472 e7f6c011776e8db7cd330b54174fd76f7d0216b612387a5ffcfb81e6f0919683,-2.759963795,0.405262468,1.264947591,1.027350049,1.293868423 其中为了保证数据安全,企业A和大数据厂商B通过讨论决定使用hash过后的手机号作为已有数据的唯一标识id字段,并将唯一标识作为数据对齐的依据。 父主题: 使用TICS多方安全计算进行联合样本分布统计
  • 场景描述 某企业A在进行新客户营销时的成本过高,想要通过引入外部数据的方式提高营销的效果,降低营销成本。 因此企业A希望与某大数据厂商B展开一项合作,基于双方共有的数据进行联邦建模,使用训练出的联邦模型对新数据进行联邦预测,筛选出高价值的潜在客户,再针对这些客户进行定向营销,达成提高营销效果、降低营销成本的业务诉求。 本文主要介绍在进行建模之前,双方需要对已有的数据进行碰撞求交,找到双方共有的数据,了解数据的分布情况并为后续的建模做好调整。 父主题: 使用TICS多方安全计算进行联合样本分布统计
  • 导入数据 在第一个合作方Partner1的MySQL数据源中,通过如下的SQL语句创建数据表: CREATE TABLE tax ( id integer COMMENT '企业id' , tax_bal integer COMMENT '税收金额' , industry varchar(150) COMMENT '行业' ); CREATE TABLE support ( id integer COMMENT '企业id' , supp_bal integer COMMENT '资助金额', industry varchar(150) COMMENT '行业' ); 在第二个合作方Partner2的MySQL数据源中,通过如下的SQL语句创建数据表: CREATE TABLE power ( id integer COMMENT '企业id' , electric_bal integer COMMENT '电费', water_bal integer COMMENT '水费' ); 将下面的数据分别导入csv文件并上传到MySQL数据源所在服务器。 Tax表的数据如下: id,tax_bal,industry 123400999,745,互联网 123400998,324,其他 123400997,664,其他 123400996,243,金融 123400995,715,互联网 123400994,475,通讯 123400993,526,其他 123400992,272,互联网 123400991,646,金融 123400990,510,其他 Support表的数据如下: id,supp_bal,industry 123400999,314,互联网 123400998,405,其他 123400997,371,其他 123400996,484,金融 123400995,381,互联网 123400994,405,通讯 123400993,292,其他 123400992,503,互联网 123400991,303,金融 123400990,412,其他 Power表的数据如下: id,electric_bal,water_bal 123400999,79,48 123400998,57,70 123400997,69,37 123400996,50,57 123400995,66,50 123400994,56,55 123400993,63,53 123400992,45,76 123400991,80,36 123400990,39,63 执行如下SQL语句,将csv文件内的数据导入创建的数据表。 LOAD DATA INFILE 'csv数据文件名' INTO TABLE 表名 或者执行如下的插入语句: Tax表: insert into tax values (123400999,745,'互联网'), (123400998,324,'其他' ), (123400997,664,'其他' ), (123400996,243,'金融' ), (123400995,715,'互联网' ), (123400994,475,'通讯' ), (123400993,526,'其他'), (123400992,272,'互联网' ), (123400991,646,'金融' ), (123400990,510,'其他'); Support表: insert into support values (123400999,314,'互联网' ), (123400998,405,'其他' ), (123400997,371,'其他' ), (123400996,484,'金融' ), (123400995,381,'互联网' ), (123400994,405,'通讯' ), (123400993,292,'其他' ), (123400992,503,'互联网' ), (123400991,303,'金融' ), (123400990,412,'其他'); Power表: insert into power values (123400999,79,48), (123400998,57,70), (123400997,69,37), (123400996,50,57), (123400995,66,50 ), (123400994,56,55), (123400993,63,53), (123400992,45,76), (123400991,80,36), (123400990,39,63);
  • 数据准备 以下数据和表结构是根据场景进行模拟的数据,并非真实数据。 以下数据需要提前存导入到MySQL\Hive\Oracle等用户所属数据源中,TICS本身不会持有这些数据,这些数据会通过用户购买的计算节点进行加密计算,保障数据安全。 政府信息提供方的数据tax和support,在用户计算节点agent_gov上发布。 能源信息提供方的数据power,在用户计算节点agent_power上发布。 表1 企业税收和资助金情况表tax 列名 含义 字段分类 Id 企业id 唯一标识 tax_bal 税收 敏感 Industry 行业类型 不敏感 表2 企业政府资助金数据表support 列名 含义 字段分类 Id 企业id 唯一标识 supp_bal 资助金的金额 敏感 Industry 行业类型 不敏感 表3 企业水电情况表power 列名 含义 字段分类 Id 企业id 唯一标识 electric_bal 电费 敏感 water_bal 水费 敏感 从业务角度考虑,安排五个阶段,来对TICS系统进行验证和测试。本章重点讲述如何端到端实现一个该场景下的隐私计算作业完整执行流程。
  • 操作步骤 进入TICS服务控制台。 在计算节点管理中,找到购买的计算节点,通过登录地址,进入计算节点控制台。 图1 前往计算节点 登录计算节点后,在下图所述位置新建连接器。 图2 新建连接器 输入正确的连接信息,建立数据源和计算节点之间的安全连接。 图3 输入信息 建立完成后,连接器显示正常说明连接正常。 图4 连接正常 进入数据管理,进行数据集发布。 图5 新建数据管理 填写参数信息。 图6 填写参数 重复步骤1~7,发布tax税务表和power_data能源表。 数据发布的过程并不会直接从数据源中导出用户数据,仅从数据源处获取了数据集相关的元数据信息,用于任务的解析、验证等。
  • 开发环境简介 在进行多方安全计算应用开发时,要准备的环境如表1所示。 同时需要准备运行调测的Linux环境,用于验证应用程序运行正常。 表1 准备项 准备项 说明 购买TICS服务 在TICS控制台通过下单建立数据空间,或者将租户加入已有的数据空间。 部署计算节点 在TICS控制台通过购买计算节点,支持接入数据空间进行操作。 创建连接器 在计算节点中,通过连接器连接数据源,用于后续的加密计算操作。 网络 确保计算节点能够与TICS空间部署节点互联互通。 父主题: 环境准备
  • 建议及示例 查询示例中两表join场景,建议将大表置于join左侧,小表置于join右侧,可借助初筛的能力,进行小表在大表端的加密过滤,提升性能。 建议示例: Select sum(l_tax+ s_acctbal) from league_creator.lineitem_1000w b join league_partner1.supplier_1w a on a.s_suppkey = b.l_suppkey 不建议示例: Select sum(l_tax+ s_acctbal) from league_partner1.supplier_1w a join league_creator.lineitem_1000w b on a.s_suppkey = b.l_suppkey
  • 开发流程 图1 开发流程 表1 开发流程 阶段 说明 参考文档 了解基本概念 在开始开发前,需要了解多方安全计算的基本概念。 常用概念 准备TICS执行环境 TICS执行环境当前依赖TICS空间、计算节点和连接器。 环境准备 根据场景编写sql程序 当前多方安全计算支持通过编写sql语句,来构建多方安全计算业务场景的计算任务。 使用场景 运行程序及查看结果 指导用户将开发好的sql在计算节点控制台进行提交运行,并查看结果。 可验证代码示例 父主题: 服务介绍
  • 基于MPC算法的高安全级别计算 完成demo验证阶段,为提升数据保护级别,接入以纯密文的状态做计算的更高安全级别的数据,可以通过开启高隐私级别开关,提升空间安全级别。 图1 高隐私级别开关 再次单击作业,审批进行的同时敏感数据被进行了同态加密。DAG图显示了“psi + 同态”的全过程流向,基本符合业界已公开的PSI算法流程和同态加密流程。 图2 加密流程 图3 加密流程 父主题: 可验证代码示例
  • 操作步骤 执行如下的sql作业。 select c.id as `企业id`, 0.5 * a.tax_bal + 0.8 * b.supp_bal + (0.05 * c.electric_bal + 0.05 * c.water_bal) * 0.1 as `企业评分` from Partner1.TAX a, Partner1.SUPPORT b, Partner2.POWER_DATA c where b.id = c.id and a.id = b.id 审批时可以看到如下的信息,涉及关联字段较多,其使用方式都能够在审批界面中展示出来。 图1 基础信息 执行结果如下。 图2 执行结果 结果显示,TICS支持大量基础的SQL语法。 图3 SQL编写提醒
  • 操作步骤 进入多方安全计算的作业执行界面,单击创建。 图1 创建作业 在作业界面中,按照示例一和示例二提供的案例和SQL语句进行作业测试。 图2 作业界面 示例一: 假设有人输入以下代码试图直接查询敏感数据。 select tax_bal, id from league_creator.tax 系统提示不支持进行敏感数据的SELECT操作。 图3 不支持敏感操作 示例二: 若试图在敏感数据中追加自己的数据, 从结果倒推敏感数据,即求原数据。 Select tax_bal + electric_bal from LEAGUE_CREATOR.tax a join ZZZZZZ.power_data b on a.id = b.id TICS会识别并提示。 图4 执行失败告警 上述隐私规则,均为TICS系统提供的默认规则。
  • 如何在两个节点间免密ssh登录 登录机器A,执行如下命令 ssh-keygen 遇到需要Overwrite(y/n)时输入y,其他提示均回车即可 在机器A上继续执行如下命令,按照提示输入B的登录密码即可 ssh-copy-id -i 图中红框部分 root@机器B的ip 注:以上操作为节点采用密钥登录,无密码的场景下 若所建节点采用密钥对登录的形式,可手动复制公钥文件id_rsa.pub到对端节点的指定用户的home路径下(root用户的路径为/root) 在对端节点下操作: 查看指定用户home目录下有无.ssh文件夹,没有的话创建一个,复制中的id_rsa.pub的内容到authorized_keys文件 [root@yuancheng ~]# cd .ssh [root@yuancheng .ssh]# cat ../id_rsa.pub | tee -a authorized_keys ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDINuohcfbWG8DMHY7mwnAIkp7jglJczOrk1ie5stdSF9GLroot@yuancheng [root@yuancheng .ssh]# ll total 12 -rw-r--r-- 1 root root 408 Aug 10 09:58 authorized_keys 设置authorized_keys文件的权限为600 在机器B上执行1、2步骤。 接下来两台机器,即可相互直接ssh不需要输入密码
  • IEF服务委托授权 使用主账号访问IEF服务首页,单击“同意授权”,IEF将在 统一身份认证 服务为您创建名为ief_admin_trust的委托。 图1 IEF服务授权 ief_admin_trust委托具有Tenant Administrator权限。Tenant Administrator拥有除 IAM 管理外的全部云服务管理员权限,用于对IEF所依赖的其他云服务资源进行调用,且该授权仅在当前区域生效。
  • 服务授权操作 进入TICS服务控制台,为保证正常创建TICS服务,需要先设置服务委托。 进入计算节点购买页面,在“部署配置”区域,设置部署方式为“边缘节点部署”,在弹出的对话框单击“同意授权”。 同意授权后,TICS将在统一身份认证服务IAM下为您创建名为tics_admin_trust的委托,委托绑定的权限名为tics_role_trust。授权成功后,可以进入委托列表查看。 图1 授权访问权限名 委托tics_admin_trust和权限tics_role_trust创建成功后,请勿删除。 表1 TICS委托权限列表 权限名 详细信息 备注 tics_role_trust TICS服务计算节点依赖IEF作为底层资源,因此需要tics_role_trust角色来部署应用。 由于云服务缓存需要时间,该权限3分钟左右才能生效。
  • 创建连接器 用户登录TICS控制台。 进入TICS控制台后,单击页面左侧“计算节点管理”。 在“计算节点管理”页面,查找需要发布数据的计算节点名称,单击“计算节点名称”进入计算节点详情页。 图1 选择计算节点 在“计算节点详情”页,单击“前往计算节点”,在登录页正确输入部署计算节点时设置的“登录用户名”和“密码”。 图2 前往计算节点 登录成功后,进入到计算节点界面,选择左侧导航栏中“连接器管理”,单击“创建”,在弹出的界面配置创建连接器的参数,配置完成后单击“确定”。 测试功能为数据源连通性及密码正确性的检查测试。 图3 创建连接器(以RDS服务为例) 表1 参数说明 参数名 描述 连接器类型 “连接器类型”选择Hive连接时,需要选择Hive版本,当前仅支持 MRS 2.x和MRS3.x版本,选择的MRS集群需与当前计算节点部署CCE或IEF(非云上IEF节点不支持接入Hive)在同一VPC。“用户名”为MRS集群中拥有Hive权限的集群用户,“用户认证凭据”需要上传对应用户的认证凭据,请在 MapReduce服务 的下载用户认证文件中获取。 “连接器类型”选择RDS服务时,所选择的RDS服务实例需与计算节点在同一VPC下,且端口开放。填写的用户名,需具有数据库的读写权限(参考修改权限)。“密码”为该用户登录RDS实例的密码。 “连接器类型”选择MySql时,需保证计算节点与数据库所在虚机的连通性,“驱动文件”需与目标MySQL数据库版本一致。驱动类名com.mysql.cj.jdbc.Driver,仅支持mysql-connector-java-5.x以后的版本,驱动文件请在Mysql驱动下载地址中获取。 “连接器类型” 选择DWS连接时,填写的用户名,需具有数据库的读写权限(参考权限管理)。“密码”为该用户登录DWS实例的密码。 “连接器类型” 选择ORACLE连接时,需保证计算节点与数据库的连通性,当前仅支持ORACLE 12c和19c版本。驱动文件需与目标ORACLE数据库版本一致,请在ORACLE驱动下载地址中获取。 “连接器类型” 选择API连接时,需保证计算节点与api接口的连通性,当前仅支持基础认证方式。 连接器名称 根据实际情况设置即可。 数据库版本 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置即可。 数据库名称 “连接器类型”选择ORACLE时,呈现此参数。根据实际情况设置即可。 数据库服务器 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 端口 “连接器类型”选择ORACLE时,呈现此参数。用户根据实际情况设置。 实例名称 “连接器类型”选择RDS或DWS服务时,呈现此参数。下拉选择实例即可。 数据库 “连接器类型”选择DWS服务时,呈现此参数。可手动输入DWS服务里面购买的数据库名称。 用户名 用户根据实际情况设置。 密码 用户根据实际情况设置。 驱动类名 “连接器类型”选择MySql和ORACLE时,呈现此参数。根据实际情况设置,注意驱动类名com.mysql.cj.jdbc.Driver仅支持mysql-connector-java-5.x以后的版本。 JDBC URL “连接器类型”选择MySql时,呈现此参数。JDBC访问端口。取值样例:198.0.0.1:3306。 驱动文件 “连接器类型”选择MySql和ORACLE时,呈现此参数。JDBC驱动。 其他属性 “连接器类型”选择MySql时,呈现此参数。用户根据实际情况设置任务所需的Key和Value。
  • 前提条件 计算节点处于运行中,且所在空间信息的“认证状态”为“已认证”。 建议使用者提前了解MapReduce服务(MRS Hive)集群。 “连接器类型”选择MapReduce服务(MRS Hive)时,选择的MRS集群需与当前计算节点部署CCE在同一VPC。填写的用户名,需具有Hive的读写权限。“集群名称”为用户所需要使用的MRS Hive数据源所在的MRS集群。“用户名”为MRS集群中拥有Hive权限的集群用户。
  • 计算节点部署方式 云租户部署: 数据上云的用户可以选择“云租户部署”。 可信计算 节点部署在华为云租户的 虚拟私有云VPC 中,可信计算节点组件部署在基于华为云CCE服务的容器中。 当前仅支持直接创建CCE集群,不支持选择已有集群。您需要配置CCE集群的部署规格、虚拟私有云、子网、节点密码、弹性IP等信息。 关于CCE集群的更多信息可参考CCE。 选择边缘节点部署计算节点: 数据不上云的用户可以选择“边缘节点部署”。数据不需要上传到云上,通过纳管节点的方式,即可参与多方安全计算或者联邦学习任务,关于IEF边缘节点的更多信息可参考IEF。 您可参考纳管节点来纳管节点,注意:纳管节点防火墙需要开通30000-65535端口,且需要建立消息端点和消息路由,步骤如下: 登录IEF服务,选择左侧“边 云消息 ”列,选择“消息端点”。 创建消息端点,填写相关参数。 “消息端点类型”选择“边缘端点(ServiceBus)”; “消息端点名称”参数值为“tics-agent”; “服务端口”参数值为“30000”。 选择左侧“边云消息”列,单击“消息路由”,勾选“专业版服务实例”,填写相关参数。 “消息路由名称”参数值为“tics-agent-route”; “源端点”参数值为“SystemREST”; “源端点资源”参数值为“/tics-agent”; “目的端点”参数值为“tics-agent”; “目的端点资源”参数值为“/”。
  • CCE服务委托授权 由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。 CCE的服务授权为全局配置,只要您所使用的账号在当前Region曾经进行过服务授权,则无需重新配置,可以跳过本节操作。 图1 服务授权 当您同意授权后,CCE将在IAM中创建名为“cce_admin_trust”委托,统一使用系统账户“op_svc_cce”对您的其他云服务资源进行操作,cce_admin_trust委托具有Tenant Administrator权限。Tenant Administrator拥有除IAM管理外的全部云服务管理员权限,用于对CCE所依赖的其他云服务资源进行调用,且该授权仅在当前区域生效。关于资源委托详情,您可参考委托进行了解。
  • 搜索流程元模板 根据实际业务需求,设置筛选条件,单击“搜索”,即可获取对应流程元模板。 图1 搜索流程元模板 筛选条件说明如下: 英文名称:可通过流程元模板的英文名称进行筛选。 中文名称:可通过流程元模板的中文名称进行筛选。 模板状态:支持按照工作中、审核中、已发布、发布中和发布失败筛选。 创建者:可通过创建流程元模板的用户名筛选。 更新者:可通过更新流程元模板的用户名筛选。 是否生效:支持按照是和否筛选。
  • 操作场景 当工业数字模型驱动引擎-数据建模引擎(xDM Foundation,简称xDM-F)提供的功能不能满足用户的需求时,支持用户自定义功能模型。功能模型可被数据实体作为父继承,继承其属性和关系。通过功能模型,实现建模时对各类型模型的公共特性进行抽象&接口化。例如,单板、整机、设备等实体均包含BOM编码、生产日期和资产编码属性,用户可创建一个功能模型,包含这三个属性。而创建实体时,勾选该功能模型即可。
  • 登录基础版流程引擎 首次登录基础版流程引擎之前,您需要在iDME控制台配置相应信息,具体操作请参见配置流程引擎访问。 登录iDME控制台。 在左侧导航栏中,单击“数据建模引擎”,进入数据建模引擎页面。 (可选)如果同时有部署在公有云上和边缘云上的运行服务,请切换到公有云。 在“公有云运行服务”列表中,找到待操作的基础版数据建模引擎,在其后单击更多图标,在弹出的下拉菜单中单击“访问流程引擎”。 您也可通过服务名称链接进入详情页后,展开“运行服务详情”,在“运行服务信息”的“流程引擎”处,单击“立即访问”。 输入部署应用绑定组织时,所选择的运行服务管理员的账号和密码,单击“登录”。 图1 登录页面
  • 登录体验版流程引擎 登录iDME控制台。 在左侧导航栏中,单击“数据建模引擎”,进入数据建模引擎页面。 (可选)如果同时有部署在公有云上和边缘云上的运行服务,请切换到公有云。 在“公有云运行服务”列表中,找到已部署至体验版数据建模引擎的应用,单击“登录运行态”,进入应用运行态。 您也可通过服务名称链接进入详情页后,在页面右上角单击“登录运行态”。 在左侧导航栏中,单击“流程引擎”,即可进入“流程引擎”页面。
  • 操作场景 为了提升业务对象建模模板的实用性、提高查询效率、避免一物多码,工业数字模型驱动引擎-数据建模引擎(xDM Foundation,简称xDM-F)提供分类管理功能。用户可通过分类管理实现分类结构与分类属性定义,创建业务对象时选择分类节点并定义分类属性值,确保对象唯一。也可根据分类节点及分类属性快速检索对象,提高查询效率,为企业节约时间成本、提高业务效率。 本文指导您如何在应用运行态添加分类节点。
  • 执行结果 索引的执行结果主要分为:初始态、执行中、待创建、成功和失败。 表1 执行结果 名称 说明 初始态 表示索引定义完成,待系统调用执行接口,将索引添加至应用的数据库中。 执行中 表示索引规则正在应用的数据库中执行,待返回结果。 待创建 表示索引规则未提交/应用上不存在此模型/索引字段在表中不存在,请联系运维人员处理。 成功 表示索引在应用的数据库中创建成功。 失败 表示索引在应用的数据库中创建失败,请联系运维人员处理。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全