检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以及转换,以达到数据在训练模型中可使用、可实用,在TICS平台内完成数据处理到建模的闭环。 假设您有如下数据集(只展示部分数据),由于数据不够完整,如job、gender等字段均存在一定程度的缺失。为了不让机器理解形成偏差、以达到机器学习的使用标准,需要基于对数据的理解,对数据进行特征预处理。例如:
内存配额:执行特征选择作业和训练作业时,会创建新容器来执行,该参数的值为创建新容器的内存。 样本粗筛:当己方数据过大无法导出成文本文件时,可以使用样本粗筛获取合作方的明文id前缀,使用大数据组件筛选出id前缀相符的数据,达到减少数据量的目的。样本粗筛时还可以选择多个标记为“非敏感”的字段进行过滤,结果会按照“id前缀
在界面左侧选择“审计日志”,在弹出的界面查看详细信息。 图3 审计日志 事件信息内容主要有:参与方[参与方别名]创建[作业类型]作业[作业名称:作业实例id],使用数据集[数据集名称],耗费[时间],输出[条数]。 多方安全计算作业中的作业详情信息,即SQL语句也会参与审计,但该信息属于敏感信息不会上链。
参考:获取认证信息 在使用TICS时,您可能需要获取访问密钥、项目ID等信息,获取方式如下: 获取访问密钥 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。 进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图1所示。 图1 单击新增访问密钥
参考:获取认证信息 在使用TICS时,您可能需要获取访问密钥、项目ID等信息,获取方式如下: 获取访问密钥 您可以通过如下方式获取访问密钥。 登录控制台,在用户名下拉列表中选择“我的凭证”。 进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图1所示。 图1 单击新增访问密钥
开发数据预处理作业 数据预处理通常被用于评估/训练作业场景。本文以使用训练数据训练预处理作业,然后再将预处理方法应用于评估/预测数据为例进行说明。 训练数据预处理作业 评估/预测数据预处理 前提条件 已提前准备好训练数据,和评估/预测数据。 数据预处理作业选择的结构化数据集(包括
文件管理是可信智能计算服务提供的一项管理联邦学习模型文件的功能。通过文件管理,参与方无需通过登录后台手动导入模型文件,而是直接将模型文件上传到数据目录进行管理。 使用文件管理功能后,创建联邦学习作业时用户可以便捷地选择自己以前上传的执行脚本、训练模型、数据文件、权重参数文件,极大地提高了系统的易用性及可维护性。
空间成员完成计算节点部署,配置参数时选择挂载方式和数据目录,参考部署计算节点。 空间成员在计算节点中完成数据发布,参考发布数据。 参与方的计算节点如果是采用云租户部署,并且使用子账号进行创建的,需要参考配置CCE集群子账号权限。 约束限制 避免作业名重复。 必须选择一个已有模型才能创建批量预测作业。 批量预测作业必须选择一个当前计算节点发布的数据集。
在弹出框输入规格参数值,单击“确定”。 CPU(Cores):用户填写容器使用的CPU配额,范围为2~999的正整数。 内存(GIB):用户填写容器使用的内存配额,范围为4~999的正整数。为了达到计算资源最佳使用效率,建议内存配额控制在43G以内。 计算节点密钥(.p12):请从通
执行批量预测作业 前提条件 参与方的计算节点如果是采用云租户部署,并且使用子账号进行创建的,需要参考配置CCE集群子账号权限给子账号增加权限配置。 执行批量预测作业 用户登录进入计算节点页面。 在左侧导航树上依次选择“作业管理 > 联邦预测”,打开联邦预测作业页面。 在“联邦预测
支持本地连接器配置的数据交换类型文件。 只可以申请使用非己方的数据。 创建数据交换作业 用户登录进入计算节点页面。 在左侧导航树上依次选择“可信数据交换 > 数据目录”,打开“数据目录”页面。 在“数据目录”页面,对数据集单击“申请使用”。 图1 创建数据申请 在申请使用界面配置使用字段及用数方的访问需求。
数据使用监管 为数据参与方提供可视化的数据使用流图,提供插件化的区块链对接存储,实现使用过程的可审计、可追溯。 容器化部署 容器化的多方数据源计算节点、聚合计算节点的部署管理,支持云上、边缘、HCS多种部署模式。 TICS版本及规格说明 表1 TICS版本 版本 建议使用场景 企业版
有数据的交集。 单独使用场景 数据持有双方为获取己方与对方数据的交集,在不暴露其它数据的情况下,将需要获取交集的那一部分数据与对方的数据,通过创建并执行可信智能计算服务提供的隐私求交作业,可以得到最终交集数据并保存下来,用于后续的数据分析以及使用。 联合使用场景 用于纵向联邦学习中数据对齐。
空间侧,并支持通过转换函数将特征数据转换成更加适合算法模型的特征数据。 使用场景 连接器使用场景:参与方的数据信息分布在不同的资源服务上,即可通过连接器管理功能来快速连接到名下的各类资源服务。 数据创建使用场景:参与方加入空间后,需要提供自己的数据集信息,用户即可通过数据创建功能
及对应库表的访问权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以参考以下步骤创建一个新的MRS用户: 使用admin账号登录MRS Manager页面。 单击“系统 > 权限
支持控制流和数据流的分离,用户无需关心计算任务拆解和组合过程,采用有向无环图DAG实现多个参与方数据流的自动化编排和融合计算。 自主高效 数据使用全流程可视化展示,为数据参与方提供可感知、可监测的数据使用过程; 支持数据参与方、计算方的多种部署模式,包括云上(同Region、跨Region)、边缘节点、HCSO的部署模式;
可能会影响性能以及部分作业正常执行。低级别时,使用国际标准的对称和非对称加密结合方式,在安全沙箱内进行解密计算。性能和灵活度较高。 结果差分隐私:开启时,使用差分隐私算法对多方安全计算作业的执行结果添加隐私保护,避免历史差分攻击。使用该功能会在计算节点发布数据集时将数据集信息的取
数据使用自主可控。 联合多方正样本的效果,丰富模型的特征,提高模型的泛化能力。 计算全程保障企业数据安全与个人隐私。 图2 金融联合营销 使能数据交易 传统数据交易方式,交易的是数据所有权,交易完成后,数据被无限制的复制。采用可信交易方式,交易的不是数据,而是数据的使用权,卖家
TICS可信计算节点 企业版 包年/包月 在使用TICS过程中,使用其他云服务的费用(如弹性公网IP/带宽、对象存储服务 OBS等),需按照相应云服务的计费规则进行计费,TICS空间包不包含此类费用。 计费模式 TICS可信计算节点支持包年/包月计费模式。您可以根据实际使用情况,选择合适的TICS可
可信联邦学习作业是可信智能计算服务提供的在保障用户数据安全的前提下,利用多方数据实现的联合建模。 安全可信。 多种训练场景。 方便与已有服务对接。 使用场景 横向联邦机器学习 横向联邦机器学习,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况,联合多个参与者的具有相同特征的多行样本进行可信联邦学习,联合建模。