数据治理中心 DATAARTS STUDIO-管理脱敏算法:新建脱敏算法
新建脱敏算法
如果内置算法不满足您的需求,您可以新建自定义脱敏算法,自定义脱敏算法支持掩码、截断、哈希、加密、置空、随机脱敏、字符替换、键值脱敏、数值区间变换、模糊脱敏等10余类算法类型。
- 在 DataArts Studio 控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
- 在数据安全控制台左侧的导航树中单击 ,进入脱敏算法页面。
- 单击“新建”,新建脱敏算法。
图1 新建脱敏算法
- 新建脱敏算法参数配置请参考表2,参数配置完成单击“确定”即可。
图2 算法配置
脱敏算法参数说明表:表2 配置脱敏算法参数说明 配置
说明
*算法名称
用户自定义算法名称,长度不能超过64个字符。
描述
对当前算法进行简单描述,长度不能超过255个字符。
*脱敏算法
自定义脱敏算法支持掩码、截断、哈希、加密、置空、随机脱敏、字符替换、键值脱敏、数值区间变换、模糊脱敏等10余类算法类型,您可以根据脱敏需求自行选择。
- 掩码:支持字符型、数值型、日期型掩码,将指定位置的原始数据脱敏为固定值。
- 截断:支持日期类型和数值类型截断,将日期截断到月日小时分秒,将数值截断取整。
- 哈希:支持所有类型,使用所选的算法计算HASH值。
相较于内置算法,自定义算法新增了dws-SM3密码杂凑算法和通用-SM3密码杂凑算法。其中dws-SM3密码杂凑算法是DWS引擎专有算法,结果为16进制字符串,其字母为小写,要求DWS集群版本不低于8.1.3;通用-SM3密码杂凑算法为 DLI 或 MRS 引擎通用算法,结果为16进制字符串,其字母为大写。
- 加密:支持所有类型,使用所选的数据源加密算法为对应数据源的数据进行加密。
- 置空:支持所有类型,将值设置为null。
- 随机脱敏:支持日期类型和数值类型随机脱敏,将日期或数值脱敏为指定区间范围之内或样本库中的值。新建样本库的请参考管理样本库章节。注意,选择样本库脱敏时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。
- 字符替换:支持数值类型和字符类型字符替换,将指定位置的字符替换为固定值或者样本库中样本文件的值;自定义替换位置时支持使用随机数值或随机小写英文字母替换,并支持身份证号末位计算(计算身份证末位时,位数只能选择1,且前面位数需要大于等于17)。
新建样本库的请参考管理样本库章节。注意,选择样本库替换时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。
- 键值脱敏:支持数值类型键值脱敏,根据自定义表达式,将数值脱敏为计算后的数值。填写表达式时,原始数据变量为X,支持对原始数据进行加(+)减(-)乘(*)除(/)、括号(())、取余(%)计算操作。例如表达式为“((X*4+3)%100)/2-1”时,数值3的脱敏结果为6.5。
- 数值区间变换:支持数值类型区间变换,将指定区间之内的数字变换为指定值。
- 模糊脱敏:支持数值类型模糊脱敏,支持在百分比或绝对值模糊的区间范围内随机取值。例如百分比模糊模式,百分比分别为-10%和20%时,数值10的模糊脱敏结果为[9,12]区间范围内随机取值。
随机脱敏支持配置“随机算法保持原数据关联性”参数,开启后不同数据库中的相同数据,经过相同的规则脱敏后,脱敏结果是一致的。注意此参数开启后会存在被破解的安全风险,如确需开启,建议配置随机盐值,用于抵抗字典攻击。
开始测试
输入待测试的数据后,单击“测试”,可在测试结果处查看脱敏结果。
说明:新建随机脱敏或字符替换类型的脱敏算法时,如果选择将敏感数据脱敏为样本库脱敏,则测试算法时限制样本文件大小不能超过10kb。
测试结果