数据治理中心 DATAARTS STUDIO-管理静态脱敏任务:约束与限制

时间:2024-09-09 17:46:43

约束与限制

  • 静态脱敏时,请根据待脱敏数据的字段类型正确选择脱敏算法,否则可能会导致数据库数据异常。例如对date字段使用数值随机算法脱敏,会导致data类型将被强制脱敏为数值类型(Hive和 DLI 脱敏),或者写入失败报错(DWS脱敏);对数值字段使用哈希算法脱敏,会导致数值类型被强制脱敏为哈希值字符串(Hive和DLI脱敏),或者写入失败报错(DWS脱敏)。
  • 运行需要解析样本文件的静态脱敏任务时,样本文件大小建议不超过10MB,否则静态脱敏任务可能会失败。另外,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于 MRS 引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍
  • 运行使用自定义哈希类型脱敏算法的静态脱敏任务时,如果使用了dws-SM3密码杂凑算法,则必须选择DWS引擎运行,要求DWS集群版本不低于8.1.3;如果使用了通用-SM3密码杂凑算法,则必须选择DLI或MRS引擎运行。
  • DLI引擎的静态脱敏任务,运行参数需要存储在OBS桶中,任务运行完成或失败后会删除任务运行参数文件。
    • DLI引擎的同源静态脱敏任务,运行参数存储在工作空间日志桶中,默认以dlf-log-{Project id}命名。
    • DLI引擎的跨源静态脱敏任务,运行参数存储在自动创建的加密用户桶dls-dli-{projectId}中。
    因此DLI引擎静态脱敏前,还需要为dlg_agency委托授予如下OBS权限策略,授权方法可参考授权dlg_agency委托章节。
    obs:bucket:HeadBucket
    obs:bucket:CreateBucket
    obs:object:PutObject
    obs:object:DeleteObject
    obs:bucket:ListBucket
    obs:object:GetObject
    obs:bucket:GetEncryptionConfiguration
    obs:bucket:PutEncryptionConfiguration
  • DLI引擎的静态脱敏任务,当源端或目的端为DWS时,请参考配置DLI队列与内网数据源的网络联通配置DLI队列与公网网络联通打通DLI Spark通用队列与DWS的网络连接,否则会导致静态脱敏任务失败。
  • 源端或目的端为DLI的静态脱敏任务,不支持对DLI中default数据库的数据表进行脱敏。
  • MapReduce服务 (MRS Hive)所在的MRS集群必须开启Kerberos认证,且必须安装Spark组件。
  • MRS引擎的静态脱敏任务,当源端或目的端为DWS时,请参考参考:授权并绑定委托为MRS集群配置委托,并确保MRS集群安全组出方向规则满足如下要求,否则会导致静态脱敏任务失败。
    • 协议:TCP
    • 端口范围:80
    • 远端地址:169.254.0.0/16
  • MRS引擎的静态脱敏任务,当源端或目的端仅一端为DWS时,支持的数据类型如下。如果有其他不支持的数据类型,将导致静态脱敏任务失败。
    • tinyint
    • smallint
    • int
    • bigint
    • decimal
    • double
    • float
    • boolean
    • string
    • timestamp
  • DWS引擎的同源静态脱敏任务,不支持跨数据库脱敏,即DWS源端和目的端数据表所在的数据库必须相同。
  • 静态脱敏任务的数据集范围选择为增量时,需选择时间字段类型Timestamp、Date字段类型来确定增量范围。
support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_1020.html