检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除操作无法撤销,请谨慎操作。 编辑样本:在样本库管理页面,单击对应样本操作栏中的“编辑”,即可修改样本的各项参数。 删除样本:在样本库管理页面,单击对应样本操作栏中的“删除”,即可删除样本。 注意,被脱敏算法引用的样本不能被删除。若要删除已引用的样本,需要先修改引用关系,再进行删除操作。
随机脱敏:支持日期类型和数值类型随机脱敏,将日期或数值脱敏为指定区间范围之内或样本库中的值。新建样本库的请参考管理样本库章节。注意,选择样本库脱敏时,OBS样本文件只能用于DLI引擎的静态脱敏任务,HDFS样本文件只能用于MRS引擎的静态脱敏任务。静态脱敏场景与引擎之间的对应关系请参考参考:静态脱敏场景介绍。
有完善的数据管理团队和体系,拥有10~30名全职数据开发人员,中大型企业规模。 企业版 大型企业,多分支机构企业。 版本规格说明(新版本模式) DataArts Studio新版本模式下包含免费版、初级版、专家版和企业版,各版本支持的组件组件功能和规格不同,如表2和表3所示。 表2 DataArts
SQL脚本和开发作业。 分析10大用户关注最多的产品 分析10大用户评价最差的商品 开发并调度作业,通过编排作业和配置作业调度策略,定期执行作业,使得用户可以每天获取到最新的数据分析结果。 服务退订,如果不再使用DataArts Studio相关服务,请及时进行退订和资源删除。 父主题:
静态脱敏任务 管理脱敏算法 管理样本库 管理脱敏策略 管理静态脱敏任务 父主题: 敏感数据保护
本实践通过DataArts Studio服务的数据集成CDM组件、数据开发DLF组件和数据仓库服务(DWS)对电影评分原始数据进行分析,输出评分最高和最活跃Top10电影。您可以学习到数据集成模块的数据迁移和数据开发模块的脚本开发、作业开发、作业调度等功能,以及DWS SQL基本语法。 本入门示例涉及DataArts
血缘的输入和输出表。输入和输出表的所属数据源支持DLI、DWS、Hive、CSS、OBS和CUSTOM。CUSTOM即自定义类型,在手动配置血缘时,对于不支持的数据源,您可以添加为自定义类型。 图1 手动配置血缘关系示例 例如,当需要配置数据开发Pipeline作业中MRS Spark节点的血缘关系时,由于MRS
度表的名称和编码均与维度相同。在“维度建模”页面,选择“维度表”页签,可以查看建好的维度表。 在维度表列表中,在“同步状态”一列中可以查看维度表的同步状态。 图5 维度表的同步状态 如果同步状态均显示成功,则说明维度发布成功,维度表在数据库中创建成功。 如果同步状态中存在失败,可
原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。 原子指标中仅含有唯一度量以及与该度量相关的属性,旨在用于支撑指标的敏捷自助消费。 背景信息 原子指标来源于事实表和维度表: 原子指标是为了
系统默认“不选择任务组”。 任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。 举例1:任务组里面最大并发数配置为2,作业节点有5个,当作业运行时,只有两个节点在运行中,其它节点在等待运行。 举例2:任务组里面最大并发数配置为2
字符。 默认情况下,节点名称会与选择的通道名称保持同步。若不需要节点名称和通道名称同步,请参考禁用作业节点名称同步变化禁用该功能。 通道名称 是 选择或输入待查询的DIS通道,输入通道名称时支持引用作业参数和使用EL表达式(参见表达式概述)。 如需新建DIS通道,请参考以下方法:
在数据开发主界面的左侧导航栏,选择“配置管理 > 资源管理”。单击“新建资源”,在数据开发模块中创建一个资源关联到1的JAR包,资源名称为“spark-example”。 图1 创建资源 提交Spark作业 用户需要在数据开发模块中创建一个作业,通过作业的DLI Spark节点提交Spark作业。 创建
的参数和交互式参数。 表2 Python脚本参数 参数 说明 参数 填写执行Python脚本时,向脚本传递的参数,参数之间使用空格分隔,例如:a b c。此处的“参数”需要在Python脚本中引用,否则配置无效。 交互式参数 填写交互式参数,即执行Python脚本的过程中,需要用
将被强制脱敏为数值类型(Hive和DLI脱敏),或者写入失败报错(DWS脱敏);对数值字段使用哈希算法脱敏,会导致数值类型被强制脱敏为哈希值字符串(Hive和DLI脱敏),或者写入失败报错(DWS脱敏)。 运行需要解析样本文件的静态脱敏任务时,样本文件大小建议不超过10MB,否则
查看表 对于关系建模中的表,您可以查看模型视图、表详情、关系图、预览SQL以及发布历史。 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 在DataArts Studio
主题设计是通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。 您可以通过以下两种方式进行主题设计: 新建主题并发布 手动新建并发布主题。 导入主题设计信息 如果主题信息比较复杂,建议采用导入方式批量导入主题信息。 您可以下载系统提供的主题设计模板,在模板文件中填写主题的相关参数后,使用模板批量导入主题信息。
DLI、DWS、GBASE、HETUENGINE 通过输入字段长度范围,校验表中字段是否在允许范围内。 字段值范围校验 通过输入字段值范围,校验表中字段值是否在允许范围内。 字段时间校验 通过输入字段时间范围,校验表中字段时间是否在允许范围内。 注意,当前仅支持DATE和TIMESTAMP类型的字段,不支持TIME格式。
与数据治理等活动。 数据集成 数据集成提供20+简单易用的迁移能力和多种数据源到数据湖的集成能力,全向导式配置和管理,支持单表、整库、增量、周期性数据集成。 数据架构 作为数据治理的一个核心模块,承担数据治理过程中的数据加工并业务化的功能,提供智能数据规划、自定义主题数据模型、统
删除脚本 当您不需要使用某个脚本时,可以参考如下操作删除该脚本。 删除脚本时会检查脚本被哪个作业引用,引用列表中显示“版本”,表示此脚本被哪些作业版本引用。单击删除时,会删除对应的作业和这个作业的所有版本信息。 如果某一个待删除的脚本正在被作业关联,请确保强制删除脚本后,不影响业务使用。
数据库是“按照数据结构来组织、存储和管理数据的仓库”。 广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。 现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形