检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面,如图3所示。 图3 选择连接器类型 连接器类型选择“数据仓库服务(DWS)”后单击“下一步”配置DWS连接参数,必填参数如表2所示,可选参数保持默认即可。 表2 DWS连接参数 参数名 说明 取值样例
值得注意的是,行级访问控制策略为DataArts Studio实例级别配置,各工作空间之间数据互通,全局可见并生效。 前提条件 新建DWS行级访问控制策略前,已在管理中心创建数据仓库服务(DWS)类型的数据连接,请参考创建DataArts Studio数据连接。DWS数据连接中的账户要具备待控制表的GRANT权限(数
集群增量包创建集群后使用。 说明: 数据服务共享版当前仅限于华东-上海一、华北-北京四、华南-广州的存量用户调测使用,受限于服务稳定性和生命周期策略,不建议用于生产环境。 DataArts Studio实例中默认不包含数据服务专享集群,如果您需要使用数据服务专享版,请创建数据服务专享集群增量包。
database_name String 数据库名称。 schema_name String schema名称。 life_cycle Integer 表的生命周期。 description String 表的描述。 user_id String 用户id,可在IAM侧用户信息中查询。 user_name
角色进行权限管控)。 本章主要描述如何通过创建空间权限集和配置空间权限集定义工作空间权限范围。 前提条件 配置权限集前,已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)和MapReduce服务(MRS Ranger)类型的数据连接,请参考创建DataArts
写Hadoop文件需要访问集群的所有节点,需要为每个节点都放通网络访问。 推荐使用云专线服务,解决网络访问的同时,还可以提升迁移速度。 数据仓库服务(DWS)数据源约束 DWS主键或表只有一个字段时,要求字段类型必须是如下常用的字符串、数值、日期类型。从其他数据库迁移到DWS时,
已完成用户同步,将IAM上的用户信息同步到数据源上,详见同步IAM用户到数据源。 新建DWS脱敏策略前,已完成如下操作: 已在管理中心创建数据仓库服务(DWS)类型的数据连接,请参考创建DataArts Studio数据连接。 已完成用户同步,将IAM上的用户信息同步到数据源上,详见同步IAM用户到数据源。
SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datatime)。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
对字段批量映射两种方式来调整字段映射关系。 创建表达式转换器时,表达式的功能是对该字段的数据进行处理,故不建议使用时间宏。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
DM会将字段值直接写入目的端。 如果字段映射关系不正确,您可以通过拖拽字段、单击对字段批量映射两种方式来调整字段映射关系。 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
使用''包围表达式 方式二:源字段中新增自定义字段,在样值中填写时间宏变量,重新进行字段映射处理。 图3 源字段新增自定义字段 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
使用''包围表达式 方式二:源字段中新增自定义字段,在样值中填写时间宏变量,重新进行字段映射处理。 图3 源字段新增自定义字段 如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。
使用文本编辑工具(例如记事本等)新建一个txt文档,将后文提供的样例数据复制进文档中。注意复制后检查数据的行数及数据分行的正确性(注意,如果是从PDF文档中复制样例数据,单行的数据过长时会产生换行,需手动重新调整为单行)。 单击“文件 > 另存为”,在弹出的对话框中,“保存类型”选择为“所有文件(*
使用文本编辑工具(例如记事本等)新建一个txt文档,将后文提供的样例数据复制进文档中。注意复制后检查数据的行数及数据分行的正确性(注意,如果是从PDF文档中复制样例数据,单行的数据过长时会产生换行,需手动重新调整为单行)。 单击“文件 > 另存为”,在弹出的对话框中,“保存类型”选择为“所有文件(*
使用文本编辑工具(例如记事本等)新建一个txt文档,将后文提供的样例数据复制进文档中。注意复制后检查数据的行数及数据分行的正确性(注意,如果是从PDF文档中复制样例数据,单行的数据过长时会产生换行,需手动重新调整为单行)。 单击“文件 > 另存为”,在弹出的对话框中,“保存类型”选择为“所有文件(*
DCMM标准模型与等级 评估内容与等级 DCMM标准分析提炼出了组织数据管理的八大能力域,分别为数据战略,数据治理,数据架构,数据标准,数据质量,数据安全,数据应用,以及数据生存周期;并对每项能力域进行了二级能力项(28个过程项)和发展等级的划分(5个等级)以及相关功能介绍和评定指标(445项指标)的制定。
步骤7:数据质量监控 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。 在DataArts Studio数据质量模块中,可以对业务指标和数据质量进行监控。
业务指标监控简介 当前,数据架构有完善的指标设计和管理能力,建议您后续使用数据架构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调
步骤1:流程设计 本入门指南以某市出租车出行数据为例,统计某出租车供应商2017年度的运营数据。基于需求分析和业务调研,数据治理业务流程设计如图1所示,后续的数据治理操作均基于本业务流程完成。 图1 流程设计 需求分析 通过需求分析,可以提炼出数据治理流程的实现框架,支撑具体数据治理实施流程的设计。
开发实时处理单任务MRS Flink SQL作业 对已新建的作业进行开发和配置。 开发单任务模式的实时处理Flink SQL作业,请您参考开发SQL脚本、配置作业参数、保存作业和模板章节。 前提条件 已新建作业。 当前用户已锁定该作业,否则需要通过“抢锁”锁定作业后才能继续开发作