检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
管理所有业务指标,包括指标的来源、定义等,使用目录维护业务指标。 注意,数据质量模块的指标与数据架构模块的业务指标、技术指标当前是相互独立的,不支持交互。 前提条件 已在DataArts Studio控制台的“实例 > 进入控制台 > 空间管理 > 数据质量 > 业务指标监控 > 指标
自然周期调度之上一周期依赖原理 自然周期调度的概念 自然周期调度作业的调度周期包括分钟、小时、天、周、月这五种周期,不同调度周期的作业,其允许配置的依赖作业调度周期总结如图1所示。 图1 上一周期作业依赖关系全景图 即作业A的调度依赖于作业B的上一调度周期,包含以下场景: 分钟依赖分钟
检查目的端负载是否已达到目的端数据源上限。优先查看目的端数据源的监控指标,查看CPU、内存、IO等参数是否处于高负载状态。 在排除目的端负载的情况下,加大作业并发,以提高写入速度。 如果第2步也无法有效提升性能,请根据源端抽取慢排查源端的性能因素。 如果排除了源端问题的情况下,请参考对应链路性能调优文档尝试进行参数优化。
定已上传的驱动文件。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建集群的时候,输入的用户名。 密码 是 数据库的访问密码,创建集群的时候,输入的密码。 数据集成配置 数据库名称 是 配置为要连接的数据库名称。 单次请求行数 否 可选参数,指定每次请求获取的行数,根据
适用组件勾选数据集成后,呈现此参数。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 连接属性 否 适用组件勾选数据集成后,呈现此参数。 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。
需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 IP或域名 是 待连接的数据库的访问地址,可填写为IP或域名,其中公网IP和内网IP地址均支持。 端口 是 待连接的数据库端口。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。
驱动文件请根据驱动类型去相关官网上下载,并在选择弹窗中上传驱动,或在该弹窗中指定已上传的驱动文件。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建集群的时候,输入的用户名。 密码 是 数据库的访问密码,创建集群的时候,输入的密码。 父主题: 配置DataArts Studio数据连接参数
单击“下一步”,配置调度信息,如下图所示。 单击“提交”,完成质量作业的创建。 在质量作业表中,单击操作列的“运行”,跳转到运维管理模块。 待质量作业运行成功后,单击左侧导航菜单的“质量报告” 默认展示技术报告,如下图所示。 图1 技术报告 单击“业务报告”页签,查看业务报告,如下图所示。 图2
完成度的重要工具。该章节以“坪效”为例对数据指标的功能进行详细地讲解。 坪效是目前通用的衡量商场经营效益的指标,其概念指的是每坪的经营面积可以产出多少营业额。 图1 业务场景示例 在本示例中,我们最终输出的是客户需求的报表中过去一年全国所有有效经营面积的平均坪效值。我们的数据源提
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
如果在配置作业依赖关系时勾选“最近”依赖的按钮,小时作业只依赖所选作业最近的一个运行实例,比如A在3:00开始调度,A依赖B最近的2:45调度的一个运行实例。 如果作业A在零点进行调度,所依赖作业B可以是昨天的分钟任务。 小时依赖小时 规则:每个自然小时周期内的实例产生依赖,区间边界是自然小时[00:00
择“数据地图”或对应工作空间的“数据目录”,进入数据地图或数据目录页面。 图1 选择数据地图或数据目录 按下F12,打开开发者调试工具,然后选择Network功能。 图2 选择Network 在数据地图的“首页”界面或“数据搜索”界面,或者在数据目录的“总览”界面或“数据目录”界
当采集任务成功后,在左侧导航栏单击“数据目录”,选择“技术资产”页签,然后设置筛选条件,例如选中连接“mrs_hive_link”,以及选中“Table”,将显示符合条件的所有的表。 图7 技术资产 单击所需要的元数据名称,即可查看详情信息。 图8 元数据详情 父主题: 企业版:基于MRS Hive的出租车出行数据治理流程
指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。 业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。
删除通用配置 (指已发布状态的逻辑实体或表,对其在编辑并保存后产生的草稿的删除操作) Y Y N N 操作通用配置 (指逻辑实体或表的导入、导出、发布、下线、同步、逆向等操作) Y Y Y N 查询通用配置 (指已发布状态的逻辑实体或表,对其在编辑并保存后产生的草稿的查询操作) Y Y Y
同步链路进行数据同步。详情请参见支持的数据源。 复杂网络环境下的数据同步 支持云数据库、本地IDC、ECS自建数据库等多种环境下的数据同步。在配置同步任务前,您可以根据数据库所在网络环境,选择合适的同步解决方案来确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对
企业数字化转型面临的挑战 企业在进行数据管理时,通常会遇到下列挑战。 数据治理的挑战 缺乏企业数据体系标准和数据规范定义的方法论,数据语言不统一。 缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到。 缺乏技术元数据与业务元数据的关联,数据读不懂。 缺乏数据的质量管控和评估手段,数据不可信。
数/天超过配额。 包年包月 技术资产数量增量包 技术资产数量增量包用于扩充技术资产数量配额。 不同版本的DataArts Studio实例,默认提供了不同的技术资产数量规格限制。该规格是以数据目录中表和OBS文件的数量之和计算的。您可以在新版本模式的DataArts Studio实例卡片上通过“更多
置数据目录中元数据的更新方式。 需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据 勾选“更新数