检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征: 归属性:一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,
与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征: 归属性:一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。 多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。 可追溯性:数据的血缘关系,
系技术支持。 自动建表成功以后,单击确定作业即保存成功。 运行任务。 作业配置完毕后,单击作业开发页面左上角“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步参数,单击“确定”启动作业。 图8 启动配置 表4 启动配置参数 链路 参数 说明 Apache Kafka - MRS
Hbase自动建表包含列族与协处理器Coprocessor信息。其他属性按默认值设置,不跟随源端。 不自动创建 Row key拼接分隔符 可选参数,用于多列合并作为rowkey,默认为空格。 , Rowkey冗余 可选参数,是否将选做Rowkey的数据同时写入HBase的列,默认值“否”。 否
表中选择一个物理模型,或者从“数仓规划”中选择一个物理模型,单击物理模型进入。 在物理表的列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表6 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下
与企业模式是否开启有关。本文以未开启企业模式为例进行说明。 图17 新建自定义角色 在角色管理页面,单击“新建”,弹出“创建自定义角色”对话框。 角色名称:标识自定义角色的唯一标识,此处填写为“Developer_DQC”。 角色描述:补充对该角色的相关说明,此处填写为“基于开发者角色,仅保留数据质量权限”。
4xlarge 64核/128G 40/36 Gbit/s 64 - 其他场景中,可根据情况选择多个CDM集群同时迁移,加快迁移效率。MRS HDFS多副本策略会占用网络带宽,影响迁移速率。 华为云CDM创建连接 创建2个CDM集群: DataArts Studio实例中已经包含一个CDM集
写为“single”类型,不支持自定义。 生成元数据功能本身,支持一次生成多对点表和边表的元数据xml文件。但考虑到Import GES节点的“边数据集”和“点数据集”参数,分别只能选择一张表,建议您在有多对点表和边表的情况下,分拆多个Import GES节点分别导入,以确保导入
的作业节点。 如果您需要匹配多条消息记录,可以添加多个Dummy节点并分别添加到Subjob节点的IF条件,然后将数据开发组件配置项中的“多IF策略”设置为“逻辑或”即可。 图4 编辑参数表达式 测试运行作业job_agent,在工作空间A的作业job1未运行的情况下,前往实例监控中查看执行结果是否符合预期。
自动血缘解析 自动血缘解析无需进行手动配置,当数据开发作业中包含如表1所示节点及场景时,系统支持自动解析血缘关系。 解析SQL节点的血缘时,支持多SQL解析及列级血缘解析,单条SQL语句不支持SQL中含有分号的场景。 表1 支持自动血缘解析的作业节点及场景 作业节点 支持场景 DLI SQL
自动血缘解析 自动血缘解析无需进行手动配置,当数据开发作业中包含如表1所示节点及场景时,系统支持自动解析血缘关系。 解析SQL节点的血缘时,支持多SQL解析及列级血缘解析,单条SQL语句不支持SQL中含有分号的场景。 表1 支持自动血缘解析的作业节点及场景 作业节点 支持场景 DLI SQL
C、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id 分片字段是否允许空值 多并发抽取时,若确定分片字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 是 父主题: 配置作业源端参数
IMESTAMP类型,建议该字段带有索引。 id 分片字段含有空值 “按表分区抽取”选择“否”时,显示该参数,是否允许分片字段包含空值。 多并发抽取时,若确定分片字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 是 父主题: 配置作业源端参数
ESTAMP类型,建议该字段带有索引。 id 分片字段是否允许空值 “按表分区抽取”选择“否”时,显示该参数,是否允许分片字段包含空值。 多并发抽取时,若确定分片字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 是 父主题: 配置作业源端参数
ESTAMP类型,建议该字段带有索引。 id 分片字段是否允许空值 “按表分区抽取”选择“否”时,显示该参数,是否允许分片字段包含空值。 多并发抽取时,若确定分片字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 例如:是 是 父主题: 配置作业源端参数
Studio提供企业级的元数据管理,厘清信息资产。数据目录管理可视,支持钻取、溯源等。通过数据地图,实现数据目录的数据血缘和数据全景可视,提供数据智能搜索和运营监控。 已发布区域:全部 数据目录 数据地图 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者
BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id 分片字段是否允许空值 是否允许分片字段包含空值。 多并发抽取时,若确定分片字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 是 父主题: 配置作业源端参数
Studio控制台,单击“资源管理”,进入资源管理页面。 图5 新建网络连接 在“实时网络连接”页签,单击“新建”,在弹出的“新建网络连接”对话框输入对应参数。 配置参数如表1所示: 表1 新建网络连接参数 参数 说明 连接名称 填写待创建的网络连接名称。 只能包含字母、数字和下划线。
运维分析展示 √ √ 支持后端负载均衡 × √ 支持内部API管理 × √ 后端支持对接私有云 × √ 支持对接专线服务 × √ 性能指标 独立物理多租集群 × √ 出、入网带宽独立 × √ 推荐每秒请求次数 200TPS 8000-30000TPS 共享版规格 数据服务共享版无具体的规格
工作空间ID,获取方法请参见实例ID和工作空间ID。 X-Project-Id 否 String 项目ID,获取方法请参见项目ID和账号ID。 多project场景采用AK/SK认证的接口请求,则该字段必选。 Content-Type 否 String 默认值:application/json;charset=UTF-8