检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是数据血缘关系? 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关
默认端口。登录MRS ClickHouse数据源所在集群的Manager页面,选择“集群 > 服务 > ClickHouse > 实例”,配置ClickHouseServer的默认端口,非安全模式MRS集群配置“http_port”参数对应的端口,安全模式MRS集群配置“https_port”参数对应的端口。
参数值支持使用EL表达式。 若关联的Flink SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 UDF Jar 否 当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。
两种资源存储位置。HDFS当前只支持MRS Spark、MRS Flink Job、MRS MapReduce节点。 文件路径 是 当“资源位置”选择OBS时,文件路径选择OBS文件路径。 当“资源位置”选择HDFS时,文件路径选择MRS集群名称。 依赖包 否 当前只支持DLI Spark节点。
Doris。 MRS集群名 是 当选择MRS Doris时有效。 说明: 目前仅支持MRS 3.2.0及以上MRS集群版本。 选择所属的MRS集群。仅支持连接MRS云服务,自建Hadoop集群必须在纳管到MRS云服务后才可以选择。系统会显示所有项目ID和企业项目相同的MRS集群。 说明:
CDM集群作为管理中心数据连接Agent时,单集群无法连接多个MRS安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本
数据目录 该模块提供企业级的元数据管理,厘清信息资产。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控。 查看工作空间数据地图 配置数据访问权限 配置数据安全策略(待下线) 采集数据源的元数据 数据目录典型场景教程
源端为Apache Kafka,目的端为MRS Kafka 该链路目前仅支持分库分表场景。 该链路目前需申请白名单后才能使用。如需使用该链路,请联系客服或技术支持人员。 分库分表场景 源端配置。 Kafka配置。 数据格式:支持的数据格式。 目前支持JSON、CSV、TEXT格式。
数据质量监控 数据质量监控简介 新建数据质量规则 新建数据质量作业 新建数据对账作业 查看作业实例 查看数据质量报告 父主题: 数据质量
Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 在数据开发主界面的左侧导航栏,选择“数据开发 > 作业开发”。 在作业目录中,右键单击目录名称,选择“新建目录”。 在弹出的“新建目录”页面,配置如表1所示的参数。
没有使用WHERE条件进行数据过滤及在字段映射页面添加新字段的需求,选择HDFS方式即可。 HDFS文件方式读取数据时,性能较好,但不支持使用WHERE条件进行数据过滤及在字段映射页面添加新字段。 JDBC方式读取数据时,支持使用WHERE条件进行数据过滤及在字段映射页面添加新字段。
同步。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 运行程序参数 否 为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 说明: 若集群为MRS 1
数据服务API API管理接口 申请管理接口 消息管理接口 授权管理接口 服务目录管理接口 网关管理接口 应用管理接口 总览接口 集群管理接口
本实践通过DataArts Studio服务的数据开发DLF组件和数据湖探索服务(DLI)对某电商商城的用户、商品、评论数据(脱敏后)进行分析,输出用户和商品的各种数据特征,可为营销决策、广告推荐、信用评级、品牌监控、用户行为预测提供高质量的信息。在此期间,您可以学习到数据开发模块脚本编辑、作业编辑
华为数据治理案例 华为数据治理思考 华为数据治理实践 华为数据治理效果
新建脚本和开发SQL脚本先创建和开发脚本。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 MRS资源队列 否 选择已创建好的MRS资源队列。 说明: 需要先在数据安全服务队列权限功能中,配置对应的队列后,才
CSS)目的端参数 配置DLI目的端参数 配置OpenTSDB目的端参数 配置MRS Hudi目的端参数 配置MRS ClickHouse目的端参数 配置MongoDB目的端参数 父主题: 在CDM集群中创建作业
Studio数据开发模块或对应数据湖产品的SQL编辑器上,开发并执行用于创建数据库的SQL脚本,从而创建数据库。 本章节以可视化模式为例,介绍如何在数据开发模块新建数据库。 前提条件 已开通相应的云服务。比如,MRS服务。 已新建数据连接,请参见新建数据连接。 MRS API方式连接不支持通过可视化模式管理
MRS Kafka 功能 MRS Kafka主要是查询Topic未消费的消息数。 参数 用户可参考表1和表2配置MRS Kafka的参数。 表1 属性参数 参数 是否必选 说明 数据连接 是 选择管理中心中已创建的MRS Kafka连接。 Topic名称 是 选择MRS Kafk
本和开发SQL脚本先创建和开发脚本。 数据连接 是 默认选择SQL脚本中设置的数据连接,支持修改。 模式 是 Hetu支持的数据源。用户可以在MRS Manager的Hetu组件中自行添加数据源。 数据库 是 默认选择SQL脚本中设置的数据库,支持修改。 资源队列 否 输入资源队列名称。