检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据治理实施方法论 数据治理实施方法论按照数据治理成熟度评估->评估现状、确定目标、分析差距->计划制定、计划执行->持续监测度量演进的关键实施方法形成数据治理实施闭环流程。 图1 数据治理实施方法论 这也遵循了PDCA(Plan-Do-Check-Action)循环的科学程序,
Studio服务的数据集成CDM组件、数据开发DLF组件和数据仓库服务(DWS)对电影评分原始数据进行分析,输出评分最高和最活跃Top10电影。您可以学习到数据集成模块的数据迁移和数据开发模块的脚本开发、作业开发、作业调度等功能,以及DWS SQL基本语法。 本入门示例涉及DataArts
脱敏后)进行分析,输出用户和商品的各种数据特征,可为营销决策、广告推荐、信用评级、品牌监控、用户行为预测提供高质量的信息。在此期间,您可以学习到数据开发模块脚本编辑、作业编辑、作业调度等功能,以及DLI的SQL基本语法。 本入门示例涉及DataArts Studio服务的管理中心和数据开发模块,DataArts
开发一个DLI Spark作业 在本章节您可以学习到数据开发模块资源管理、作业编辑等功能。 场景说明 用户在使用DLI服务时,大部分时间会使用SQL对数据进行分析处理,有时候处理的逻辑特别复杂,无法通过SQL处理,那么可以通过Spark作业进行分析处理。本章节通过一个例子演示如何
日志管理平台收集并分析所有业务系统和管理平台的日志,并统一日志规范以支持后续的风险分析和审计等工作。 安全及合规评估相关工具平台主要用于综合评估数据安全现状和合规风险。 数据全生命周期安全技术为生命周期中特定环节面临的风险提供管控技术保障。整个数据全生命周期可以通过组合或复用以下多种技术实现数据安全:
务,持续创新。 场景描述 H公司是国内一家收集主要贸易国贸易统计及买家数据的商业机构,拥有大量的贸易统计数据库,其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。 在这之前,H公司采用其自建的大数据集群,并安排专人维护,每年固定购买电信联通双线专用带宽,在机房、电力、专网、
Processing),主要进行基本的、日常的事务处理,例如银行交易等场景。 什么是数据仓库? 随着数据库的大规模应用,使信息行业的数据爆炸式的增长。为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用联机分析处理OLAP(On-Line Analytical Processing
Studio新版控制台首页已经上线,您可以通过单击页面上方banner中的“立即体验”进入。 新版控制台首页,从功能组件入口升级为集任务处理、资源监控和场景学习于一体的一站式数据工作台,全面为您提升生产效率。 图2 旧版控制台首页 图3 新版控制台首页 父主题: 购买并配置DataArts Studio
Studio新版控制台首页已经上线,您可以通过单击页面上方banner中的“立即体验”进入。 新版控制台首页,从功能组件入口升级为集任务处理、资源监控和场景学习于一体的一站式数据工作台,全面为您提升生产效率。 图2 旧版控制台首页 图3 新版控制台首页
链路多样性:部分链路支持全量和增量同步,部分链路支持分库分表。 可维护性:支持作业监控和日志查看,方便运维人员进一步定位。 易用性:长界面更易操作,用户只需配置必要信息,学习成本减低。 基本流程 父主题: 实时处理集成作业开发
管理配置中心:数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您需要根据自己的业务需要进行自定义配置。 数据调研:基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。 主题设计:通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)
根据DataArts Studio各销售版本的调度限额,确定DataArts Studio的版本 数据开发人员的数量是多少? 1个 - 4 数据架构 数据现状,有哪些数据源,多少张表? 本示例的CSV文件仅1个 原始端分析, 了解数据来源与整体概况 业务需求,有哪些业务,有什么需求, 想要获得什么价值?
管理配置中心:数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您需要根据自己的业务需要进行自定义配置。 数据调研:基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。 主题设计:通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
有且只有一个输出处理算子,并位于最下游,直接上游必须为普通API算子,必须配置至少一个结果映射。 API工作流不能有环状结构,不能有孤立算子,最多支持20层深度。 图1 API工作流编排页面 表1 API工作流算子介绍 配置入口 算子 是否必选 介绍 触发器 入口API 必选 入口API算子是AP
支持使用变量。 作业开发 提供图形化设计器,支持拖拽式工作流开发,快速构建数据处理业务流水线。 预设数据集成、SQL、Spark、Shell、机器学习等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持导入和导出作业。 资源管理 支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。
Flink生态,实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理、内存计算、机器学习等,挖掘和探索数据价值。 MapReduce服务(MRS HBase) HBase是一个开源的、面向列(Column-Oriented)、
手工触发周期方式调度的作业任务,生成过去某时间段内的实例。 数据治理 数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。 数据调研 基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。 主题设计 通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
逻辑模型设计注意事项 新建逻辑模型 新建逻辑实体并发布 逻辑模型转换为物理模型 通过逆向数据库导入逻辑实体 逻辑模型设计注意事项 不只针对当前业务现状,还要考虑业务将来的发展计划。 必须有熟知业务的人员参与建模,将实际业务所需内容充分反映在模型中。 必须要考虑设计的逻辑模型在向物理模型转换时具有较高的效率。
当前系统支持“新建目录”和“同步主题为目录”两种方式: 选择“新建目录”时,直接在目录处单击,输入目录名称,即可完成目录新建。直接新建目录的最大深度拓展为7层。 图1 新建目录 选择“同步主题为目录”时,在目录处单击,即可将数据架构处的主题同步到目录中(仅支持同步“已发布”状态的主题)