检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据价值。 数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。 数据处理工具,则分为两大类: 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。
缺乏面向普通业务人员的高效、准确的数据搜索工具,数据找不到。 缺乏技术元数据与业务元数据的关联,数据读不懂。 缺乏数据的质量管控和评估手段,数据不可信。 数据运营的挑战 数据运营效率低,业务环境的快速变化带来大量多样化的数据分析报表需求,因为缺乏高效的数据运营工具平台,数据开发周期长、效率低,不能满足业务运营决策人员的诉求。
当前,数据架构有完善的指标设计和管理能力,建议您后续使用数据架构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调度运行业务场景。通过业务场景的运行结果,
数据质量监控简介 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行、跨源和跨表的分析。数据质量支持对离线数据的监控,当离线数据发生变化时,数
数据API调用;当使用其他认证方式时,可以通过API调用工具或浏览器调用。 APP认证:将APP认证方式的API授权给应用后,使用应用的密钥对(AppKey和AppSecret)进行安全认证,支持通过SDK或API调用工具调用,安全级别高,推荐使用。 IAM认证:将IAM认证方式
度量评估: 表1 度量评估 度量评估工具 度量评估对象 度量评估方法 度量评估频次 数据治理成熟度评估 企业整体 调查问卷 年度 数据治理评分卡 各业务及IT部门 数据治理工作组与各业务及IT部门共同打分 季度 两个层面的数据治理度量评估工具 通过年度的整体数据治理成熟度评估,了
了资源队列时,此处配置的资源队列为最高优先级。 SQL脚本 是 仅“脚本类型”配置为“在线脚本”时可以配置。 选择已创建的Spark Python脚本。 脚本参数 否 仅“脚本类型”配置为“在线脚本”时可以配置。 关联的Spark Python脚本中如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。
Translation)或端口转发,以代理的方式访问。 这里重点介绍如何通过端口转发工具来实现访问内部数据,流程如下: 找一台windows机器作为网关,该机器必须可以直接访问Internet,同时可以访问内网。 在该机器上安装端口映射工具(IPOP)。 通过端口映射工具(IPOP)配置端口映射。 长时间将内网数据库
比较多的场景。 列模式:表的数据将以列式存储,适用于统计分析类查询(group、join多的场景),或者即席查询(查询条件不确定,行模式表扫描难以使用索引)的场景。 行模式 导入模式 导入数据到DWS时,用户可以指定导入模式: COPY模式,源数据经过管理节点后,复制到DWS的DataNode节点。
Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 数据管理 脚本开发 脚本开发功能提供如下能力: 提供在线脚本编辑器,支持多人协作进行SQL、Shell等脚本在线代码开发和调测。 支持使用变量和函数。 支持脚本的版本管理能力。 脚本开发 作业开发 作业开发功能提供如下能力:
所选数据连接类型中已创建数据连接,支持从下拉列表中选择。 若未创建请参考创建DataArts Studio数据连接新建连接。 *数据库 呈现待扫描的数据库。单击数据库后的“设置”,设置待扫描的数据库范围。单击“清除”,可对已选择的数据库进行修改。 *数据表 对于DLI和DWS类型的敏感数据发现任务,您需要
面进行选择,这里不再赘述。配置完成后单击“确定”。 已被绑定脱敏算法的分类规则不支持被重复绑定。 图1 新建脱敏 适配脱敏算法后,支持用户在线进行测试。输入测试数据,单击“测试”,在测试结果文本框中进行验证。 开启或关闭状态,只有启用状态下的脱敏策略才可生效。 查看数据脱敏效果 在DataArts
Secret)进行安全认证,支持通过SDK或API调用工具调用,安全级别高,推荐使用。 IAM认证:将IAM认证方式的API授权给当前账号或其他账号后,借助从IAM服务获取的用户Token进行安全认证。支持通过API调用工具调用,安全级别中等。 无认证:不需要认证,所有用户均可访
CDM的作业数据量太多,会造成数据库压力,建议定时清理不需要的作业。 短时间内下发大量作业,可能会导致集群资源耗尽异常等,您调用API时需要注意。 CDM是批量离线迁移工具,不建议客户创建大量小作业场景。 其他组件API更详细的限制请参见具体API的说明。 父主题: 使用前必读
息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 MapReduce服务(MRS
于一次全量写入场景。 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严格的场景,以及对资源消耗较小,对MOR表存储类型在线进行压缩的场景。 说明: 运行-失败重试期间不允许修改此模式。 是 批次数据大小 “全量模式写Hoodie”设置为“否”时,使用微批模式呈现此参数。
Secret)进行安全认证,支持通过SDK或API调用工具调用,安全级别高,推荐使用。 IAM认证:将IAM认证方式的API授权给当前账号或其他账号后,借助从IAM服务获取的用户Token进行安全认证。支持通过API调用工具调用,安全级别中等。 无认证:不需要认证,所有用户均可访
值,培育数据要素市场。 DSMM标准以组织的数据为中心,围绕数据的采集、传输、存储、处理、交换、销毁全生命周期,从组织建设、制度流程、技术工具、人员能力4个能力维度,按照1-5级成熟度,评价组织的数据安全能力。 图1 数据安全能力成熟度模型 父主题: 数据安全能力成熟度模型DSMM
作,形成数据质量精细化管控文化。根据数据治理领导组的愿景和长期目标,建立和管理数据治理流程、阶段目标和计划,设计和维护数据治理方法、总则、工具和平台,协助各数据领域工作组实施数据治理工作,对整体数据治理工作进行度量和汇报,并对跨领域的数据治理问题和争议进行解决和决策。 各领域数据
管理控制台,进入“集群管理”,在集群列表中找到所需要的集群。 按下F12,打开开发者调试工具,然后选择Network功能。 图1 选择Network 在DWS控制台中,单击待查看的DWS集群名称,进入集群“基本信息”页面。然后在开发者调试工具的Network请求中,寻找Name形如“clusters?ty