检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
原因分析 这种情况是由于表数据量较大,并且源端通过where语句过滤,但并非索引列,或列值不离散,查询会全表扫描,导致JDBC连接超时。 图1 非索引列 解决方案 优先联系DBA修改表结构,将需要过滤的列配置为索引列,然后重试。
离线处理:对已收集的大量数据进行批量处理和分析,这些任务通常是在计算资源和存储资源方面经过优化,以确保高效的数据处理和分析。这些任务通常是定时(例如每天、每周)执行,主要处理大量历史数据,用于批量分析和数据仓库。
查看工作空间内的数据资产 数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析。 搜索:在进行数据分析前,使用数据地图进行关键词搜索,帮助快速缩小范围,找到对应的数据。 详情:使用数据地图根据表名直接查看表详情
原因分析 DWS数据库为oracle兼容模式时,会将空字符串视为NULL做处理,因此在有数据的场景下,不能添加默认值为空串的非空列。 解决方案 1. 修改源端DDL语句,新增列的默认值设置为非空字符串。 2.
图1 没有权限访问 图2 不允许创建连接 原因分析 以上所列的问题均属于权限配置问题。
用户行为分析(邀测) 用户行为分析,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 资产搜索(邀测) 资产搜索,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 创建或修改资产(邀测) 创建或修改资产,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。
敏感数据治理 敏感数据识别通过用户创建或内置的数据识别规则和规则组自动发现敏感数据并进行数据分级分类标注。
新建维度 维度建模包含维度、维度表和事实表三个部分。 维度是用于观察和分析业务数据的视角,支撑对数据汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。维度多数具有层级结构,如:地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年度、季度、月度等级别的内容
新建衍生指标 衍生指标是原子指标通过添加限定、维度卷积而成,限定、维度均来源于原子指标中的属性。发布衍生指标时,会自动生成一张汇总表,可在“汇总表-自动汇聚”下查看。 衍生指标=原子指标+统计维度+时间限定+通用限定。 原子指标:明确统计口径,即计算逻辑。 统计维度:用于观察和分析业务数据的视角
衍生指标 衍生指标是原子指标通过添加时间周期、维度卷积而成,时间周期和维度均来源于原子指标中的属性。 衍生指标=原子指标+统计维度+时间周期。 原子指标:明确统计口径,即计算逻辑。 统计维度:用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,用于SQL中的GROUP
步骤2:数据开发处理 本步骤通过BI报表原始数据,分析10大用户关注最多的产品和10大用户评价最差的商品,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 分析10大用户关注最多的产品 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,
贯标与评估流程 贯标流程 DCMM贯标流程主要分为三个阶段: 差距分析:贯标启动,进行差距分析。 能力提升:建立数据管理组织,完善制度,内部运行并开展自评估。 评估确认:组建评估队伍,开展第三方评估,获取评估报告和能力证书。 图1 DCMM贯标流程 评估流程 DCMM评估流程分为如下步骤
DataArts Studio使用流程 数据治理中心DataArts Studio是具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛
作业开发流程 作业开发功能提供如下能力: 提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。 预设数据集成、计算&分析、资源管理、数据监控、其他等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持多种作业调度方式。 支持导入和导出作业。 支持作业状态运维监控和作业结果通知
分类是自上而下的,通过对事物进行分析,按照一定的标准,划分出不同的类别。
步骤3:数据开发处理 本步骤通过电影信息和评分信息的原始数据,分析评分最高的Top10电影和最活跃的Top10电影,然后通过作业定期调度执行并将结果每日导出到表中,以支撑信息分析。 创建DWS SQL脚本top_rating_movie(用于存放评分最高的Top10电影) 评分最高
管理脱敏策略 在实际生产中,会存在数据分析部门需要对数据进行数据分析,数据中存在敏感信息,但又不得不开放权限。此时就可以建立脱敏策略并对敏感数据进行脱敏,在满足业务需要的同时保证了数据的真实性不被泄露。 本章主要介绍如何创建脱敏策略。此处的脱敏策略仅适用于静态脱敏任务。 前提条件
主数据管理首先进行企业主数据的识别,然后对已识别主数据按照主数据规范要求进行数据治理和IT改造,以支撑企业业务流和工具链的打通和串联。
图1 数据血缘关系示例 DataArts Studio数据血缘实现方案 数据血缘的产生: DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。
已创建识别规则,请参考定义识别规则(部分高级特性)。 已配置内置脱敏算法或者已自定义脱敏算法,请参考管理脱敏算法。