检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
敏感数据治理流程 敏感数据定义 敏感数据主要指未经个人或集团授权被他人使用,有可能给个人或集团带来严重损害的数据。 以《GBT 35273-2020 信息安全技术个人信息安全规范》为例,个人敏感数据有: 个人财产信息 (存款、信贷、消费流水) 个人健康生理信息(体检信息、医疗记录)
管理资产标签 标签是用来标识数据的业务含义,是相关性很强的关键字,可以帮助您对资产进行分类和描述,以便于检索。 为方便管理技术资产,可以从业务角度定义标签,并与技术资产关联,比如标识某个表是SDI贴源数据层、DWI数据整合层等。 标签和分类 “标签”是相关性很强的关键字,帮助用户对资产进行分类和描述
华为数据治理思考 华为在发展中也遇到了如下的数据问题: 数据管理责任不清晰,造成数据问题无人决策解决; 数据多源头,造成数据不一致,不可信; 数据大量搬家造成IT重复投资; 数据无定义造成难于理解、难于使用; 各部门发布报告,统计口径不一致,困扰业务决策; 数据形态多样化,数据量迅猛增长
查看日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限。”怎么办? 问题现象 查看数据开发的节点日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限”,如下图所示: 图1 提示信息 原因分析 数据开发的日志存储在OBS桶中
数据血缘方案简介 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系
数据血缘方案简介 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系
数据安全总览页面 数据安全总览页面为您提供了配置数据安全管理员功能和数据安全的空间汇总信息,包括查看敏感表总数、敏感表密级分布饼图、敏感字段密级分布饼图、脱敏和水印任务数量趋势图。 配置安全管理员 安全管理员由具有DAYU Administrator系统角色权限的账号指定,在DataArts
日志提示解析日期格式失败时怎么处理? 问题描述 在使用CDM迁移其他数据源到云搜索服务(Cloud Search Service)的时候,作业执行失败,日志提示“Unparseable date”,如图1所示。 图1 日志提示信息 原因分析 云搜索服务对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息
新建一个对账作业实例 场景说明 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本章分别以DLI和DWS作为数据源,介绍如何通过DataArts Studio中的数据质量模块实现跨源数据对账的基本一致性校验
数据治理模块域 数据治理主要专注于如下模块域: 数据集成 数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准,包括:明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由数据代表在入湖前完成梳理并在数据治理平台上进行资产注册
数据安全概述 数据安全以数据为中心,基于数据动态流动场景,构建全链路数据湖安全的解决方案,全方位保障数据湖安全,以此满足不同角色(如数据开发工程师,数据安全管理员,数据安全审计员和数据安全运营人员)对数据安全和数据治理的诉求。 图1 DataArts Studio数据安全框架 资源主体
Oracle数据源如何开通归档日志、查询权限和日志解析权限? 问题描述 Oracle数据源默认权限无法正常执行实时处理集成作业。 原因分析 Oracle库需要开启归档日志,归档日志建议至少保留三天。 Oracle表没有表查询权限和日志解析权限。 解决方案 开启归档日志。 以sysdba
字段映射界面无法显示所有列怎么处理? 问题描述 在使用CDM从HBase/CloudTable导出数据时,在字段映射界面HBase/CloudTable表的字段偶尔显示不全,无法与目的端字段一一匹配,造成导入到目的端的数据不完整。 原因分析 由于HBase/CloudTable无Schema
共享版与专享版数据服务的对比 共享版与专享版对比 数据服务当前提供共享版与专享版两种服务方式。其中共享版数据服务即开即用但仅限于存量用户调测使用,专享版数据服务需要购买专享版集群增量包并在集群中管理API。 数据服务共享版当前仅限于华东-上海一、华北-北京四、华南-广州的存量用户调测使用
基线运维概述 基线运维功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 当前仅北京四、华南广州和上海一局点给用户开放使用。 基线运维功能支持用户通过配置基线任务,实现对任务运行状态及资源使用情况的监控;通过配置运维基线,保障复杂依赖场景下重要数据在预期时间内正常产出
运维概览 在“运维调度 > 运维概览”页面,用户可以通过图表的形式查看作业实例的统计数据,目前支持查看以下七种统计数据。 运行状态 通过时间和责任人可以筛选出今天的我的或者全部责任人的作业实例调度运行状态概览 通过时间和责任人可以筛选出昨天的我的或者全部责任人的作业实例调度运行状态概览
配置DWS目的端参数 作业中目的连接为DWS连接时,目的端作业参数如表1所示。 表1 目的端为DWS时的作业参数 参数名 说明 取值样例 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 自动创表 只有当源端为关系数据库时
新建原子指标 原子指标是对指标统计逻辑、具体算法的一个抽象。为了从根源上解决定义、研发不一致的问题,指标定义明确设计统计逻辑(即计算逻辑),不需要ETL二次或者重复研发,从而提升了研发效率,也保证了统计结果的一致性。 原子指标:原子指标中的度量和属性来源于多维模型中的维度表和事实表
IF条件判断教程 当您在数据开发模块进行作业开发编排时,想要实现通过设置条件,选择不同的执行路径,可使用IF条件判断。 本教程包含以下三个常见场景举例。 根据前一个节点的执行状态进行IF条件判断 根据前一个节点的输出结果进行IF条件判断 多IF条件下当前节点的执行策略 IF条件的数据来源于
IF条件判断教程 当您在数据开发模块进行作业开发编排时,想要实现通过设置条件,选择不同的执行路径,可使用IF条件判断。 本教程包含以下三个常见场景举例。 根据前一个节点的执行状态进行IF条件判断 根据前一个节点的输出结果进行IF条件判断 多IF条件下当前节点的执行策略 IF条件的数据来源于