华为云用户手册

  • 业务指标监控简介 当前,数据架构有完善的指标设计和管理能力,建议您后续使用数据架构的业务指标功能,数据质量的业务指标监控模块即将下线。 业务指标监控模块是对业务指标进行质量管理的工具。 为了进行业务指标监控,您可以先自定义SQL指标,然后通过指标的逻辑表达式定义规则,最后新建并调度运行业务场景。通过业务场景的运行结果,您可以判断业务指标是否满足质量规则。业务场景的运行结果说明如下: 正常:表示实例正常结束,且执行结果符合预期。 告警:表示实例正常结束,但执行结果不符合预期。 异常:表示实例未正常结束。 --:表示实例正在运行中,无执行结果。 业务指标监控主界面包括以下功能模块。 功能 说明 总览 默认首页是总览页面,显示了业务场景实例的运行状态和告警状态。 主要包括以下几部分内容: 快速入门,介绍业务指标监控的业务流。 最近7天内的业务场景实例运行分布情况、实例告警运行分布情况。 可选周期内的告警趋势图、业务场景看板图、指标看板图。 指标管理 指标管理是业务指标监控的核心功能模块,是配置指标的主要入口。 规则管理 规则管理是配置规则的主要入口,支持通过指标的逻辑表达式定义规则。 业务场景管理 业务场景可以认为是业务指标质量作业,将创建的规则组进行调度运行。 运维管理 运维管理用于查看业务场景运行状态,处理运维问题。其中我的订阅中显示了所有订阅的任务运行情况。 父主题: 业务指标监控(待下线)
  • 配置命名词典 在数据架构控制台,单击“命名词典”,进入命名词典页面。 单击“新建”,进入新建界面。 表1 配置命名词典参数 参数 说明 名称 定义中文名称。例如:数据标准名称1。 名称不可重复。最大支持10个字符。 英文名称 定义中文对应的英文名称。例如:datastandard1。 英文名称不支持空格。 英文缩写(可选) 定义英文缩写。例如:SD。 英文缩写不支持空格。 分类(可选) 定义名称所属的分类。例如:数据标准。 描述(可选) 描述信息。 单击“确认”,命名词典配置完成。 同时,系统支持通过模板进行批量导入命名词典。操作如下: 单击“导入”,进入“导入词典”界面。 单击“下载词典导入模板”,在本地配置好需要导入的数据。 单击“添加文件”,确保文件上传成功。 单击“上传文件”,上传成功后,界面显示结果为成功。如果导入失败,查看失败原因,修改导入的数据重新上传。 单击“关闭”,退出当前页面。可以在命名词典列表中查看已导入的数据。
  • 查看模型视图 当您在关系模型中完成表的新建后,就可以通过列表视图和模型视图两种形式查看表模型。关系模型页面默认显示为列表视图,您可以切换为模型视图进行查看。 在 DataArts Studio 数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面的中间栏位,从最上方的下拉列表中找到所需要的物理模型,或者从“数仓规划”选择一个物理模型单击进入,在主题目录中选中一个对象。 单击表名称进入后,选择“关系图”页签,查看模型视图。 图1 模型视图 在模型视图中支持以下功能: 双击表名,可显示表的详情信息。 单击左上角的“导出图片”按钮,可以将模型视图导出成图片。 在右上角的搜索框中输入表名,可以快速找到的所要查看的表。 功能依次为放大、缩小、全屏、物理模型/逻辑模型切换、刷新、显示画布。
  • 关联质量规则并查看质量作业 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面选择所需要的模型单击进入,在右侧的列表中将显示该模型下面所有的表。您也可以展开主题结构,选中一个对象,右侧的列表中将显示该对象下所有的表。 在列表中,找到所需要的表,单击表名称进入表详情页面。 图1 关系模型列表 在详情页的表字段区域,选中需要关联质量规则的字段,然后单击“关联质量规则”按钮。 图2 关联质量规则 异常数据输出配置:勾选此项,并勾选生成异常数据,表示异常数据将按照配置的参数存储到规定的库中。 在弹出的“关联质量规则”对话框中,单击“添加规则”。 图3 添加质量规则页 此时,系统将弹出“添加规则”对话框,在规则列表中将显示DataArts Studio数据质量中默认的质量规则,选中所需要的规则,然后单击“确定”。如果列表中的规则不满足业务需求,您也可以创建自定义规则,单击“新建规则”可以跳转到DataArts Studio数据质量页面,请参考新建数据质量规则新建规则。 图4 添加规则 添加规则完成后,将返回“关联质量规则”对话框,在“规则名称”列表中,选中一条规则,然后设置告警条件,设置完所有规则的告警条件后单击“确定”。 在“告警条件”输入框中,请输入告警条件表达式,在质量作业运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 告警条件表达式由告警参数和逻辑运算符组成。 每个规则的告警参数会在“告警参数”中以按钮形式列出。单击这些按钮,在“告警条件”中将按告警参数的排列顺序显示为${1}、${2}、${3}等变量名称,以此类推,变量名即代表告警参数。也就是说,在设置“告警条件”时,使用变量${1}代表第一个告警参数,${2}代表第二个告警参数,以此类推。 图5 设置告警条件 (可选)如需要将质量作业中不符合设定规则的异常数据存储在异常表中,可以打开“异常数据输出配置”开关。 图6 异常数据输出开关 单击开关,并打开“生成异常数据”按钮,表示异常数据将按照配置的参数存储到规定的库中。 图7 异常数据输出配置 各参数具体含义如下: 数据库或Schema:表示存储异常数据的数据库或Schema。 自定义异常表:支持通过“添加表前缀或后缀”或“选择已有表”两种方式定义异常表。 表前缀:表示存储异常数据的表的前缀。 表后缀:表示存储异常数据的表的后缀。 表名:选择已有表作为异常表。 配置完成后单击保存配置。 (可选)质量规则的检查范围默认是全表,如需要精确定位分区查询数据,请填写where条件。 图8 where条件开关 查看关联质量规则的结果,如果显示成功,单击“确定”。如果显示失败,请查看失败原因,等问题处理后,再重新关联质量规则。 图9 关联结果 返回关系模型列表页面,找到已关联质量规则的表,在“同步状态”列中,鼠标移至创建质量作业的图标上,单击“查看”进入质量作业页面查看已添加的质量规则。 图10 质量作业同步状态 进入质量作业的“规则配置”页面,可以查看刚才添加的质量规则。 图11 质量规则 此外,在建表时已关联的数据标准,在表发布后也会在上图中生成相应的质量规则,您可以在质量作业中进行查看。 字段关联的数据标准生成的质量规则,示例如下: 图12 字段关联的质量规则 字段关联了数据标准,数据标准关联的码表生成的质量规则,示例如下: 图13 码表的质量规则
  • 逆向数据库导入表到模型中 在DataArts Studio数据架构控制台,单击左侧导航栏的“关系建模”进入关系建模页面。 在页面的中间栏位,从最上方的下拉框中选择一个物理模型;或者从“数仓规划”选择一个物理模型进入物理表列表页面。单击上方的“逆向数据库”。 图1 逆向数据库 在“逆向数据库”对话框中配置如下参数。 图2 配置逆向数据库参数 表1 逆向数据库 参数名称 说明 *所属主题 单击“选择主题”按钮选择所属的主题信息。 数据连接类型 如果逆向到逻辑模型,请在下拉列表中选择所需要的连接类型。 如果逆向到物理模型,将显示当前模型的连接类型。 数据连接 选择所需要的数据连接。 如需从其他数据源逆向数据库到关系模型中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 数据库 选择数据库。 队列 仅限 DLI 连接类型,需选择DLI队列。 Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 更新已有表 在导入时,如果所要导入的表在关系模型中已存在,是否更新已有的表。在导入时,系统将按表编码进行判断将要导入的表在当前的关系模型中是否已存在。在导入时,只有创建或更新操作,不会删除已有的表。 不更新:如果表已存在,将直接跳过,不更新。 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 数据表 选择“全部”时,将数据库中的所有的表都导入关系模型中。 选择“部分”时,请选择需要导入关系模型的表。 起始页 当数据表选择“全部”时,需要配置。 单击“确定”开始执行逆向数据库操作。
  • 删除业务指标 如果您已不再需要某个业务指标,可以删除该业务指标。如果待删除的业务指标已发布,则无法执行删除操作,您必须先将该业务指标下线后,才能执行删除操作。 在数据架构控制台,单击左侧导航树中的“业务指标”,进入业务指标页面。 在维度列表中找到需要删除的业务指标度,勾选该业务指标,然后单击业务指标列表上方“更多”中的“删除”。 图7 删除业务指标 在系统弹出的“删除”对话框中,确认无误后,单击“是”将业务指标删除。
  • 导入流程 在数据架构控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图4 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在DataArts Studio数据架构中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 添加审核人 审核人必须是当前工作空间下具有审核权限的成员,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员。 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后,选择“审核人管理”页签。 在“审核人管理”页面,单击“添加”按钮。 在弹出的添加对话框中,选择审核人,输入正确的手机号码和电子邮箱,单击“确定”完成审核人添加。 审核人必须是当前工作空间下具有审核权限的成员,只有管理员和开发者才具有审核权限。 审核人不支持手工添加,需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员,以便添加审核人时进行选择。 勾选短信通知或邮件通知,并添加审核人后,DataArts Studio将自动在 消息通知 服务( SMN )中创建对应的主题。 主题的显示名格式为:DataArts_主题_审核人_项目名称_项目ID-dlg_ds_审核人名称。 图1 添加审核人 根据需要,可以添加多个审核人。
  • 查看已审核、待审核、我的申请 待我审核 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“待我审核”页签,可以查看待审核的对象。 已审核 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“已审核”页签,可以查看已通过审核的对象。 我的申请 在DataArts Studio数据架构的左侧导航树中,单击“审核中心”,选择“我的申请”页签,可以查看自己提交审核的对象。
  • 待我审核 在DataArts Studio数据架构控制台的左侧导航栏中,单击“审核中心”,进入审核中心页面,系统默认显示待审核页面,如下图所示。 图3 待审核页面 功能区域 说明 1 批量审核: 勾选多个待审核信息。 单击,弹出“批量审核”对话框。 输入有效的审核意见。 单击“批量通过”,所选审核信息通过审核;单击“批量驳回”,所选审核信息被驳回。 2 单个审核: 单击操作列“审核”,进入指定待审核信息的审核页面。 根据实际情况选择审核结果(通过或驳回),并输入有效的审核的意见。 单击“确定”,完成审核。 3 :通过该按钮过滤出修改时间段内的待审核信息。 :通过该按钮查询对象和创建人的待审核信息。 :通过该按钮设置待审核表的表列项。 :刷新按钮。
  • 审核人员审核对象 如果您是审核人员,请使用审核人员的账号参考以下步骤审核对象。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在左侧导航树中,单击“审核中心”,选择“待我审核”页签,在列表中找到需要审核的对象,然后在该对象所在行单击“审核”。 您也可以勾选多个待审核的对象,然后单击“批量审核”按钮进行批量审核。 图1 审核 在审核的详情页面,确认信息无误后,单击“通过”,然后在弹出对话框中输入审核意见并单击“确定”完成审核。 如果信息有误,请单击“驳回”,然后在弹出对话框中输入审核意见并单击“确定”完成审核。 图2 审核信息
  • 消息通知 在数据架构控制台,单击“审核中心”,进入审核中心页面。 单击“消息通知”,进入消息通知页面,如下图所示。 图5 消息通知页面 您可以进行如下操作: 通过操作列“确认”,已确认知晓所选消息的相关变化。系统支持批量确认操作。当数据标准发生变化后,关联数据标准的对象(逻辑模型、物理模型、维度表、事实表、汇总表)所对应负责人会收到数据标准变化信息通知。 查询:支持通过属性筛选或者关键字模糊搜索消息通知信息。
  • 新建衍生指标并发布 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“技术指标”,选择“衍生指标”页签进入衍生指标页面。 在左侧的主题目录中选中一个主题,然后单击“新建”按钮,开始新建衍生指标。 在新建衍生指标页面,根据页面提示配置参数。 图1 新建衍生指标 表1 新建衍生指标参数说明 参数名称 说明 *数据表 在下拉列表中选择即可。 *所属主题 显示所属的主题信息。 *原子指标 选择原子指标。 统计维度 在下拉列表中,选择一个或多个维度。此处只能选择原子指标所关联的事实表中的属性。 时间限定 在下拉框中选择所需要的时间限定,并选择关联的字段。系统预置了一些时间限定,如果不能满足需求,请参考新建时间限定进行创建。 通用限定 如需设置通用限定,可以单击“新建”按钮新建一个或多个通用限定。只能包含中文、英文字母、数字和下划线,且只能以中文或英文字母开头。 如图2所示,在新建通用限定区域,通过以下配置新建一个通用限定。 限定名称:指定通用限定的名称。 添加条件(且):单击该下拉框,选择“且条件”或者“或条件”可以添加相应的条件,然后在字段下拉框中选择一个字段,并根据页面提示设置条件。您可以添加多个条件。 当选择的字段是字符串类型(例如string、varchar)时,并且条件选择“属于”或“不属于”时,支持从码表中导入数据。单击“从码表导入”,在码表配置页面,选择“码表”和“码表字段”,单击“确定”。导入的码表值数量不能超过50。 在某个条件后面单击删除按钮,可以将该条件删除。 添加公式(且):单击该下拉框,选择“且公式”或者“或公式”可以添加相应的公式,然后再单击“编辑公式”按钮,在弹出对话框中选择所需要的“函数”和“字段”,并设置“表达式”。 在某个公式后面单击删除按钮,可以将该公式删除。 图2 通用限定 告警配置 由衍生指标和表达式组成,表达式由告警参数和逻辑运算符组成。在指标运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 参数配置完成后,单击“预览”,可以查看该衍生指标的相关信息,并定义名称、编码、数据类型、告警条件和描述等信息。 表2 预览衍生指标参数说明 参数名称 说明 名称 系统已根据原子指标、统计维度、时间限定等参数自动生成,您也可以自定义。 编码 系统已根据原子指标、统计维度、时间限定等参数编码自动生成,您也可以自定义。 数据类型 系统已根据原子指标的数据类型自动生成,您也可以自定义。 告警条件 告警条件表达式由告警参数和逻辑运算符组成。在指标运行时,系统将计算出告警条件表达式的结果,并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警,结果为假则不触发质量告警。 描述 描述信息。支持的长度为0~600个字符。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的衍生指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中,选择审核人,单击“确认提交”,提交审核。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 选择审核人时,系统支持选择多个审核人,全部审批通过后,状态才会显示为已发布。如果有任意一个人驳回,则状态为已驳回。 (可选)参考步骤2~步骤8,完成其他衍生指标的发布。 等待审核人员审核。 审核通过后,衍生指标创建完成。 衍生指标创建完成后,单击指标名称,可以查看该衍生指标的详情、关系图、发布历史和审核历史。 通过关系图,可以查看该衍生指标的血缘图。 通过发布历史,可以查看该衍生指标的发布历史和不同发布版本之间的差异对比。
  • 背景信息 原子指标来源于事实表和维度表: 原子指标是为了构建应用统计分析所需的衍生指标而定义的数据组件,因此可以基于事实逻辑表明细数据表来创建,也可以基于维度表来创建。 衍生指标无来源表,它归属于每个组合成它的原始的原子指标的来源表。 原子指标与衍生指标的关系: 原子指标的计算逻辑修改生效后,会直接更新应用于相关的衍生指标。 原子指标删除英文名,需要校验下游是否有衍生指标使用,如果有,则无法删除。 目前原子指标在被下游使用的情况下,支持变更英文名。 原子指标的更改会影响下游衍生指标。
  • 函数说明 新建原子指标时,需要按照函数设定表达式。以聚合函数的部分函数为例,函数说明如表3所示: 表3 聚合函数说明 函数名 表达式 函数说明 avg(col) avg() 求平均值。 corr(col1, col2) corr() 返回两列数值的相关系数。 count(*) count() 返回记录条数。 covar_pop(col1, col2) covar_pop() 返回两列数值协方差。 covar_samp(col1, col2) covar_samp() 返回两列数值样本协方差。 max(col) max() 返回最大值。 min(col) min() 返回最小值。 stddev_pop(col) stddev_pop() 返回指定列的偏差。 stddev_samp(col) stddev_samp() 返回指定列的样本偏差。 sum(col) sum() 求和。 var_samp(col) var_samp() 返回指定列的样本方差。 如果想要查询更多函数的功能及说明,可以在新建原子指标页面的基本信息中的设定表达式项,单击对应函数,在页面右侧的函数说明框中会显示对应的函数说明。 图4 函数说明
  • 编辑复合指标 在数据架构控制台,单击左侧导航树的“技术指标”,然后选择“复合指标”页签,进入复合指标页面。 图2 复合指标 在复合指标列表中,找到需要编辑的复合指标,单击“编辑”,进入“编辑复合指标”页面。 根据实际需要修改配置参数。参数说明请参见表1。 在页面下方,单击“试运行”按钮,然后在弹出框中单击“试运行”按钮,测试所设置的复合指标是否可以正常运行。 如果试运行失败,请根据错误提示定位错误原因,将配置修改正确后,再单击“试运行”按钮进行重试。 如果试运行成功,单击“发布”,提交发布审核。 在弹出框中单击“确认提交”,提交审核。
  • 逆向数据库导入表到维度模型中 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在DataArts Studio数据架构控制台,单击左侧导航栏的“维度建模”进入维度建模页面。 打开需要逆向数据库导入的维度或表的页签,从下拉列表选择需要逆向数据库的维度或表,然后单击列表上方的“逆向数据库”。 图1 选中对象 在“逆向数据库”对话框中配置参数。 表1 逆向数据库 参数名称 说明 所属主题 单击“选择主题”按钮选择所属的主题信息。 数据连接类型 选择维度建模的逆向数据库。 数据连接 选择所需要的数据连接。 如需从其他数据源逆向数据库到关系模型中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见配置DataArts Studio数据连接参数。 数据库 选择数据库。 队列 仅限DLI连接类型,需选择DLI队列。 Schema DWS或POSTGRESQL的模式。该参数在DWS或POSTGRESQL连接类型有效。 更新已有表 在导入时,只有创建或更新操作,不会删除已有的表。 不更新:如果表已存在,将直接跳过,不更新。 更新:如果表已存在,更新已有的表信息。如果表处于“已发布”状态,表更新后,您需要重新发布表,才能使更新后的表生效。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 说明: 进行逆向数据库配置时,如果逆向后表中文名称/字段中文名称的来源选择“来自描述”,则用中文名在进行描述时,表的字段注释不能重复。 数据表 选择“全部”时,将数据库中的所有的表都导入。 选择“部分”时,请选择需要导入的表。 单击“确定”开始执行逆向数据库操作。等待操作执行完成,即可在“上次逆向”中查看结果或者执行重新逆向操作。
  • 模型设计方法概述 根据业务需求抽取信息的主要特征,模拟和抽象出一个能够反映业务信息(对象)之间关联关系的模型,即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求:能比较真实地模拟业务(场景);容易被人所理解;便于在IT系统中实现。 在DataArts Studio数据架构的数据建模过程中,用到的建模方法主要有以下三种: 关系建模 关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。 用户在关系建模过程中,可以从数仓规划去设计物理模型。 物理模型:是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,真正实现数据在数据库中的存放,例如:所选的 数据仓库 是DWS或 MRS _Hive。 维度建模 维度建模是从分析决策的需求出发构建模型,它主要是为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。 多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表,事实表与维度表通过主/外键实现关联。典型的维度模型有星形模型,以及在一些特殊场景下使用的雪花模型。 数据集市 又称为DM(Data Mart),DM面向展现层,数据有多级汇总,由一个特定的分析对象及其相关的统计指标组成的,向用户提供了以统计粒度为主题的所有统计数据。 在DataArts Studio数据架构中,维度建模是以维度建模理论为基础,抽象出事实和维度,构建维度模型和事实模型,同时对报表需求进行抽象整理出相关指标体系,通过数据集市构建出汇总模型。
  • 数据架构总览 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面,查看“总览”,如图1所示。 图1 数据架构总览 我的待办 显示“我的申请”和“待我审核”的数量。 单击每一项上面统计数量将分别跳转到“我的申请”和“待我审核”页面。 资产概览 显示数据架构中所有对象的总量。 单击每个对象名称后的统计数量将跳转到该对象的管理页面。 快捷入口 显示数据架构 数据治理 方法的整体流程。单击流程下的具体操作,可以跳转到对应的界面。 数据架构流程 显示数据架构流程以及与DataArts Studio其他模块间的交互关系。关于数据架构流程的详细描述,请参见数据架构使用流程。 将鼠标移至流程图上的对象名称之上,页面上将显示对象的描述信息。 对于DataArts Studio已支持的对象,单击对象名称,可跳转至该对象的管理页面。
  • Apache server日志 日志样例: [Mon Jan 08 20:43:51.854334 2018] [mpm_event:notice] [pid 36465:tid 140557517657856] AH00489: Apache/2.4.12 (Unix) OpenSSL/1.0.1t configured -- resuming normal operations 正则表达式为: ^\[(.*)\] \[(.*)\] \[(.*)\] (.*).* 解析结果如下: 表5 Apache server日志解析结果 列号 样值 1 Mon Jan 08 20:43:51.854334 2018 2 mpm_event:notice 3 pid 36465:tid 140557517657856 4 AH00489: Apache/2.4.12 (Unix) OpenSSL/1.0.1t configured -- resuming normal operations
  • Tomcat日志 日志样例: 11-Jan-2018 09:00:06.907 INFO [main] org.apache.catalina.startup.VersionLoggerListener.log OS Name: Linux 正则表达式为: ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 解析结果如下: 表3 Tomcat日志解析结果 列号 样值 1 11-Jan-2018 09:00:06.907 2 INFO 3 main 4 org.apache.catalina.startup.VersionLoggerListener.log 5 OS Name:Linux
  • Log4J日志 日志样例: 2018-01-11 08:50:59,001 INFO [org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251)] Adding jars to current classloader from property: org.apache.sqoop.classpath.extra 正则表达式为: ^(\d.*\d) (\w*) \[(.*)\] (\w.*).* 解析出的结果如下: 表1 Log4J日志解析结果 列号 样值 1 2018-01-11 08:50:59,001 2 INFO 3 org.apache.sqoop.core.SqoopConfiguration.configureClassLoader(SqoopConfiguration.java:251) 4 Adding jars to current classloader from property: org.apache.sqoop.classpath.extra
  • Log4J审计日志 日志样例: 2018-01-11 08:51:06,156 INFO [org.apache.sqoop.audit.FileAuditLogger.logAuditEvent(FileAuditLogger.java:61)] user=sqoop.anonymous.user ip=189.xxx.xxx.75 op=show obj=version objId=x 正则表达式为: ^(\d.*\d) (\w*) \[(.*)\] user=(\w.*) ip=(\w.*) op=(\w.*) obj=(\w.*) objId=(.*).* 解析结果如下: 表2 Log4J审计日志解析结果 列号 样值 1 2018-01-11 08:51:06,156 2 INFO 3 org.apache.sqoop.audit.FileAuditLogger.logAuditEvent(FileAuditLogger.java:61) 4 sqoop.anonymous.user 5 189.xxx.xxx.75 6 show 7 version 8 x
  • Django日志 日志样例: [08/Jan/2018 20:59:07 ] settings INFO Welcome to Hue 3.9.0 正则表达式为: ^\[(.*)\] (\w*) (\w*) (.*).* 解析结果如下: 表4 Django日志解析结果 列号 样值 1 08/Jan/2018 20:59:07 2 settings 3 INFO 4 Welcome to Hue 3.9.0
  • 指定文件名迁移 从FTP/SFTP/OBS导出文件时, CDM 支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个),文件名之间默认使用“|”分隔,您也可以自定义文件分隔符,从而实现文件列表迁移。 迁移文件或对象时支持文件级增量迁移(通过配置跳过重复文件实现),但不支持断点续传。 例如要迁移3个文件,第2个文件迁移到一半时由于网络原因失败,再次启动迁移任务时,会跳过第1个文件,从第2个文件开始重新传,但不能从第2个文件失败的位置重新传。 文件迁移时,单个任务支持千万数量的文件,如果待迁移目录下文件过多,建议拆分到不同目录并创建多个任务。 父主题: 关键操作指导
  • MD5校验文件一致性 CDM数据迁移以抽取-写入模式进行,CDM首先从源端抽取数据,然后将数据写入到目的端。在迁移文件到OBS时,迁移模式如图1所示。 图1 迁移文件到OBS 在这个过程中,CDM支持使用MD5检验文件一致性。 抽取时 该功能支持源端为OBS、HDFS、FTP、SFTP、HTTP。可校验CDM抽取的文件,是否与源文件一致。 该功能由源端作业参数“MD5文件名后缀”控制(“文件格式”为“二进制格式”时生效),配置为源端文件系统中的MD5文件名后缀。 当源端数据文件同一目录下有对应后缀的保存md5值的文件,例如build.sh和build.sh.md5在同一目录下。若配置了“MD5文件名后缀”,则只迁移有MD5值的文件至目的端,没有MD5值或者MD5不匹配的数据文件将迁移失败,MD5文件自身不被迁移。 若未配置“MD5文件名后缀”,则迁移所有文件。 写入时 该功能目前只支持目的端为OBS。可校验写入OBS的文件,是否与CDM抽取的文件一致。 该功能由目的端作业参数“校验MD5值”控制,读取文件后写入OBS时,通过HTTP Header将MD5值提供给OBS做写入校验,并将校验结果写入OBS桶(该桶可以不是存储迁移文件的桶)。如果源端没有MD5文件则不校验。 迁移文件到文件系统时,目前只支持校验CDM抽取的文件是否与源文件一致(即只校验抽取的数据)。 迁移文件到OBS时,支持抽取和写入文件时都校验。 如果选择使用MD5校验,则无法使用KMS加密。 父主题: 关键操作指导
  • AES-256-GCM加密 目前只支持AES-256-GCM(NoPadding)。该加密算法在目的端为加密,在源端为解密,支持的源端与目的端数据源如下。 源端支持的数据源:HDFS(使用二进制格式传输时支持)。 目的端支持的数据源:HDFS(使用二进制格式传输时支持)。 下面分别以HDFS导出加密文件时解密、导入文件到HDFS时加密为例,介绍AES-256-GCM加解密的使用方法。 源端配置解密 创建从HDFS导出文件的CDM作业时,源端数据源选择HDFS、文件格式选择二进制格式后,在“源端作业配置”的“高级属性”中,配置如下参数。 加密方式:选择“AES-256-GCM”。 数据加密 密钥:这里的密钥必须与加密时配置的密钥一致,否则解密出来的数据会错误,且系统不会提示异常。 初始化向量:这里的初始化向量必须与加密时配置的初始化向量一致,否则解密出来的数据会错误,且系统不会提示异常。 这样CDM从HDFS导出加密过的文件时,写入目的端的文件便是解密后的明文文件。 目的端配置加密 创建CDM导入文件到HDFS的作业时,目的端数据源选择HDFS、文件格式选择二进制格式后,在“目的端作业配置”的“高级属性”中,配置如下参数。 加密方式:选择“AES-256-GCM”。 数据加密密钥:用户自定义密钥,密钥由长度64的十六进制数组成,不区分大小写但必须64位,例如“DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B”。 初始化向量:用户自定义初始化向量,初始化向量由长度32的十六进制数组成,不区分大小写但必须32位,例如“5C91687BA886EDCD12ACBC3FF19A3C3F”。 这样在CDM导入文件到HDFS时,目的端HDFS上的文件便是经过AES-256-GCM算法加密后的文件。
  • KMS加密 源端解密不支持KMS。 CDM目前只支持导入文件到OBS时,目的端使用KMS加密,表/文件迁移和整库迁移都支持。在“目的端作业配置”的“高级属性”中配置。 KMS密钥需要先在数据加密服务创建,具体操作请参见《数据加密服务 用户指南》。 当启用KMS加密功能后,用户上传对象时,数据会加密成密文存储在OBS。用户从OBS下载加密对象时,存储的密文会先在OBS服务端解密为明文,再提供给用户。 如果选择使用KMS加密,则无法使用MD5校验一致性。 如果这里使用其它项目的KMS ID,则需要修改“项目ID”参数为KMS ID所属的项目ID;如果KMS ID与CDM在同一个项目下,“项目ID”参数保持默认即可。 使用KMS加密后,OBS上对象的加密状态不可以修改。 使用中的KMS密钥不可以删除,如果删除将导致加密对象不能下载。
  • 事务模式迁移 CDM的事务模式迁移,是指当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 参数位置:创建表/文件迁移的作业时,如果目的端为关系型数据库,在目的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中;导入失败则将目的表回滚到作业开始之前的状态。 图1 事务模式迁移 如果“导入开始前”选择“清除部分数据”或“清除全部数据”,CDM的事务模式不会回滚已经删除的数据。 父主题: 关键操作指导
  • 操作步骤 登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。 图1 集群列表 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 单击集群名称后,选择“标签”页签。 图2 修改集群配置 单击“添加/编辑标签”,通过添加、修改标签为CDM集群设置资源标识。 图3 添加标签 一个集群最多可添加10个标签。 标签键(key)的最大长度为36个字符,标签值(value)的最大长度为43个字符。 (可选)在标签列表中,单击标签操作列“删除”,删除CDM集群标签。 通过以下两种方式筛选出所配置标签的资源。 在标签管理服务中,选择资源搜索条件,单击“搜索”即可筛选出所配置标签的资源。 在集群列表中,单击标签搜索,筛选出所配置标签的资源。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全