检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
离线处理:对已收集的大量数据进行批量处理和分析,这些任务通常是在计算资源和存储资源方面经过优化,以确保高效的数据处理和分析。这些任务通常是定时(例如每天、每周)执行,主要处理大量历史数据,用于批量分析和数据仓库。 实时处理:对源源不断产生的新数据进行实时处理和分析,以满足业务对数据的即时性需求
characters in position 63-64 : ordinal not in range ( 128 ),如下图所示。 图1 报错信息 原因分析 DataArts Studio默认用的python2的解释器,python2默认的编码格式是ASCII编码,因ASCII编码不能编码汉字
错session is down 本指导以Shell算子为例。 问题现象 Shell节点运行失败了,实际上Shell脚本运行成功了。 原因分析 获取Shell节点的运行日志。 [2021/11/17 02:00:36 GMT+0800] [INFO] No job-level agency
数据开发”模块。 数据开发简介 使用数据开发模块,用户可进行数据管理、脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。 图1 数据开发模块架构 数据开发的主要功能 表1 数据开发的主要功能 支持的功能 说明 数据管理 支持管理DWS、DLI、MRS Hive等多种数据仓库。
满足GDPR要求 满足GDPR关于在海量数据中找到和保护敏感数据的要求,可对敏感数据的使用进行审计。 数据安全合规检查 通过对敏感数据的分析,制定数据安全合规管理制度,帮助企业建设以及改善信息安全合规管理体系。 敏感数据识别流程 在执行识别敏感数据任务之前,您可通过图1了解敏感数据识别流程。
migration作业产生异常,报错执行DDL失败,失败原因为:column "t_col" contains null values。 原因分析 DWS数据库为oracle兼容模式时,会将空字符串视为NULL做处理,因此在有数据的场景下,不能添加默认值为空串的非空列。 解决方案 1
element access needs an index starting at 1 but was 0”错误。 图1 报错信息 原因分析 查看日志提示报错信息为“Array element access needs an index starting at 1 but was
提示没有权限访问,如图1所示。 执行启动作业/重启集群等操作时,报错当前策略不允许执行,如图2所示。 图1 没有权限访问 图2 不允许创建连接 原因分析 以上所列的问题均属于权限配置问题。 解决方案 如果是作为DataArts Studio服务CDM组件使用: 检查用户是否添加DAYU Administrator或DAYU
志中出现“value too long for type character varying”错误提示,如图1所示。 图1 日志信息 原因分析 这种情况一般是在迁移到DWS时数据有中文,且创建作业时选择了目的端自动建表的情况下。原因是DWS的varchar类型是按字节计算长度,一
据,需要做完整合规授权的检查。第二是精确可计量。第三,要确保这些数据在企业生产经营过程中,创造了经济利益价值。比如,很多企业用数据做了统计分析报表,并不代表企业这些数据真正在业务上直接创造了营收。 父主题: 数据资产入表
逐步开放。 搜索查询标签分页展示(邀测) 搜索查询标签分页展示,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 用户行为分析(邀测) 用户行为分析,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。 资产搜索(邀测) 资产搜索,该接口功能处于邀测阶段,后续将随功能公测将逐步开放。
新建物理模型 新建表并发布 通过逆向数据库导入物理表 物理模型设计时的考虑事项 物理模型要确保业务需求及业务规则所要求的功能得到满足,性能得到保障。 物理模型要确保数据的一致性及数据的质量。 新业务或新功能增加时能够以较少的改动或不改动就能够满足需求的扩展。 新建物理模型 数仓分
“标签”是相关性很强的关键字,帮助用户对资产进行分类和描述,以便于检索。 “分类”是指按照种类、等级或性质分别归类。分类是自上而下的,通过对事物进行分析,按照一定的标准,划分出不同的类别。 二者主要区别如下: 表1 标签和分类区别 属性 分类 标签 排他性 有 无 关系 从属 相关(关联)
不同的细分市场上争夺优质客户。如何在这样的市场环境中选择市场的经营策略?企业每一笔资金的来源与利用、每一次经营管理决策都必须基于准确的数据分析判断。只有基于准确的数字,才能够帮助企业在激烈的竞争中取得竞争优势。 图1 华为数据治理工作思考 父主题: 华为数据治理案例
员和数据安全运营人员)对数据安全和数据治理的诉求。 图1 DataArts Studio数据安全框架 资源主体:即华为云数据湖中的库表字段及计算引擎队列资源。库表字段支持大数据MRS Hive/Spark,云数据仓库DWS,数据湖探索DLI等数据湖,计算引擎队列包含大数据MRS YARN计算队列和数据湖探索计算队列。
查看数据开发的节点日志时,系统提示“OBS日志文件不存在,请检查文件是否被删除或者没有OBS写入权限”,如下图所示: 图1 提示信息 原因分析 数据开发的日志存储在OBS桶中,您所在的用户组没有OBS的操作权限,导致在查看节点日志时系统提示报错,或者OBS日志文件不存在时系统提示报错。
来,但没有落IT系统的业务对象,需在后继的开发中进行数字化落地。 数据开发 数据开发是编排、调度和运维的中心,数据开发是一个提供分析、设计、实施、部署及维护一站式数据解决方案,完成数据加工、转换和质量提升等。数据开发屏蔽了各种数据存储的差异,一站式满足从数据集成、数据清洗/转换、
数据血缘关系示例 DataArts Studio数据血缘实现方案 数据血缘的产生: DataArts Studio数据血缘解析方案包含自动分析血缘和手动配置血缘两种方式。一般推荐使用自动血缘解析的方式,无需手动配置即可生成血缘关系,在不支持自动血缘解析的场景下,再手动配置血缘关系。
Search Service)的时候,作业执行失败,日志提示“Unparseable date”,如图1所示。 图1 日志提示信息 原因分析 云搜索服务对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息,在Kibana可视化的时候,Kibana会认为该时间为GMT标准时间。
基线运维概述 基线运维功能支持用户通过配置基线任务,实现对任务运行状态及资源使用情况的监控;通过配置运维基线,保障复杂依赖场景下重要数据在预期时间内正常产出,帮助用户有效降低配置成本、避免无效报警、自动监控所有重要任务。 应用场景: 管理任务优先级 在任务数量越来越多,而资源有限