检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
type和hoodie.bucket.index.num.buckets属性可进行配置。 判断使用分区表还是非分区表。 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读
HBase集群中共有854张表约400TB,备HBase集群中共有149张表,约10TB数据。最近一个月新增的数据量是60TB。 使用CDM将CDH集群中的HBase HFile抽取出来存入到MRS(MapReduce) HDFS中,再通过HBase修复命令重建HBase表。基于这
在数据架构主界面,单击左侧导航栏的“数据标准”,进入数据标准页面。 首次进入数据标准页面,会显示制定数据标准模板的页面,请参考旧空间的“配置中心 > 标准模板管理”页面,修改新空间数据标准模板,完成后单击“确定”。 单击列表上方的“更多 > 导入”按钮,在弹出的导入窗口中,选择并上传需要导入的数据标准文件。 图21
配置默认的OBS路径。 此处配置的OBS路径,是脚本开发或者单任务作业开发时测试运行结果的默认转储OBS路径。配置成功后,后续转储运行结果时,将默认使用此次配置的OBS路径进行转储;已转储的运行结果路径不会改变,请以列表中返回路径为准。 单击“确定”。 查看脚本执行的结果 选择“数据开发
Oracle等。 简单易用 图形化编排,即开即用,轻松上手。 图1 一站式数据运营治理平台 云上数据平台快速搭建 快速将线下数据迁移上云,将数据集成到云上大数据服务中,并在DataArts Studio的界面中就可以进行快速的数据开发工作,让企业数据体系的建设变得如此简单。 优势
分区信息,表为分区表的时候,写数据的时候,可以选择需要写入的分区数据。 例如:year=2020,location=sun。 - 高级属性 入库时间字段 将一个字段标记为入库时间字段,自动建表时将此字段自动加到建表语句中,写入Hudi时将把此字段的值替换为当前时间。所选字段必须为timestamp类型。
字段分隔符 文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 使用包围符 “文件格式”为“CSV格式”,才有该参数,用于将数据库的表迁移到文件系统的场景。 选择“是”时,如果源端数据表中的某一个字段内容包含字段分隔符或换行符,写入目的端时CDM会使用双引号(")
创建该云服务相应的数据连接。 新建数据连接 创建DataArts Studio数据连接 数据集成 通过DataArts Studio平台将源数据上传或者接入到云上。 数据集成提供同构/异构数据源之间批量数据迁移的服务,支持自建和云上的文件系统,以及关系数据库,数据仓库,NoSQL,大数据云服务,对象存储等数据源。
30min左右),避免丢数。 例如,查询到的DRS安全位点时间戳为2024-11-29 12:00:00,启动Migration作业时可以将位点配置为2024-11-29 11:30:00。 图5 设置Migration启动位点 Migration作业启动后,观察作业监控,确定M
导出关系型数据库的数据时,可以选择是否使用自定义SQL语句导出。 fromJobConfig.sql 否 String 可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 fromJobConfig.schemaName 是 String 数据库模式或表空间,例如:“public”。 说明:
表迁移只传递列的value值。 是 否 列族 导出数据的列族。 例如:CF1&CF2 是 CF1&CF2 高级属性 切分Rowkey 是否将选做Rowkey的数据同时写入HBase的列,默认否。 否 否 Rowkey分隔符 切分Rowkey为是时显示该参数。 分隔符,用于切分Rowkey,若不设置则不切分。例如:|。
type和hoodie.bucket.index.num.buckets属性可进行配置。 判断使用分区表还是非分区表。 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读
在新建脚本弹出的SQL编辑器中输入如下SQL语句,单击“运行”,从movies_item和ratings_item表中计算出评分最高的Top10电影,将结果存放到top_rating_movie表。 SET SEARCH_PATH TO dgc; insert overwrite
关系建模 关系建模是用实体关系(Entity Relationship,ER)模型描述企业业务,它在范式理论上符合3NF,出发点是整合数据,将各个系统中的数据以整个企业角度按主题进行相似性组合和合并,并进行一致性处理,为数据分析决策服务,但是并不能直接用于分析决策。 维度建模 维度
为方便演示,本示例提供了用于模拟原始数据的部分数据。为了方便将源数据集成到云上,我们需要先将样例数据存储为CSV文件,将CSV文件上传至OBS服务中。 创建CSV文件(UTF-8无bom格式),文件名称为对应的数据表名,将后文提供的各样例数据分别复制粘贴到不同CSV文件中,然后保存CSV文件。
在迁移过程中,数据读写过程都是由一个单一任务完成的,受限于资源,整体性能较低,对于海量数据场景通常不能满足要求。 CDM任务基于分布式计算框架,自动将任务切分为独立的子任务并行执行,能够极大提高数据迁移的效率。针对Hive、HBase、MySQL、DWS(数据仓库服务)数据源,使用高效的数据导入接口导入数据。
dlg_agency委托需要具备OBS服务中获取对象元数据和上传文件的权限。 文件加密任务在单Region内,加密中的任务限制在200个,超出该数量的任务,将状态置为加密失败。 创建文件加密任务 在DataArts Studio控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。 单
为“AI识别”。AI识别方式可以自动识别,实时得到推荐结果。 图5 配置AI识别 如果想要将AI识别结果同步到数据地图组件,可以勾选字段,将分类信息和密级信息同步至数据地图。 图6 AI识别结果同步 点击同步后,可以在“AI推荐识别结果”页面查看同步结果。注意同步为异步操作,若同
不拦截:无处理策略,不做任何拦截。 采样条数 在数据集成(离线作业)作业中,对表字段进行检测时采样的行数,至多为100行。 同步 单击同步按钮,将策略同步至数据集成(离线作业)。此处的规则策略需要同步至数据集成(离线作业)中才会生效。 相关操作 删除数据入湖检测规则:在数据入湖检测规则
随源端。 不自动创建 Row key拼接分隔符 可选参数,用于多列合并作为rowkey,默认为空格。 , Rowkey冗余 可选参数,是否将选做Rowkey的数据同时写入HBase的列,默认值“否”。 否 压缩算法 可选参数,创建新HBase表时采用的压缩算法,默认为值“NONE”。