检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上传存量数据 使用华为云专线,搭建用户本地数据中心与华为云VPC之间的专属连接通道。 创建OBS桶,并记录OBS的访问域名、端口和AK/SK。 创建CDM集群。
该功能由目的端作业参数“校验MD5值”控制,读取文件后写入OBS时,通过HTTP Header将MD5值提供给OBS做写入校验,并将校验结果写入OBS桶(该桶可以不是存储迁移文件的桶)。如果源端没有MD5文件则不校验。
行存储是指将表按行存储到硬盘分区上。 DWS_COLUMN:列存表。列存储是指将表按列存储到硬盘分区上。 DWS_VIEW:视图存表。视图存储是指将表按视图存储到硬盘分区上。 MRS_HIVE模型支持HIVE_TABLE和HIVE_EXTERNAL_TABLE。
单击“表格存储服务”,左侧列表选择集群模式。 在集群模式中可以获取到集群名称。
日志路径 选择作业日志的OBS存储路径。日志默认存储在以dlf-log-{Projectid}命名的桶中。 说明: 若您想自定义存储路径,请参见(可选)修改作业日志存储路径选择您已在OBS服务侧创建的桶。
图1 资源迁移 单击“新建导出”,配置文件的OBS存储位置和文件名称。 图2 选择导出文件 单击“下一步”,勾选导出的模块。 图3 勾选导出的模块 单击“下一步”,等待导出完成,资源包导出到所设置的OBS存储位置。
图1 资源迁移 单击“新建导出”,配置文件的OBS存储位置和文件名称。 图2 选择导出文件 单击“下一步”,勾选导出的模块。 图3 勾选导出的模块 单击“下一步”,等待导出完成,资源包导出到所设置的OBS存储位置。
图2 配置目标端参数 目标表的基本配置: 文件存储格式:Parquet、TextFile、SequenceFile。 OBS存储路径:指定OBS文件存储的路径。 支持填写#{source_topic_name}内置变量,可将源端不同的topic的数据写入不同的路径下。
为了方便将源数据集成到云上,我们需要先将样例数据存储为CSV文件,将CSV文件上传至OBS服务中。 创建CSV文件(UTF-8无bom格式),文件名称为对应的数据表名,将后文提供的各样例数据分别复制粘贴到不同CSV文件中,然后保存CSV文件。
本例中使用按需计费,完成后删除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。
存储模式:可以根据具体应用场景,建表的时候选择行存储还是列存储表。一般情况下,如果表的字段比较多(大宽表),查询中涉及到的列不多的情况下,适合列存储。如果表的字段个数比较少,查询大部分字段,那么选择行存储比较好。
DataArts Studio是否支持私有化部署到本地或私有云? DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以华为云Stack和HCS Online混合云模式部署。
环境准备 已开通对象存储服务OBS,并创建桶,例如“obs://dlfexample”,用于存放Spark作业的JAR包。 已开通数据湖探索服务DLI,并创建Spark集群“spark_cluster”,为Spark作业提供运行所需的物理资源。
问题描述 数据架构的数据建模方法有哪些。
支持单表同步的数据源(已支持的数据源即可作为源端,又可作为目的端组成不同链路)如下所示: 数据仓库:DWS、DLI Hadoop:MRS Hive、Apache Hive、MRS HBase、MRS Hudi、OpenSource ClickHouse、Apache HDFS、Doris 对象存储
443 OBS桶类型 用户下拉选择即可,一般选择为“对象存储”。 对象存储 访问标识(AK) AK和SK分别为登录OBS服务器的访问标识与密钥。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 您可以通过如下方式获取访问密钥。
问题描述 云数据迁移服务,数据源为Hive时支持的数据格式有哪些? 解决方案 云数据迁移服务支持从Hive数据源读写的数据格式包括SequenceFile、TextFile、ORC、Parquet。 父主题: 数据集成
DSMM标准以组织的数据为中心,围绕数据的采集、传输、存储、处理、交换、销毁全生命周期,从组织建设、制度流程、技术工具、人员能力4个能力维度,按照1-5级成熟度,评价组织的数据安全能力。 图1 数据安全能力成熟度模型 父主题: 数据安全能力成熟度模型DSMM
关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息,欢迎通过咨询了解。 DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。
企业项目管理是一种按企业项目管理云资源的方式,具体请参见《企业管理用户指南》。 如果已经创建了企业项目,这里才可以选择。