检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云MapReduce服务(MRS)是华为云提供的大数据服务,可以在华为云上部署和管理Hadoop系统,一键即可部署Hadoop集群。 MRS提供用户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行H
对接大数据平台 支持的大数据平台简介 华为云MRS对接OBS Cloudera CDH对接OBS Hortonworks HDP对接OBS 父主题: 大数据场景下使用OBS实现存算分离
大数据场景下使用OBS实现存算分离方案概述 应用场景 随着大数据技术的飞速发展,对数据价值的认识逐渐加深,大数据已经融入到了各行各业。根据相关调查报告数据显示,超过39.6%的企业正在应用大数据并从中获益;超过89.6%的企业已经成立或计划成立相关的大数据分析部门;超过六成的企业
对接大数据组件 支持的大数据组件简介 Hadoop对接OBS Hive对接OBS Spark对接OBS Presto对接OBS Flume对接OBS DataX对接OBS Druid对接OBS Flink对接OBS Logstash对接OBS 父主题: 大数据场景下使用OBS实现存算分离
支持的大数据组件简介 在华为云大数据存算分离方案中,OBS除了可以与大数据平台对接外,还可以直接与开源的大数据组件对接。 当前支持的大数据组件如下: Hadoop Hive Spark Flume DataX Druid Flink logstash 父主题: 对接大数据组件
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务,本文介绍DataX如何对接OBS。 对接步骤 下载datax源码,以发布版本datax_v202308为例:下载地址。
apache.spark.examples.JavaWordCount obs://obs-bucket/input/test.txt 父主题: 对接大数据组件
用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。 HDFS协议:Hadoop中定义了HDFS协
迁移HDFS数据至OBS 操作场景 在华为云大数据存算分离方案中,对象存储服务OBS作为统一数据湖存储数据。如果用户数据仍存储在本地HDFS中,则需要先将HDFS的数据迁移至OBS。 用户可以使用以下迁移方案中的任意一种完成数据迁移,包括:Distcp方式迁移、CDM方式迁移和OMS方式迁移。
加密密钥类型您也可以选择“自定义密钥”,通过单击“查看KMS密钥”进入数据加密服务页面创建自定义密钥,然后通过KMS密钥的下拉框选中您创建的KMS密钥。 加密密钥类型您还可以选择“共享密钥”,输入共享密钥ID,您上传的对象将使用其他用户共享的密钥进行加密。获取共享密钥ID,具体请参见查看密钥。 说明: 支持配
使用OBS前需注册一个华为账号。如果您已有账号,请从3开始。 在顶部导航栏右侧,单击“注册”。 在注册页面,根据提示信息完成注册。 注册成功后,系统会自动跳转至您的个人信息界面。 在顶部导航栏右侧,单击“登录”,输账号名和密码。 在顶部导航栏右侧,单击“控制台”,进入华为云控制台。 在左侧导航栏上方,单击,选择“存储
开头)。 执行以下命令,运行logstash。 bin/logstash -f ../conf/file2obs.conf 父主题: 对接大数据组件
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
dinator(接受client的查询和管理查询执行)。 node-scheduler.include-coordinator:coordinator是否也作为work。对于大型集群来说,在coordinator里做worker的工作会影响查询性能。 http-server.http
配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
-3.1.1-hw-53.8.jar /usr/hdp/3.0.1.0-187/hive/auxlib 重启Hive集群。 父主题: 对接大数据平台
withRollingPolicy(rollingPolicy) .withBucketCheckInterval(1000L) .build(); 父主题: 对接大数据组件
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差别的:HDFS租约
OBSFileSystem。 修改后“重启”或“滚动重启”HDFS集群,再重启“部署客户端配置”。 进入YARN集群,重启“部署客户端配置”。 查看节点中/etc/hadoop/conf/core-site.xml中是否已增加OBS的ak、sk、endpoint和impl配置。 1