检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云MapReduce服务(MRS)是华为云提供的大数据服务,可以在华为云上部署和管理Hadoop系统,一键即可部署Hadoop集群。 MRS提供用户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行H
对接大数据平台 支持的大数据平台简介 华为云MRS对接OBS Cloudera CDH对接OBS Hortonworks HDP对接OBS 父主题: 大数据场景下使用OBS实现存算分离
华为云MRS对接OBS 对接步骤 配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
fs.obs.OBSFileSystem。 重启HDFS集群。 在MapReduce2集群中增加配置项 在MapReduce2集群CONFIGS的ADVANCED配置项中修改mapred-site.xml文件中的mapreduce.application.classpath配置项,添加路径为/usr/hdp/3
Spark集群对接OBS配置项 Spark应用对接OBS,需要在YARN集群中进行core-site.xml配置,包括:ak、sk、endpoint、impl等。 core-site.xml配置完成后“重启”YARN集群,再重启Spark集群的“部署客户端配置”。 Hive集群对接OBS配置项
支持的大数据组件简介 在华为云大数据存算分离方案中,OBS除了可以与大数据平台对接外,还可以直接与开源的大数据组件对接。 当前支持的大数据组件如下: Hadoop Hive Spark Flume DataX Druid Flink logstash 父主题: 对接大数据组件
表1 传统企业在大数据场景面临的关键问题 序号 关键问题 详细描述 1 多集群数据共享难 企业数据往往分别存储在IDC多个集群,存在如下问题: 无全局视图,数据只能在集群内部使用。 拷贝是跨集群数据共享的唯一途径,数据拷贝耗时长。 公共数据集多份存储,数据冗余。 2 计算存储资源绑定,导致资源浪费
操作流程 大数据场景下使用OBS实现存算分离的操作流程如图1所示。 图1 操作流程 配置的核心是完成大数据平台与OBS对接,实现OBS作为大数据的统一数据湖存储。本文档提供三种主流大数据平台的对接指导,详情请参见支持的大数据平台简介。 (可选)OBS除了可以与主流大数据平台对接外
参数解释: 元数据操作指示符。 约束限制: 无 取值范围: REPLACE_NEW:表示对于已经存在值的元数据进行替换,不存在值的元数据进行赋值,未指定的元数据保持不变(自定义头域作替换处理)。 REPLACE:表示使用当前请求中携带的头域完整替换,未指定的元数据(本表中除x-o
Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。 HDFS协议:Hado
a/sample CDM方式迁移 云数据迁移(Cloud Data Migration,CDM)提供同构/异构数据源之间批量数据迁移服务,帮助您实现数据自由流动。支持关系数据库,数据仓库,NoSQL,大数据云服务等数据源。 详细内容请参见云数据迁移。 OMS方式迁移 对象存储迁移服务(Object
概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差别的:HDFS租约机制可以
算法对对象数据进行加解密,避免数据明文存储。OBS不存储您提供的加密密钥,如果您丢失加解密密钥,则会无法获取该对象明文数据。详情请参见服务端加密SSE-C方式。 构建数据的恢复、容灾能力避免数据被异常破坏 预先构建数据的容灾和恢复能力,可以有效避免异常数据处理场景下数据误删、破坏的问题。
大数据场景下使用OBS实现存算分离 方案概述 操作流程 对接大数据平台 对接大数据组件 迁移HDFS数据至OBS
和对象时会同步创建ACL,授权拥有者对桶和对象资源的完全控制权限。 OBS的ACL为了实现用户简单实用地授权,包含以下特点: ACL对租户和租户下的用户都生效。 桶和对象的拥有者相同时,设置桶上的ACL默认对桶及桶中对象都生效。 桶创建时可以携带ACL,也可以创建成功后设置ACL
应用场景 大数据分析 场景描述 OBS提供的大数据解决方案主要面向海量数据存储分析、历史数据明细查询、海量行为日志分析和公共事务分析统计等场景,向用户提供低成本、高性能、不断业务、无须扩容的解决方案。 海量数据存储分析的典型场景:PB级的数据存储,批量数据分析,毫秒级的数据详单查询等
合事件通知、传输加速、大数据垂直优化等,为各场景下用户的千亿对象提供千万级并发、超高带宽、稳定低时延的数据访问体验。 图2 千亿对象,千万并发的数据访问体验 简单易用,便于管理:OBS支持标准REST API、多版本SDK和数据迁移工具,让业务快速上云。无需事先规划存储容量,存储
DataX对接OBS 概述 DataX是一个数据同步框架,实现了包括MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。OBS在大数据场景中可以替代Hadoop系统中的HDFS
对接大数据组件 支持的大数据组件简介 Hadoop对接OBS Hive对接OBS Spark对接OBS Presto对接OBS Flume对接OBS DataX对接OBS Druid对接OBS Flink对接OBS Logstash对接OBS 父主题: 大数据场景下使用OBS实现存算分离
environment:环境名字,Presto集群中的节点的环境名字都必须是一样的。 node.id:唯一标识,每个节点的标识都必须是唯一的。就算重启或升级Presto都必须还保持原来的标识。 node.data-dir:数据目录,Presto用它来保存log和其他数据 示例: node.envi