检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。
Sqoop客户端使用实践 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、PostgreSQL等)中的数据导进到Hadoop的HDFS中,
hbase.schema3.table3 t2 join dws.schema02.table4 t3 on t1.name = t2.item and t2.id = t3.cardNo; HetuEngine跨域功能简介 HetuEngine提供统一标准SQL对分布于多个地域(或数据中心
通过Flink作业处理OBS数据 应用场景 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。 本文将向您介绍如何在MRS集群中运行Flink作业来处理OBS中存储的数据。 方案架构 Flink是一个批处理和流处理结合的统一计算框架
浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。
配置HDFS数据传输加密 本章节指导用户设置HDFS安全通道加密,以增强安全性。 该章节仅适用于MRS 3.x及之后版本。 设置HDFS安全通道加密 默认情况下,组件间的通道是不加密的。您可以配置如下参数,设置安全通道为加密的。 参数修改入口:在FusionInsight Manager
浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。
应用场景 大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。 海量数据分析场景 海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Transform-Load
Sqoop1.4.7适配MRS 3.x集群 Sqoop是专为Apache Hadoop和结构化数据库(如关系型数据库)设计的高效传输大量数据的工具。客户需要在MRS中使用sqoop进行数据迁移,MRS旧版本中未自带Sqoop,客户可参考此文档自行安装使用。MRS 3.1.0及之后版本已支持创建集群时勾选
Spark常用配置参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置Spark参数。 配置Stage
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle
MapReduce与其他组件的关系 MapReduce和HDFS的关系 HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性,可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 MapReduce是一种编程模型,用于大数据集(大于1TB)的并行运算
使用Hive Hive用户权限管理 Hive客户端使用实践 快速使用Hive进行数据分析 Hive数据存储及加密配置 Hive on HBase 配置Hive读取关系型数据库数据 Hive企业级能力增强 Hive性能调优 Hive运维管理 Hive常见SQL语法说明 Hive常见问题
使用ClickHouse ClickHouse概述 ClickHouse用户权限管理 使用ClickHouse客户端 ClickHouse表创建 ClickHouse数据导入 ClickHouse企业级能力增强 ClickHouse性能调优 ClickHouse运维管理 ClickHouse
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合
生成Flume服务端和客户端的配置文件 该操作指导安装工程师在集群及Flume服务安装完成后,分别配置Flume服务的服务端和客户端参数,使其可以正常工作。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务
ClickHouse概述 ClickHouse表引擎介绍 表引擎在ClickHouse中的作用十分关键,不同的表引擎决定了: 数据存储和读取的位置 支持哪些查询方式 能否并发式访问数据 能不能使用索引 是否可以执行多线程请求 数据复制使用的参数 其中MergeTree和Distributed
MRS安全增强 MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全
使用distcp命令跨集群复制HDFS数据 操作场景 distcp是一种在集群间或集群内部拷贝大量数据的工具。它利用MapReduce任务实现大量数据的分布式拷贝。 前提条件 已安装Yarn客户端或者包括Yarn的客户端。例如安装目录为“/opt/client”。 各组件业务用户由
Loader开源增强特性 Loader开源增强特性:数据导入导出 Loader是在开源Sqoop组件的基础上进行了一些扩展,除了包含Sqoop开源组件本身已有的功能外,还开发了如下的增强特性: 提供数据转化功能 支持图形化配置转换步骤 支持从SFTP/FTP服务器导入数据到HDFS