检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HDFS开源增强特性 HDFS开源增强特性:文件块同分布(Colocation) 离线数据汇总统计场景中,Join是一个经常用到的计算功能,在MapReduce中的实现方式大体如下: Map任务分别将两个表文件的记录处理成(Join Key,Value),然后按照Join Key
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
手动将CSV离线数据导入至IoTDB 应用场景 IoTDB(物联网数据库)是一体化收集、存储、管理与分析物联网时序数据的软件系统,采用轻量式架构,具有高性能和丰富的功能。 IoTDB支持以下方式批量导入或导出数据: 批量导入数据:通过import-csv.sh离线方式进行数据的导入。
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
快速开发Hive JDBC应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
安装MRS 3.x之前版本Flume客户端 操作场景 使用Flume搜集日志时,需要在日志主机上安装Flume客户端。用户可以创建一个新的ECS并安装Flume客户端。 本章节适用于MRS 3.x之前版本。 前提条件 已创建包含Flume组件的流集群。 日志主机需要与MRS集群在相同的VPC和子网。
快速开发HDFS应用 HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。 HDFS适用于如下场景: 处理海量数据(TB或PB级别以上) 需要很高的吞吐量
快速开发Spark应用 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言的应用开发。 通常适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative Computation):
访问MRS集群Manager(2.x及之前版本) 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
MRS多租户简介 多租户概述 背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。
使用BulkLoad工具向HBase中批量导入数据 应用场景 经常面临向HBase中导入大量数据的情景,向HBase中批量加载数据的方式有很多种,最直接方式是调用HBase的API使用put方法插入数据;另外一种是用MapReduce的方式从HDFS上加载数据。但是这两种方式效率
迁移MRS集群内ClickHouse数据至其他MRS集群 本章节仅适用于MRS 3.2.0及之后版本。 操作场景 场景一:随着MRS ClickHouse业务数量的增长,原有集群的存储和计算资源已不满足业务需求,需要对集群进行拆分,将部分用户业务及数据库数据迁移到新建集群中。 场景二:MRS
快速开发HBase应用 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。
MRS 3.2.0-LTS.1补丁说明 MRS 3.2.0-LTS.1.7补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.7 发布时间 2024-02-21 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题
MRS 3.1.0补丁说明 MRS 3.1.0.0.15补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.0.0.15 发布时间 2024-6-7 补丁约束 如果之前集群安装过MRS_3.1.0_HBase_patch_20220929.tar.gz 、MRS_3.1.0
CarbonData常见配置参数 本章节介绍CarbonData所有常用参数配置的详细信息。 carbon.properties相关参数 根据用户实际使用场景在服务端或者客户端配置CarbonData相关参数。 服务端:登录FusionInsight Manager页面,选择“集群
CarbonData常见配置参数 本章节介绍CarbonData所有配置的详细信息。 carbon.properties相关参数 根据用户实际使用场景在服务端或者客户端配置CarbonData相关参数。 服务端:登录FusionInsight Manager页面,选择“集群 > 服务
常用参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置参数。 配置Stage失败重试次数 Sp