检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark常用配置参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置Spark参数。 配置Stage失败重试次数
窗口函数 窗口函数跨查询结果的行执行计算。它们在HAVING子句之后但在ORDER BY子句之前运行。调用窗口函数需要使用OVER子句来指定窗口的特殊语法。窗口具有三个组成部分: 分区规范,它将输入行分为不同的分区。这类似于GROUP BY子句如何将行分为聚合函数的不同组。 排序
使用多级agent串联从本地采集静态日志保存到HDFS 操作场景 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已
访问MRS集群Manager(2.x及之前版本) 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
使用多级agent串联从本地采集静态日志保存到HDFS 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。
产品优势 MapReduce服务(MRS)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,用户无需关注硬件的购买和维护。MRS服务拥有强大的Hadoop内核团队,基于华为FusionInsight大数据企
补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.10 发布时间 2024-10-30 解决的问题 解决Flume后台卸载客户端后,从Flume管理的页面上无法删除该客户端实例的问题。 解决Kafka时延监控转告警(Topic数量监控、分区数量监控、请求时延监控)的问题。
CarbonData表空间索引语法说明 快速示例 create table IF NOT EXISTS carbonTable ( COLUMN1 BIGINT, LONGITUDE BIGINT, LATITUDE BIGINT, COLUMN2 BIGINT
CarbonData表空间索引语法说明 快速示例 create table IF NOT EXISTS carbonTable ( COLUMN1 BIGINT, LONGITUDE BIGINT, LATITUDE BIGINT, COLUMN2 BIGINT
聚合函数 聚合函数对一组值进行运算,最终获得一个单值。 除count()、count_if()、max_by()、min_by()和approx_distinct()外,其他聚合函数都忽略空值,并在没有输入行或所有值都为空时返回空值。例如sum()返回null而不是零,并且avg
功能总览 功能总览 全部 MapReduce服务 集群管理 文件管理 作业管理 运维管理 运营管理 用户权限管理 存算分离 Alluxio组件 CarbonData组件 CDL组件 ClickHouse组件 DBService组件 Doris组件 Flink组件 Flume组件 HBase组件
Spark2x基本原理 Spark2x组件适用于MRS 3.x及后续版本。 简介 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能
约束与限制 使用MRS前,您需要认真阅读并了解以下使用限制。 MRS集群创建限制 表1 MRS集群创建约束说明 限制项 说明 网络要求 MRS集群必须创建在VPC子网内。 创建MRS集群时,支持自动创建安全组,也可选择已有的安全组。 MRS集群使用的安全组请勿随意放开权限,避免被恶意访问。
Spark基本原理 Spark简介 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 Spark提供了一个快速的计算、写入及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark