检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink SQL逻辑开发建议 在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发生
通过JDBC访问Spark SQL样例程序开发思路 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。 数据规划 将数据文件上传至HDFS中。 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux
Oozie客户端配置说明 操作场景 该任务指导用户在运维场景或业务场景中使用Oozie客户端。Oozie支持提交多种类型任务,例如Hive、Spark2x、Loader、Mapreduce、Java、DistCp、Shell、HDFS、SSH、SubWorkflow、Streaming
计费说明 MRS服务计费简单、易于预测。MRS支持按需计费,同时您也可以选择更经济的包年、包月的包周期计费方式。为了便于您便捷的下单购买,在控制台购买界面中已经为您计算好了整个MRS集群的价格,您可一键完成购买。 计费项 购买MRS集群的费用包含两个部分: MRS服务管理费用 您可以在
ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的数量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时
缩容ClickHouseServer节点 MRS集群中部署了ClickHouse服务时,如果需要缩容ClickHouseServer节点,需参考本章节进行缩容前的数据检查,避免在删除节点过程中造成数据丢失。 缩容ClickHouseServer约束限制 表1 ClickHouseServer
Oozie客户端配置说明 操作场景 该任务指导用户在运维场景或业务场景中使用Oozie客户端。Oozie支持提交多种类型任务,例如Hive、Spark2x、Loader、Mapreduce、Java、DistCp、Shell、HDFS、SSH、SubWorkflow、Streaming
JobGateway日志介绍 日志描述 日志路径:JobGateway相关日志的存储路径为:“/var/log/Bigdata/job-gateway/”。 日志归档规则:JobGateway的运行日志启动了自动压缩归档功能,当日志大小超过20MB的时候(此日志文件大小可进行配置)
CarbonData CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成的高性能分析引擎
ZooKeeper基本原理 ZooKeeper简介 ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能: 帮助系统避免单点故障,建立可靠的应用程序。 提供分布式协作服务和维护配置信息。 ZooKeeper结构 ZooKeeper集群中的节点分为三种角色
克隆MRS集群 当新建集群与某原有集群配置相同时,可使用克隆集群功能快速创建集群。 克隆MRS集群使用限制 已删除的集群仅支持删除3个月内的集群进行克隆。 克隆包周期集群时默认不自动续费。 磁盘类型为专属分布式存储的集群不允许克隆。 克隆时仅可以修改为更高集群版本,无法克隆创建历史版本集群
ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值 告警解释 告警模块按60秒周期检测ClickHouse服务在ZooKeeper的容量配额使用百分比,当检测到使用百分比超过阈值(90%),系统产生此告警。 当系统检测到使用百分比低于阈值,且告警处理完成时
使用ZooKeeper客户端 ZooKeeper是一个开源的,高可靠的,分布式一致性协调服务。ZooKeeper设计目标是用来解决那些复杂,易出错的分布式系统难以保证数据一致性的。不必开发专门的协同应用,十分适合高可用服务保持数据一致性。 背景信息 在使用客户端前,除主管理节点以外的客户端
Doris应用开发简介 Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris能够较好的满足报表分析、即席查询
Hive表支持级联授权功能 本章节适用于MRS 3.3.0及之后版本,且使用此功能前还需满足以下条件: 需排查OBS是否开启AccessLabel功能,若未开启,需手动开启,详细操作请联系OBS运维人员。 针对OBS存储源,需满足以下条件,否则OBS表将授权失败: 集群中必须已安装
准备Flink应用安全认证 MRS服务集群开启了Kerberos认证需要执行以下步骤,没有开启Kerberos认证的集群忽略该步骤。 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交Flink应用程序时,需要与
快速使用Flume采集节点日志 Flume支持将采集的日志信息导入到Kafka。 前提条件 已创建开启Kerberos认证的包含Flume、Kafka等组件的流式集群。可参考购买自定义集群。 已配置网络,使日志生成节点与流集群互通。 使用Flume客户端 普通集群不需要执行2-6。
Doris应用开发简介 Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris能够较好的满足报表分析、即席查询
Doris数据模型概述 基本概念 在Doris中,数据以表(Table)的形式进行逻辑上的描述。 一张表包括行(Row)和列(Column),Row即用户的一行数据,Column用于描述一行数据中不同的字段。Column可以分为Key和Value两大类,从业务角度看,Key和Value
配置Ranger安全区信息 Ranger支持配置安全区,Ranger管理员可将各组件的资源切分为多个安全区,由对应Ranger管理员用户为区域的指定资源设置安全策略,以便更好的细分资源管理。安全区中定义的策略仅适用于区域中的资源,服务的资源被划分到安全区后,非安全区针对该资源的访问权限策略将不再生效