检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨源查询时,只能对简单的filter进行下推,因此造成大量不必要的数据传输,影响SQL引擎性能。针对下推能力进行增强,当前对aggregate、复杂projecti
源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨源查询时,只能对简单的filter进行下推,因此造成大量不必要的数据传输,影响SQL引擎性能。针对下推能力进行增强,当前对aggregate、复杂projecti
功能描述 阶段 相关文档 1 MRS支持Hudi组件 Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。 商用 Hudi基本原理 Hudi快速入门 2 ClickHouse组件版本升级到21
配置Kafka数据传输加密 操作场景 Kafka客户端和Broker之间的数据传输默认采用明文传输,客户端可能部署在不受信任的网络中,传输的数据可能遭到泄漏和篡改。 该章节仅适用于MRS 3.x及之后版本。 配置Kafka数据传输加密 默认情况下,组件间的通道是不加密的。用户可以配置如下参数,设置安全通道为加密的。
所在目录、自动删除文件,以便充分利用存储的性能和容量。 MR引擎。用户执行Hive SQL可以选择使用MR引擎执行。 可靠性增强。Hue自身主备部署。Hue与HDFS、Oozie、Hive、Yarn等对接时,支持Failover或负载均衡工作模式。 父主题: Hue
描述业务逻辑的XML文件,包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类,最终由Oozie引擎解析并执行。 流程属性文件 流程运行期间的参数配置文件,对应文件名为“job.properties”,每个流程定义有且仅有一个该属性文件。
Presto查询Hive表无数据 用户问题 使用Presto查询Hive表无数据。 问题现象 通过Tez引擎执行union相关语句写入的数据,Presto无法查询。 原因分析 由于Hive使用Tez引擎在执行union语句时,生成的输出文件会保存在HIVE_UNION_SUBDIR目录中,而P
Subtask串起来组成一个Operator Chain,实际上就是一个执行链,每个执行链会在TaskManager上一个独立的线程中执行,如图5所示。 图5 Operator chain 图5中上半部分表示的是将Source和Map两个紧密度高的算子优化后串成一个Operator Chain,实际上一个Operator
描述业务逻辑的XML文件,包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类,最终由Oozie引擎解析并执行。 流程属性文件 流程运行期间的参数配置文件,对应文件名为“job.properties”,每个流程定义有且仅有一个该属性文件。
API。 Kafka访问协议说明 Kafka当前支持四种协议类型的访问:PLAINTEXT、SSL、SASL_PLAINTEXT、SASL_SSL。 Kafka服务启动时,默认会启动PLAINTEXT和SASL_PLAINTEXT两种协议类型的访问监测。可通过设置Kafka服务配置“ssl
female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female
ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制,用户在创建表时可以通过指定引擎选择该表是否高可用,每张表的分片与副本都是互相独立的。 同时ClickHouse依靠Distributed引擎实现了分布式表机制,在所有分片(本地表)上建立视图
请参考修改集群服务配置参数查看或配置参数。 Kafka当前支持四种协议类型的访问:PLAINTEXT、SSL、SASL_PLAINTEXT、SASL_SSL。 Kafka服务启动时,默认会启动PLAINTEXT和SASL_PLAINTEXT两种协议类型的安全认证。可通过设置Kafka服务配置“ssl
Oozie Oozie简介 Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。 Oozie结构 Oozie引擎是一个Web App应用,默认集成到Tomcat中,采用pg数据库。 基于Ext提供WEB Console,该Console仅提供对
查看ClickHouse复制表数据同步监控 操作场景 Replicated*MergeTree系列引擎表同分片下的多个副本数据相互进行同步,MRS针对该场景下的表数据同步进行了状态监控。 约束限制 当前只支持Replicated*MergeTree系列引擎表并且建表语句携带ON CLUSTER关键字的表监控查询。 复制表数据同步
“authentication”:普通模式默认值,指数据在鉴权后直接传输,不加密。这种方式能保证性能但存在安全风险。 “integrity”:指数据直接传输,即不加密也不鉴权。 为保证数据安全,请谨慎使用这种方式。 “privacy”:安全模式默认值,指数据在鉴权及加密后再传输。这种方式会降低性能。 安全模式:privacy
配置Spark数据传输加密 操作场景 本章节指导用户设置Spark安全通道加密,以增强安全性。 该章节仅适用于MRS 3.x及之后版本。 配置Spark数据传输加密 参数修改入口:登录Manager页面,选择“集群 > 服务 > Spark > 配置”,展开“全部配置”页签,在搜索框中输入相关参数名称。
框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。 MRS将Tez作为Hive的默认执行引擎,执行效率远远超过原先的MapReduce的计算引擎。 有关Tez的详细说明,请参见:https://tez.apache.org/。 Tez和MapReduce间的关系
Impala客户端使用实践 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它拥有高性能和低延迟的特点。 背景信息 假定用户开发一个应用程序,用于管理企业中的使用A业务的
“authentication”:普通模式默认值,指数据在鉴权后直接传输,不加密。这种方式能保证性能但存在安全风险。 “integrity”:指数据直接传输,即不加密也不鉴权。 为保证数据安全,请谨慎使用这种方式。 “privacy”:安全模式默认值,指数据在鉴权及加密后再传输。这种方式会降低性能。 安全模式:privacy