检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从Python编译到运行PySpark样例 生态对接类 DBeaver对接MRS Hive 集群外Druid对接MRS Kerberos集群 分布式调度平台Airflow在华为云MRS中的实践 基于云服务MRS构建DolphinScheduler2调度系统
y监控等。 Eagle新版本中改名为EFAK。 方案架构 Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活
本章节主要介绍如何开启ClickHouse事务。 使用本地表场景进行数据写入性能更优,故推荐本地表的数据增、删、改、查场景的多副本分布式事务支持。 对于使用分布式表进行数据写入场景的分布式事务,需要结合分布式表事务insert_distributed_sync+本地表事务(Mergetree/Replicate
HetuEngine数据类型隐式转换 开启HetuEngine数据类型隐式转换 关闭HetuEngine数据类型隐式转换 HetuEngine隐式转换对照表 父主题: HetuEngine常见SQL语法说明
ce(化简)”及其主要思想,均取自于函数式编程语言及矢量编程语言。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对共享相同的键组。 图1 分布式批处理引擎 MapReduce是用于并行
query_string”格式的lvy URL,将一个或多个文件、JAR文件或ARCHIVE文件添加至分布式缓存的资源列表中。 list FILE[S] list JAR[S] list ARCHIVE[S] 列出已添加至分布式缓存中的资源。 list FILE[S] <filepath>* list JAR[S]
认为HDD,因此建表时会发现没有HDD介质的存储而报错。Doris并不会自动感知存储路径所在磁盘的实际存储介质类型,需要用户在路径配置中显式的表示。“.HDD”和“.SSD”只是用于标识存储目录“相对”的“低速”和“高速”之分,而并不是标识实际的存储介质类型,所以如果BE节点上的存储路径没有介质区别,则无需填写后缀。
HetuEngine应用开发简介 HetuEngine简介 HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine基本概念 HSBroker:Hetu
HetuEngine安装依赖MRS集群,其中直接依赖的组件如表1所示。 表1 HetuEngine依赖的组件 名称 描述 HDFS Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。 Hive 建
HetuEngine基本原理 HetuEngine简介 HetuEngine是自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine结构 HetuEngine包含不同模块,整体结构如图1所示。
HetuEngine应用开发简介 HetuEngine简介 HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine基本概念 HSBroker: Het
query_string”格式的lvy URL,将一个或多个文件、JAR文件或ARCHIVE文件添加至分布式缓存的资源列表中。 list FILE[S] list JAR[S] list ARCHIVE[S] 列出已添加至分布式缓存中的资源。 list FILE[S] <filepath>* list JAR[S]
ClickHouse宽表设计 ClickHouse宽表设计原则 ClickHouse表字段设计 ClickHouse本地表设计 ClickHouse分布式表设计 ClickHouse分区设计 ClickHouse索引设计 父主题: ClickHouse应用开发规范
BulkPut接口使用 BulkGet接口使用 BulkDelete接口使用 BulkLoad接口使用 foreachPartition接口使用 分布式Scan HBase表 mapPartitions接口使用 SparkStreaming批量写入HBase表 父主题: 开发Spark应用
BulkPut接口使用 BulkGet接口使用 BulkDelete接口使用 BulkLoad接口使用 foreachPartition接口使用 分布式Scan HBase表 mapPartition接口使用 SparkStreaming批量写入HBase表 父主题: 开发Spark应用
BulkPut接口使用 BulkGet接口使用 BulkDelete接口使用 BulkLoad接口使用 foreachPartition接口使用 分布式Scan HBase表 mapPartitions接口使用 SparkStreaming批量写入HBase表 父主题: 开发Spark应用
ClickHouse基于分布式表的查询会转换成所有分片的本地表的操作,再汇总结果。实际使用中,join和global join的执行逻辑差别很大,建议使用global join做分布式表查询。 【场景说明】 查询的集群有N个分片(shard) A_all是分布式表,对应的本地表是A_local
BulkPut接口使用 BulkGet接口使用 BulkDelete接口使用 BulkLoad接口使用 foreachPartition接口使用 分布式Scan HBase表 mapPartition接口使用 SparkStreaming批量写入HBase表 父主题: 开发Spark应用
限制返回结果行数,默认为0不限制。 0 100000 否 distributed_product_mode 默认SQL中的子查询不允许使用分布式表,修改为local表示将子查询中对分布式表的查询转换为对应的本地表。 deny 根据场景定: deny/local/global/allow 否 background_pool_size
1970-11-30│ def │ └───┴── ────┴────┘ Upsert支持事务 与其他SQL语法类型一样,upsert语法也支持显式和隐式事务,使用事务前需要进行相应的事务功能开启配置。 注意事项 MergeTree和ReplicatedMergeTree建表要指定primary