检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive SQL扩展语法说明 Hive SQL支持Hive-3.1.0版本中的所有特性,详情请参见https://cwiki.apache.org/confluence/display/hive/languagemanual。 系统提供的扩展Hive语句如表1所示。 表1 扩展Hive语句
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个MapReduce作业(applicat
配置Hive Beeline高可靠性 操作场景 在批处理任务运行过程中,beeline客户端由于网络异常等问题断线时,Hive能支持beeline在断线前已经提交的任务继续运行。当再次运行该批处理任务时,已经提交过的任务不再重新执行,直接从下一个任务开始执行。 在批处理任务运行过
使用KafkaStreams统计数据 功能简介 以下提供High level KafkaStreams API代码样例及Low level KafkaStreams API代码样例,通过Kafka Streams读取输入Topic中的消息,统计每条消息中的单词个数,从输出Topi
配置Hive Beeline高可靠性 操作场景 在批处理任务运行过程中,beeline客户端由于网络异常等问题断线时,Hive能支持beeline在断线前已经提交的任务继续运行。当再次运行该批处理任务时,已经提交过的任务不再重新执行,直接从下一个任务开始执行。 在批处理任务运行过
Loader基本原理 Loader是在开源Sqoop组件的基础上进行了一些扩展,实现MRS与关系型数据库、文件系统之间交换“数据”、“文件”,同时也可以将数据从关系型数据库或者文件服务器导入到HDFS/HBase中,或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。
Java样例代码 功能简介 在Spark应用中,通过使用HBase接口来实现创建表,读取表,往表中插入数据等操作。 代码样例 下面代码片段仅为演示,具体代码参见SparkOnHbaseJavaExample: 样例:创建HBase表 public class TableCreation
Flume基本原理 Flume是一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。其中Flume-NG是Flume的一个分支,其特点
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。
Spark客户端使用实践 本章节提供从零开始使用Spark2x提交spark应用程序,包括Spark Core及Spark SQL。其中,Spark Core为Spark的内核模块,主要负责任务的执行,用于编写spark应用程序;Spark SQL为执行SQL的模块。 场景说明
补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.1.0.0.16 发布时间 2024-11-25 解决的问题 提交Spark SQL作业,中文冒号被转换成英文冒号。 Spark SQL外表动态分区执行insert overwrite报错。 Spark JDBC产生空指针报错。
Spark客户端使用实践 本章节提供从零开始使用Spark,提交Spark应用程序,包括Spark Core及Spark SQL。其中,Spark Core为Spark的内核模块,主要负责任务的执行,用于编写Spark应用程序;Spark SQL为执行SQL的模块。 场景说明 假
ClickHouse集群配置说明 背景介绍 ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节仅适用于MRS 3
Spark2x样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Spark2x相关样例工程:
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
导入DWS表数据至ClickHouse ClickHouse支持CSV、JSON等格式文件的数据导入导出操作。本章节主要介绍怎么把DWS数据仓库服务中的表数据导出到CSV文件,再把CSV文件数据导入到ClickHouse表中。 前提条件 ClickHouse集群和实例状态正常。
ClickHouse客户端使用实践 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse依靠ReplicatedMergeTree引擎与ZooKee
实时OLAP场景介绍 传统数据集市场景实时数据和离线数据分离,集市层指标通过预聚合进行定制化开发,时效性低,复杂性高,灵活性差。 基于Doris的实时OLAP场景离线和实时数据归一,无需离线预加工,基于海量明细数据直接进行多维秒级聚合/关联查询分析,具备实时、高效、灵活的特点。
Storm-JDBC开发指引 操作场景 本文档主要说明如何使用开源Storm-JDBC工具包,完成Storm和JDBC之间的交互。Storm-JDBC中包含两类Bolt:JdbcInsertBolt和JdbcLookupBolt。其中,JdbcLookupBolt主要负责从数据库