检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Scala API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: SparkContext:是Spark的对外接口,负责向调用该类的scala应
Spark Scala API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的开源API。 Spark Core常用接口 Spark主要使用到如下这几个类: SparkContext:是Spark的对外接口,负责向调用该类的scal
快速开发Hive JDBC应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
Spark scala API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: SparkContext:是Spark的对外接口,负责向调用该类的scala应
writebuffer.number-to-merge 1 Immutable flush前的个数,n个Immutable flush时会去重,启用SPINNING_DISK_OPTIMIZED_HIGH_MEM时,默认值是“3” state.backend.rocksdb.compaction
carbon.enable.droptable.remove.staleentry true 在设置为true时,会在执行drop table命令时去cache中删除该表的废弃记录。在database数量较多时,开启该参数会导致drop table命令执行时间很长。 说明: MRS 3.2
编译并运行HBase应用 在程序代码完成开发后,您可以在Windows开发环境中运行应用。 操作步骤 在windows下使用REST API操作HBase集群时,JDK版本需为jdk1.8.0_60及以上版本。从集群环境中获取jdk的cacerts文件,并复制“/opt/Bigd
具有提交、查询Mapreduce、YARN任务的权限,以及YARN队列管理权限和访问YARN WebUI的权限。 Storm中,具有提交、查询、激活、去激活、重分配、删除拓扑的权限,可以操作所有拓扑。 Kafka服务中,具有创建、删除、授权、Reassign、消费、写入、查询主题的权限。 MRS集群节点操作系统用户
快速开发HDFS应用 HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。 HDFS适用于如下场景: 处理海量数据(TB或PB级别以上) 需要很高的吞吐量
SparkOnHbaseJavaExample Spark on HBase场景的Java/Scala/Python示例程序。 本工程应用程序以数据源的方式去使用HBase,将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 SparkOnHbasePythonExample
HDFS开源增强特性 HDFS开源增强特性:文件块同分布(Colocation) 离线数据汇总统计场景中,Join是一个经常用到的计算功能,在MapReduce中的实现方式大体如下: Map任务分别将两个表文件的记录处理成(Join Key,Value),然后按照Join Key
使用BulkLoad工具向HBase中批量导入数据 应用场景 经常面临向HBase中导入大量数据的情景,向HBase中批量加载数据的方式有很多种,最直接方式是调用HBase的API使用put方法插入数据;另外一种是用MapReduce的方式从HDFS上加载数据。但是这两种方式效率
1.595658735147E9 trunc(string date, string format) →string 按照format格式去截取日期值,支持的格式有:MONTH/MON/MM,YEAR/YYYY/YY, QUARTER/Q select trunc(date '2020-07-08'
Flink常用配置参数 配置文件说明 Flink所有的配置参数都可以在客户端侧进行配置,建议用户直接修改客户端的“flink-conf.yaml”配置文件进行配置,如果通过Manager界面修改Flink服务参数,配置完成之后需要重新下载安装客户端: 配置文件路径:客户端安装路径
Spark输出:SparkSQL表输出步骤,配置已生成的字段输出到SparkSQL表的列。仅支持存取Hive数据。 编辑栏包括以下几种任务: 重命令:重命名样例。 编辑:编辑步骤转换,参考6.c。 删除:删除样例。 也可使用快捷键“Del”删除。 单击“编辑”,编辑步骤转换信息,配置字段与数据。
Spark输出:SparkSQL表输出步骤,配置已生成的字段输出到SparkSQL表的列。仅支持存取Hive数据。 编辑栏包括以下几种任务: 重命令:重命名样例。 编辑:编辑步骤转换,参考6.c。 删除:删除样例。 也可使用快捷键“Del”删除。 单击“编辑”,编辑步骤转换信息,配置字段与数据。
访问MRS集群Manager(2.x及之前版本) 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
Flink常用配置参数 配置说明 Flink所有的配置参数都可以在客户端侧进行配置,建议用户直接修改客户端的“flink-conf.yaml”配置文件进行配置,如果通过Manager界面修改Flink服务参数,配置完成之后需要重新下载安装客户端: 配置文件路径:客户端安装路径/F
监控目录下文件的消耗次序。如果配置为oldest或者youngest,会根据监控目录下文件的最后修改时间来决定,当目录下有大量文件时,会消耗较长时间去寻找oldest或者youngest的文件。需要注意的是,如果配置为random,创建比较早的文件有可能长时间未被读取。如果配置为oldes