检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Storm应用开发常用概念 Topology 拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。 Spout 在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。
通过这个命令,可以查询当前应用的所有Executor信息(包括Driver),每个Executor的信息包含如下表2所示的常用信息。 表2 Executor常用信息 参数 描述 id Executor的ID hostPort Executor所在节点的ip:端口 executorLogs
SparkSQL常用接口 Spark SQL中常用的类有: SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法
HDFS应用开发常用概念 DataNode 将文件切分成大小相同的块(称为“数据块”),存储在不同的DataNode上,并且周期性地向NameNode报告该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active
SparkSQL常用接口 Spark SQL中常用的类有: SQLContext:是Spark SQL功能和DataFrame的主入口。 DataFrame:是一个以命名列方式组织的分布式数据集。 HiveContext:获取存储在Hive中数据的主入口。 表6 常用的Actions方法
以保证数据不丢失。但是,在某些情况下,从checkpoint恢复应用会失败。 回答 由于checkpoint中包含了spark应用的对象序列化信息、task执行状态信息、配置信息等,因此,当存在以下问题时,从checkpoint恢复spark应用将会失败。 业务代码变更且变更类
通过这个命令,可以查询当前应用的所有Executor信息(包括Driver),每个Executor的信息包含如下表2所示的常用信息。 表2 Executor常用信息 参数 描述 id Executor的ID hostPort Executor所在节点的ip:端口 executorLogs
保留一个用于缩放、并行化和容错性的分区(Partition)。每个分区是一个有序、不可变的消息序列,并不断追加到提交日志文件。分区的消息每个也被赋值一个称为偏移顺序(Offset)的序列化编号。 图1 Kafka结构 表1 Kafka结构图说明 名称 说明 Broker 在Kaf
安全集群使用HiBench工具运行sparkbench获取不到realm 问题 运行HiBench6的sparkbench任务,如Wordcount,任务执行失败。 “bench.log”中显示Yarn任务执行失败。 登录Yarn WebUI,查看对应application的失败信息,显示如下:
Core基本概念、Spark SQL基本概念和Spark Streaming基本概念。 Spark应用开发常用概念 准备开发环境 Spark的应用程序支持使用Scala、Java、Python三种语言进行开发。推荐使用IDEA工具,请根据指导完成不同语言的开发环境配置。 请参考准备Spark应用Java开发
Streaming常用接口 Spark Streaming中常见的类有: JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。
Streaming常用接口 Spark Streaming中常见的类有: JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。
ClickHouse应用开发常用概念 基本概念 cluster cluster(集群)在ClickHouse里是一种逻辑的概念,它可以由用户根据需要自由的定义,与通常理解的集群有一定的差异。多个ClickHouse节点之间是一种松耦合的关系,各自独立存在。 shards shar
ClickHouse应用开发常用概念 基本概念 cluster cluster(集群)在ClickHouse里是一种逻辑的概念,它可以由用户根据需要自由的定义,与通常理解的集群有一定的差异。多个ClickHouse节点之间是一种松耦合的关系,各自独立存在。 shards shar
Presto应用开发常用概念 Connector Connector将Presto适配到如Hive或关系型数据库的数据源。 Catalog Catalog包含schema以及引用通过connector连接的数据源 Schema Schema是组织数据表的一种形式。 父主题: Presto应用开发概述
统跑业务过程中进行大量的alter table modify列操作,导致不可以预知的性能、数据一致性问题。 父主题: ClickHouse常用SQL语法
统跑业务过程中进行大量的alter table modify列操作,导致不可以预知的性能、数据一致性问题。 父主题: ClickHouse常用SQL语法
存储组权限上勾选“修改”,表示在该存储组递归的所有路径上的时间序列具有修改时间序列的权限。 单击指定的存储组,进入时间序列资源类型,在对应的时间序列权限上勾选“修改”,表示具有修改该时间序列的权限。 设置用户向时间序列插入数据的权限 在“配置资源权限”的表格中选择“待操作集群的名称
Flink Java API接口介绍 由于Flink开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Flink常用接口 Flink主要使用到如下这几个类: StreamExecutionEnvironment:是Flink流处理的基础,提供了程序的执行环境。
入门实践 当完成MRS集群部署后,可以根据自身的业务需求使用MRS提供的一系列常用实践。 表1 MRS常用最佳实践 实践 描述 数据分析 使用Spark2x实现车联网车主驾驶行为分析 本实践指导使用Spark实现车主驾驶行为分析。用于了解MRS的基本功能,利用MRS服务的Spar