检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速开发HDFS应用 HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。 HDFS适用于如下场景: 处理海量数据(TB或PB级别以上) 需要很高的吞吐量
Streaming对接Kafka0-10样例程序 Spark Structured Streaming样例程序 Spark Structured Streaming对接Kafka样例程序 Spark Structured Streaming状态操作样例程序 Spark同步HBase数据到CarbonData样例程序
line处理数据,时延毫秒级,且兼具可靠性。 Flink整个系统包含三个部分: Client Flink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。 TaskManager Flink系统的业务执行节点,执行具体的用户任务。TaskManager可
Streaming对接Kafka0-10样例程序 Spark Structured Streaming样例程序 Spark Structured Streaming对接Kafka样例程序 Spark Structured Streaming状态操作样例程序 Spark同时访问两个HBase样例程序
应用示例 创建MRS集群 扩容集群 缩容集群 新增作业 终止作业 删除集群
Streaming对接Kafka0-10样例程序 Spark Structured Streaming样例程序 Spark Structured Streaming对接Kafka样例程序 Spark Structured Streaming状态操作样例程序 Spark同时访问两个HBase样例程序
HDFS应用开发规则 HDFS NameNode元数据存储路径 NameNode元数据信息的默认存储路径为“${BIGDATA_DATA_HOME}/namenode/data”,该参数用于确定HDFS文件系统的元数据信息的保存路径。 HDFS需要开启NameNode镜像备份 NameNode的镜像备份参数为“fs
Streaming对接Kafka0-10样例程序 Spark Structured Streaming样例程序 Spark Structured Streaming对接Kafka样例程序 Spark Structured Streaming状态操作样例程序 Spark同步HBase数据到CarbonData样例程序
快速开发Kafka应用 Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量
开发Spark应用 Spark Core程序 Spark SQL程序 Spark Streaming程序 通过JDBC访问Spark SQL的程序 Spark on HBase程序 从HBase读取数据再写入HBase 从Hive读取数据再写入HBase Streaming从Kafka读取数据再写入HBase
编译并运行Flink应用 在程序代码完成开发后,建议您上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是一样的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行。 操作步骤
开发Storm应用 Storm样例程序开发思路 创建Storm Spout 创建Storm Bolt 创建Storm Topology 父主题: Storm开发指南
开发Storm应用 Storm样例程序开发思路 创建Strom Spout 创建Strom Bolt 创建Strom Topology 父主题: Storm开发指南(普通模式)
编译并调测Flink应用 操作场景 在程序代码完成开发后,编译jar包并上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是相同的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行。
Manager,单击“集群 > 服务 > Yarn”,进入ResourceManager WebUI界面后,查找到对应的Spark应用程序作业信息,单击应用信息的最后一列“ApplicationMaster”,即可进入SparkUI页面查看任务详情。 图2 查看Spark任务详情 任务运行完成中,在HBase
的实践,这一点,可以应用在各类与HBase操作相关的接口方法的容错处理过程中。 不用Admin时,要及时关闭,Admin实例不应常驻内存 Admin的实例应尽量遵循 “用时创建,用完关闭”的原则。不应该长时间缓存同一个Admin实例。 父主题: HBase应用开发规范
Oozie应用开发应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
开发OpenTSDB应用 OpenTSDB样例程序开发思路 配置OpenTSDB参数 写入OpenTSDB数据 查询OpenTSDB数据 删除OpenTSDB数据 父主题: OpenTSDB开发指南
个变量时的值null,这就是空指针异常的原因。 应用程序结束之前必须调用SparkContext.stop 利用spark做二次开发时,当应用程序结束之前必须调用SparkContext.stop()。 利用Java语言开发时,应用程序结束之前必须调用JavaSparkContext
lib/hadoop-streaming-*.jar /apps/templeton/ 其中/apps/templeton/需要根据不同的实例进行修改,默认实例使用/apps/templeton/,Hive1实例使用/apps1/templeton/,以此类推。 避免对同一张表同时进行读写操作