检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调测Alluxio应用 Alluxio客户端运行及结果查看 执行mvn clean compile assembly:single生成jar包,在工程目录target目录下获取,比如:alluxio-examples-mrs-1.9-jar-with-dependencies.jar。
Kudu应用开发常用概念 Table Table有schema和primary key属性,且可以划分为多个tablet。 Tablet Tablet是指数据分片,可以指定副本数,存放在多个tablet server上,多个副本中有一个是leader tablet;所有的副本都可
终止作业 场景描述 当作业提交后未执行完成时,手动终止作业。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。
Spark Streaming任务提交问题 问题现象 连接Kafka报类找不到。 连接带Kerberos的Kafka,报认证错误。 SparkStreaming任务运行一段时间后开始报TOKEN过期问题。 原因分析 问题1:Spark提交任务默认不会加载kafka的相关包,所以需
调测Kafka应用 前提条件 客户端本地能登录MRS服务的弹性云服务器,登录方式详见“弹性云服务器《用户指南》”中“入门 > 登录弹性云服务器”的SSH登录方式。 样例工程在已经通过Maven编译。 示例:Maven工程打包到Linux下运行样例 执行mvn package生成j
创建Hive用户自定义函数 当Hive的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF分如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。 用
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
准备本地应用开发环境 在进行二次开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,支持Windows 7以上版本。 开发和运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置。版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1
Manager应用开发简介 本文档供需要以HTTP基本认证(Basic Authentication)方式访问FusionInsight Manager REST API的用户使用。 REST API REST API是访问Web服务器的一套API,REST API接口的执行方式
初始化HDFS 功能简介 在使用HDFS提供的API之前,需要先进行HDFS初始化操作。过程为: 加载HDFS服务配置文件。 实例化Filesystem。 代码样例 如下是代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。
在Linux中调测Impala JDBC应用 前提条件 已安装MRS客户端,具体请参见: 集群的Master节点或者Core节点使用客户端可参考集群内节点使用MRS客户端。 MRS集群外客户端的安装操作可参考集群外节点使用MRS客户端。 操作步骤 在运行调测环境上创建一个目录作为
准备本地应用开发环境 在进行二次开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,支持Windows 7以上版本。 开发和运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置。版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1
快速开发Hive JDBC应用 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
Flink应用性能调优建议 配置内存 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
创建大量ZNode后ZooKeeper Server启动失败 问题 创建大量ZNode后,ZooKeeper集群处于故障状态不能自动恢复,尝试重启失败,ZooKeeper Server日志显示如下内容: Follower: 2016-06-23 08:00:18,763 | WARN
Flink应用开发简介 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 Flink整个系统包含三个部分:
准备Spark应用运行环境 操作场景 Spark的运行环境(即客户端)只能部署在Linux环境下。您可以执行如下操作完成运行环境准备。 准备运行调测环境 在弹性云服务器管理控制台,申请一个新的弹性云服务器,用于应用开发运行调测。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
创建大量znode后ZooKeeper Server启动失败 问题 创建大量znode后,ZooKeeper集群处于故障状态不能自动恢复,尝试重启失败,ZooKeeper Server日志显示如下内容: follower: 2016-06-23 08:00:18,763 | WARN
HDFS对接OBS业务应用开发样例说明 对接原理介绍 HDFS创建FileSystem的代码会根据uri的scheme查找对应的实现类,即针对不同底层提供的实现类,在HDFS的配置文件中进行配置,HDFS就会根据fs.AbstractFileSystem.%s.impl创建对应的实现类。如下所示: