华为云用户手册

MAPREDUCE服务 MRS-ClickHouse应用程序开发思路:开发思路

开发思路 ClickHouse作为一款独立的DBMS系统，使用SQL语言就可以进行常见的操作。开发程序示例中，全部通过clickhouse-jdbc API接口来进行描述，开发流程主要分为以下几部分：设置属性：设置连接ClickHouse服务实例的参数属性。建立连接：建立和ClickHouse服务实例的连接。创建库：创建ClickHouse数据库。创建表：创建ClickHouse数据库下的表。插入数据：插入数据到ClickHouse表中。查询数据：查询ClickHouse表数据。删除表：删除已创建的ClickHouse表。

MAPREDUCE服务 MRS 开发ClickHouse应用
MAPREDUCE服务 MRS-HBase应用开发简介:接口类型简介

接口类型简介由于HBase本身是由java语言开发出来的，且java语言具有简洁通用易懂的特性，推荐用户使用java语言进行HBase应用程序开发。 HBase采用的接口与Apache HBase保持一致。 HBase通过接口调用，可提供的功能如表1所示。表1 HBase接口提供的功能功能说明 CRUD数据读写功能增查改删高级特性过滤器、二级索引，协处理器管理功能表管理、集群管理

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HBase应用开发简介:HBase简介

HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点：处理海量数据（TB或PB级别以上）。具有高吞吐量。在海量数据中实现高效的随机读取。具有很好的伸缩能力。能够同时处理结构化和非结构化的数据。不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation，又称独立性）、持久性（Durability）。 HBase中的表具有如下特点：大：一个表可以有上亿行，上百万列。面向列：面向列（族）的存储和权限控制，列（族）独立检索。稀疏：对于为空（null）的列，并不占用存储空间，因此，表可以设计的非常稀疏。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HBase应用开发常用概念

HBase应用开发常用概念过滤器过滤器用于帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器，而且可以实现自定义的过滤器。协处理器允许用户执行region级的操作，并且可以使用与RDBMS中触发器类似的功能。 Client 客户端直接面向用户，可通过Java API、HBase Shell或者Web UI访问服务端，对HBase的表进行读写操作。本文中的HBase客户端特指HBase client的安装包，可参考HBase对外接口介绍。父主题： HBase应用开发概述

MAPREDUCE服务 MRS HBase应用开发概述
MAPREDUCE服务 MRS-Linux中安装客户端时提交Storm拓扑:操作步骤

操作步骤安全模式下，请先进行安全认证。初始化客户端环境变量。进入客户端安装目录“/opt/Storm_client”执行以下命令，导入环境变量信息。 source bigdata_env 使用在“准备开发用户”章节创建的开发用户进行安全登录。执行kinit命令进行“人机”用户的安全登录。 kinit用户名例如： kinit developuser 然后按照提示输入密码，无异常提示返回，则完成了用户的kerberos认证。提交拓扑（以wordcount为例，其它拓扑请参照相关开发指引），进入Storm客户端“Storm/storm-1.2.1/bin”目录，将刚打出的source.jar提交（如果在Windows上进行的打包，则需要将Windows上的source.jar上传到Linux服务器，假定上传到“/opt/jartarget”目录），执行命令：storm jar /opt/jartarget/source.jar com.huawei.storm.example.wordcount.WordCountTopology。执行storm list命令，查看已经提交的应用程序，如果发现名称为word-count的应用程序，则说明任务提交成功。如果业务设置为本地模式，且使用命令行方式提交时，请确保提交环境为普通模式环境，当前不支持安全环境下使用命令提交本地模式的业务。

MAPREDUCE服务 MRS 提交Storm拓扑
MAPREDUCE服务 MRS-在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录:回答

回答 Spark任务在运行过程中，driver会创建一个spark-开头的本地临时目录，用于存放业务jar包，配置文件等，同时在本地创建一个blockmgr-开头的本地临时目录，用于存放block data。此两个目录会在Spark应用运行结束时自动删除。此两个目录的存放路径优先通过SPARK_LOCAL_DIRS环境变量指定，若不存在该环境变量，则设置为spark.local.dir的值，若此配置还不存在，则使用java.io.tmpdir的值。客户端默认配置中spark.local.dir被设置为/tmp，因此默认使用系统/tmp目录。但存在一些特殊情况，如driver进程未正常退出，比如被kill -9命令结束进程，或者Java虚拟机直接崩溃等场景，导致driver的退出流程未正常执行，则可能导致该部分目录无法被正常清理，残留在系统中。当前只有yarn-client模式和local模式的driver进程会产生上述问题，在yarn-cluster模式中，已将container内进程的临时目录设置为container临时目录，当container退出时，由container自动清理该目录，因此yarn-cluster模式不存在此问题。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-实现Hive进程访问多ZooKeeper:访问开源 ZooKeeper

访问开源 ZooKeeper 使用“testConnectApacheZk”连接开源ZooKeeper的代码，只需要将以下代码中的“xxx.xxx.xxx.xxx”修改为需要连接的开源的ZooKeeper的IP，端口号按照实际情况修改。如果仅需运行访问第三方Zookeeper的样例，需注释掉main函数中的“testConnectHive”方法。 digestZK = new org.apache.zookeeper.ZooKeeper("xxx.xxx.xxx.xxx:端口号", 60000, null); ZooKeeper连接使用完后需要关闭连接，否则可能导致连接泄露。可根据业务实际情况进行处理，代码如下： //使用try-with-resources方式，try语句执行完后会自动关闭ZooKeeper连接。 try (org.apache.zookeeper.ZooKeeper digestZk = new org.apache.zookeeper.ZooKeeper("xxx.xxx.xxx.xxx:端口号", 600000, null)) { ... }

MAPREDUCE服务 MRS Hive JDBC访问样例程序
MAPREDUCE服务 MRS-配置Oozie应用安全认证:场景说明

场景说明在安全集群环境下，各个组件需要在通信之前进行相互认证，以确保通信的安全性。用户在开发Oozie应用程序时，某些场景下需要Oozie与Hadoop、Hive等之间进行通信。那么Oozie应用程序中需要写入安全认证代码，确保Oozie程序能够正常运行。安全认证有两种方式：命令行认证：提交Oozie应用程序运行前，在Oozie客户端执行如下命令获得认证。 kinit 组件业务用户代码认证（Kerberos安全认证）：通过获取客户端的principal和keytab文件在应用程序中进行认证，用于Kerberos安全认证的keytab文件和principal文件您可以联系管理员创建并获取，具体使用方法在样例代码中会有详细说明。目前样例代码统一调用LoginUtil类进行安全认证，支持Oracle JAVA平台和IBM JAVA平台。代码示例中请根据实际情况，修改“USERNAME”为实际用户名，例如“developuser”。 private static void login(String keytabFilePath, String krb5FilePath, String user) throws IOException { Configuration conf = new Configuration(); conf.set(KERBEROS_PRINCIPAL, user); conf.set(KEYTAB_FILE, keytabFilePath); conf.set(HADOOP_SECURITY_AUTHENTICATION, "kerberos"); conf.set(HADOOP_SECURITY_AUTHORIZATION, "true"); /* * if need to connect zk, please provide jaas info about zk. of course, * you can do it as below: * System.setProperty("java.security.auth.login.config", confDirPath + * "jaas.conf"); but the demo can help you more : Note: if this process * will connect more than one zk cluster, the demo may be not proper. you * can contact us for more help */ LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_ LOG IN_CONTEXT_NAME, user, keytabFilePath); LoginUtil.setZookeeperServerPrincipal(ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL); LoginUtil.login(user, keytabFilePath, krb5FilePath, conf); }

MAPREDUCE服务 MRS 准备Oozie应用开发环境
MAPREDUCE服务 MRS-Windows下打包Storm业务:操作步骤

操作步骤将从IntelliJ IDEA打包出来的jar包放入指定文件夹（例如“D:\source”）。在样例代码目录“src/storm-examples/storm-examples”下创建“lib”目录，将IntelliJ IDEA中导出的jar包复制到“lib”目录下，并解压。若业务需要访问外部组件，其所依赖的配置文件请参考相关开发指引，获取到配置文件后将配置文件放在1中指定的目录下。若业务需要访问外部组件，其所依赖的jar包请参考相关开发指引，获取到jar包后将jar包放在1中指定的目录下。在IntelliJ IDEA样例工程的“tools”目录下找到打包工具：“storm-jartool.cmd”。双击打包工具，输入要打包的jar包所在目录（“D:\source”）并回车，再输入打出包存放的目录（“D:\target”），在“D:\target”中，会生成“source.jar”文件。

MAPREDUCE服务 MRS 打包Storm业务
MAPREDUCE服务 MRS-从checkpoint恢复spark应用的限制:回答

回答由于checkpoint中包含了spark应用的对象序列化信息、task执行状态信息、配置信息等，因此，当存在以下问题时，从checkpoint恢复spark应用将会失败。业务代码变更且变更类未明确指定SerialVersionUID。 spark内部类变更，且变更类未明确指定SerialVersionUID。另外，由于checkpoint保存了部分配置项，因此可能导致业务修改了部分配置项后，从checkpoint恢复时，配置项依然保持为旧值的情况。当前只有以下部分配置会在从checkpoint恢复时重新加载。 "spark.yarn.app.id", "spark.yarn.app.attemptId", "spark.driver.host", "spark.driver.bindAddress", "spark.driver.port", "spark.master", "spark.yarn.jars", "spark.yarn.keytab", "spark.yarn.principal", "spark.yarn.credentials.file", "spark.yarn.credentials.renewalTime", "spark.yarn.credentials.updateTime", "spark.ui.filters", "spark.mesos.driver.frameworkId", "spark.yarn.jars"

MAPREDUCE服务 MRS Spark应用开发常见问题
MAPREDUCE服务 MRS-YARN应用开发简介:简介

简介 Yarn是一个分布式的资源管理系统，用于提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改，可是随着代码的增加以及原MapReduce框架设计的不足，在原MapReduce框架上进行修改变得越来越困难，所以MapReduce的committer决定从架构上重新设计MapReduce，使下一代的MapReduce(MRv2/Yarn)框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率，以及能支持除了MapReduce计算框架外的更多的计算框架。

MAPREDUCE服务 MRS YARN开发指南（安全模式）
MAPREDUCE服务 MRS-YARN应用开发简介:基本概念

基本概念 ResourceManager（RM） RM是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成：调度器（Scheduler）和应用程序管理器（Applications Manager，ASM）。 ApplicationMaster（AM）用户提交的每个应用程序均包含一个AM，主要功能包括：与RM调度器协商以获取资源（用Container表示）。将得到的资源进一步分配给内部任务。与NM通信以启动/停止任务。监控所有任务的运行状态，并在任务运行失败时重新为任务申请资源以重启任务。 NodeManager（NM） NM是每个节点上的资源和任务管理器，一方面，它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；另一方面，它会接收并处理来自AM的Container启动/停止等各种请求。 Container Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。

MAPREDUCE服务 MRS YARN开发指南（安全模式）
MAPREDUCE服务 MRS-ClickHouse简介:ClickHouse简介

ClickHouse简介 ClickHouse是面向联机分析处理的列式数据库，支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点：数据压缩比高多核并行计算向量化计算引擎支持嵌套数据结构支持稀疏索引支持数据Insert和Update ClickHouse的应用场景：实时数仓场景使用流式计算引擎（如Flink）把实时数据写入ClickHouse，借助ClickHouse的优异查询性能，在亚秒级内响应多维度、多模式的实时查询分析请求。离线查询场景把规模庞大的业务数据导入到ClickHouse，构造数亿至数百亿记录规模、数百以上的维度的大宽表，随时进行个性化统计和持续探索式查询分析，辅助商业决策，具有非常好的查询体验。

MAPREDUCE服务 MRS ClickHouse应用开发简介
MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序（Python）:代码样例

代码样例由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。下面代码片段仅为演示，具体代码参见SparkHivetoHbasePythonExample： # -*- coding:utf-8 -*- from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("SparkHivetoHbase") \ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.SparkHivetoHbase') # 创建类实例并调用方法 spark._jvm.SparkHivetoHbase().hivetohbase(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序
MAPREDUCE服务 MRS-初始化HBase配置:代码样例

代码样例下面代码片段在com.huawei.bigdata.hbase.examples包的“TestMain”类的init方法中。 private static void init() throws IOException { // Default load from conf directory conf = HBaseConfiguration.create(); //In Windows environment String userdir = TestMain.class.getClassLoader().getResource("conf").getPath() + File.separator;[1] //In Linux environment //String userdir = System.getProperty("user.dir") + File.separator + "conf" + File.separator; conf.addResource(new Path(userdir + "core-site.xml"), false); conf.addResource(new Path(userdir + "hdfs-site.xml"), false); conf.addResource(new Path(userdir + "hbase-site.xml"), false); } [1]userdir获取的是编译后资源路径下conf目录的路径。初始化配置用到的core-site.xml、hdfs-site.xml、hbase-site.xml文件，需要放置到"src/main/resources/conf"的目录下。

MAPREDUCE服务 MRS HBase数据读写示例程序
MAPREDUCE服务 MRS-查询Impala数据:样例代码

样例代码 -- 查看薪水支付币种为美元的雇员联系方式. SELECT a.name, b.tel_phone, b.email FROM employees_info a JOIN employees_contact b ON(a.id = b.id) WHERE usd_flag='D'; -- 查询入职时间为2014年的雇员编号、姓名等字段，并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中. INSERT OVERWRITE TABLE employees_info_extended PARTITION (entrytime = '2014') SELECT a.id, a.name, a.usd_flag, a.salary, a.deductions, a.address, b.tel_phone, b.email FROM employees_info a JOIN employees_contact b ON (a.id = b.id) WHERE a.entrytime = '2014'; -- 使用Impala中已有的函数COUNT()，统计表employees_info中有多少条记录. SELECT COUNT(*) FROM employees_info; -- 查询使用以“cn”结尾的邮箱的员工信息. SELECT a.name, b.tel_phone FROM employees_info a JOIN employees_contact b ON (a.id = b.id) WHERE b.email like '%cn';

MAPREDUCE服务 MRS 开发Impala应用
MAPREDUCE服务 MRS-Kafka应用开发流程介绍

Kafka应用开发流程介绍 Kafka客户端角色包括Producer和Consumer两个角色，其应用开发流程是相同的。开发流程中各个阶段的说明如图1和表1所示。图1 Kafka客户端程序开发流程表1 Kafka客户端开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用Java语言进行开发，使用IntelliJ IDEA工具。同时完成JDK、Maven等初始配置。准备本地应用开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接 MRS 集群，配置文件通常包括集群组件信息文件以及用于安全认证的用户文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts 域名信息。准备连接Kafka集群配置文件配置并导入样例工程 Kafka提供了不同场景下的样例程序，您可以导入样例工程进行程序学习。导入并配置Kafka样例工程配置安全认证如果您使用的是开启了Kerberos认证的MRS集群，需要进行安全认证。配置Kafka应用安全认证根据业务场景开发程序提供了Producer和Consumer相关API的使用样例，包含了API和多线程的使用场景，帮助用户快速熟悉Kafka接口。将开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。开发Kafka应用编译与运行程序指导用户将开发好的程序编译并提交运行并查看结果。调测Kafka应用父主题： Kafka开发指南（安全模式）

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MapReduce样例工程介绍

MapReduce样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下MapReduce相关样例工程：表1 MapReduce相关样例工程样例工程位置描述 mapreduce-example-normal MapReduce统计数据的应用开发示例：提供了一个MapReduce统计数据的应用开发示例，通过类CollectionMapper实现数据分析、处理，并输出满足用户需要的数据信息。相关样例介绍请参见MapReduce统计样例程序。 MapReduce作业访问多组件的应用开发示例：以MapReduce访问HDFS、HBase、Hive为例，介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。相关样例介绍请参见MapReduce访问多组件样例程序。父主题： MapReduce开发指南（普通模式）

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Kudu应用开发常用概念:Master

Master Master是中心管理节点，负责管理所有的tablet、tablet server以及副本之间的关联关系。同一时间集群中只有一个acting master（leader master），如果leader master挂了，一个新的master会通过Raft算法选举出来。所有的master数据都存放在一个tablet中，这个tablet会被复制到所有的candidate master上；tablet server会定期向master发送心跳。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-配置Oozie作业操作HDFS文件:参数解释

参数解释 FS Action节点中包含的各参数及其含义，请参见表1。表1 参数含义参数含义 name FS活动的名称 delete 删除指定的文件和目录的标签 move 将文件从源目录移动到目标目录的标签 chmod 修改文件或目录权限的标签 path 当前文件路径 source 源文件路径 target 目标文件路径 permissions 权限字符串 “${变量名}”表示：该值来自“job.properties”所定义。例如：${nameNode}表示的就是“hdfs://hacluster”。（可参见配置Oozie作业运行参数）

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Kudu应用程序开发思路:开发思路

开发思路作为存储引擎，通常情况下会和计算引擎一起协同工作：首先在计算引擎上（比如Impala）用SQL语句创建表对象；然后通过Kudu的驱动往这个表里写数据；于此同时可以在计算引擎上直接查询这个表里的数据。在本开发程序示例中，为了不引入额外的计算引擎，将以Kudu为主，全部通过Java API接口来进行描述：建立Kudu连接创建Kudu表写Kudu数据修改Kudu表删除Kudu表

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-准备ClickHouse应用开发环境

准备ClickHouse应用开发环境在进行应用开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows7以上版本。运行环境：Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。华为提供开源镜像站，各服务样例工程依赖的Jar包通过华为开源镜像站下载，剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载，详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。父主题：准备ClickHouse应用开发环境

MAPREDUCE服务 MRS 准备ClickHouse应用开发环境
MAPREDUCE服务 MRS-Storm对外接口介绍

Storm对外接口介绍 Storm-HDFS采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-hdfs。 Storm-HBase采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-hbase。 Storm-Kafka采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-kafka。 Storm-JDBC采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-jdbc。父主题： Storm应用开发常见问题

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题:问题

问题 Flink任务配置State Backend为RocksDB时，运行报如下错误： Caused by: java.lang.UnsatisfiedLinkError: /srv/BigData/hadoop/data1/nm/usercache/***/appcache/application_****/rocksdb-lib-****/librocksdbjni-linux64.so: /lib64/libpthread.so.0: version `GLIBC_2.12` not found (required by /srv/BigData/hadoop/***/librocksdbjni-linux64.so) at java.lang.ClassLoader$NativeLibrary.load(Native Method) at java.lang.ClassLoader.loadLibrary0(ClassLoader.java:1965) at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1890) at java.lang.Runtime.load0(Runtime.java:795) at java.lang.System.load(System.java:1062) at org.rocksdb.NativeLibraryLoader.loadLibraryFromJar(NativeLibraryLoader.java:78) at org.rocksdb.NativeLibraryLoader.loadLibrary(NativeLibraryLoader.java:56) at org.apache.flink.contrib.streaming.state.RocksDBStateBackend.ensureRocksDBIsLoaded(RocksDBStateBackend.java:734) ... 11 more

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Storm应用开发简介:简介

简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件，每个组件负责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理，可以可靠地处理无限的数据流。 Storm有很多适用的场景：实时分析、在线机器学习、持续计算和分布式ETL等，易扩展、支持容错，可确保数据得到处理，易于构建和操控。 Storm有如下几个特点：适用场景广泛易扩展，可伸缩性高保证无数据丢失容错性好多语言易于构建和操控

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-准备本地应用开发环境

准备本地应用开发环境在进行二次开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows 7以上版本。运行环境：Windows系统或Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置，版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的： X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 用于开发HBase应用程序的工具，版本要求：2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Junit插件开发环境的基本配置。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。华为提供开源镜像站，各服务样例工程依赖的Jar包通过华为开源镜像站下载，剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载，详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件。支持7-Zip 16.04版本。父主题：准备HBase应用开发环境

MAPREDUCE服务 MRS 准备HBase应用开发环境
MAPREDUCE服务 MRS-Storm-JDBC开发指引:应用开发操作步骤

应用开发操作步骤确认产品Storm组件已经安装，且正常运行。参考获取MRS应用开发样例工程，获取样例代码解压目录中“src\storm-examples”目录下的样例工程文件夹storm-examples并将storm-examples导入到IntelliJ IDEA开发环境，参见准备Storm应用开发环境。工程导入后，修改样例工程的“resources/flux-examples”目录下的“jdbc.properties”文件，根据实际环境信息修改相关参数。 #配置JDBC服务端IP地址 JDBC_SERVER_NAME= #配置JDBC服务端端口 JDBC_PORT_NUM= #配置JDBC登录用户名 JDBC_USER_NAME= #配置JDBC登录用户密码 #密码明文存储存在安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全 JDBC_PASSWORD= #配置database表名 JDBC_BASE_TBL= 在Linux环境下安装Storm客户端。集群的Master节点或者Core节点使用客户端可参考集群内节点使用MRS客户端，MRS集群外客户端的安装操作可参考集群外节点使用MRS客户端。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Storm-JDBC开发指引:操作场景

操作场景本文档主要说明如何使用开源Storm-JDBC工具包，完成Storm和JDBC之间的交互。Storm-JDBC中包含两类Bolt：JdbcInsertBolt和JdbcLookupBolt。其中，JdbcLookupBolt主要负责从数据库中查数据，JdbcInsertBolt主要向数据库中存数据。当然，JdbcLookupBolt和JdbcInsertBolt中也可以增加处理逻辑对数据进行处理。本章节只适用Storm与JDBC组件间的访问。本章中描述的jar包的具体版本信息请以实际情况为准。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Storm-JDBC开发指引:数据库配置—Derby数据库配置过程

数据库配置—Derby数据库配置过程首先应下载一个数据库，可根据具体场景选择最适合的数据库。该任务以Derby数据库为例。Derby是一个小型的，java编写的，易于使用却适合大多数应用程序的开放源码数据库。 Derby数据库的获取。在官网下载最新版的Derby数据库，将下载下来的数据库将传入Linux客户端(如"/opt")，并解压。在Derby的安装目录下，进入bin目录，输入如下命令： export DERBY_INSTALL=/opt/db-derby-10.12.1.1-bin export CLASSPATH=$DERBY_INSTALL/lib/derbytools.jar:$DERBY_INSTALL\lib\derbynet.jar:. export DERBY_HOME=/opt/db-derby-10.12.1.1-bin . setNetworkServerCP ./startNetworkServer -h 主机名执行./ij命令，输入connect 'jdbc:derby://主机名:1527/example;create=true';，建立连接。数据库建立好后，可以执行sql语句进行操作，需要建立两张表ORIGINAL和GOAL，并向ORIGINAL中插入一组数据，命令如下：（表名仅供参考，可自行设定） CREATE TABLE GOAL(WORD VARCHAR(12),COUNT INT ); CREATE TABLE ORIGINAL(WORD VARCHAR(12),COUNT INT ); INSERT INTO ORIGINAL VALUES('orange',1),('pineapple',1),('banana',1),('watermelon',1);

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Impala应用开发常用概念

Impala应用开发常用概念客户端客户端直接面向用户，可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录，里面包含通过Java API访问Impala的样例代码。 HiveQL语言 Hive Query Language，类SQL语句，与Hive类似。 Statestore Statestore管理Impala集群中所有的Impalad实例的健康状态，并将实例健康信息广播到所有实例上。当某一个Impalad实例发生故障，比如节点异常、网络异常等，Statestore将通知其他Impalad实例，后续的查询请求等将不会向该实例分发。 Catalog Catalog实例服务将每个Impalad实例上发生的元数据变动同步到集群内其他Impalad实例，从而避免在一个Impalad实例中更改元数据，其他各个实例需要执行REFRESH操作来更新。但是，在Hive中建表、修改表等，则需要执行REFRESH或者INVALIDATE METADATA操作。父主题： Impala应用开发概述

MAPREDUCE服务 MRS Impala应用开发概述

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线