应用开发-华为云

MAPREDUCE服务 MRS-第三方jar包跨平台（x86、TaiShan）支持:回答

回答第三方jar包（例如自定义udf）区分x86和TaiShan版本时，混合使用方案：进入到服务端spark2x sparkResource的安装目录（这个集群安装过程中可能会安装在多个节点上，随便进入一个安装节点，cd到sparkResource的安装目录）。准备好自己的jar包例如xx.jar的x86版本和TaiShan版本。将x86版本和TaiShan版本的xx.jar分别复制到当前目录的x86文件夹和TaiShan文件夹里面。在当前目录下执行以下命令将jar包打包： zip -qDj spark-archive-2x-x86.zip x86/* zip -qDj spark-archive-2x-arm.zip arm/* 执行以下命令查看hdfs上的spark2x依赖的jar包： hdfs dfs -ls /user/spark2x/jars/8.1.0.1 8.1.0.1是版本号，不同版本不同。执行以下命令移动hdfs上旧的jar包文件到其他目录，例如移动到“tmp”目录。 hdfs dfs -mv /user/spark2x/jars/8.1.0.1/spark-archive-2x-arm.zip /tmp hdfs dfs -mv /user/spark2x/jars/8.1.0.1/spark-archive-2x-x86.zip /tmp 上传3中打包的spark-archive-2x-arm.zip和spark-archive-2x-x86.zip到hdfs的/user/spark2x/jars/8.1.0.1目录下，上传命令如下： hdfs dfs -put spark-archive-2x-arm.zip /user/spark2x/jars/8.1.0.1/ hdfs dfs -put spark-archive-2x-x86.zip /user/spark2x/jars/8.1.0.1/ 上传完毕后删除本地的spark-archive-2x-arm.zip，spark-archive-2x-x86.zip文件。对其他的SparkResource安装节点执行1~2。进入WebUI重启Spark的JD BCS erver实例。重启后，需要更新客户端配置。按照客户端所在的机器类型（x86、TaiShan）复制xx.jar的相应版本到客户端的spark2x安装目录${install_home}/Spark2x/spark/jars文件夹中。${install_home}是用户的客户端安装路径，用户需要填写实际的安装目录；若本地的安装目录为/opt/hadoopclient,那么就复制相应版本xx.jar到/opt/hadoopclient/Spark2x/spark/jars文件夹里。

MAPREDUCE服务 MRS Spark应用开发常见问题

MAPREDUCE服务 MRS-导入并配置Spark样例工程:样例代码路径说明

样例代码路径说明表1 样例代码路径说明样例代码项目样例名称样例语言 SparkJavaExample Spark Core程序 Java SparkScalaExample Spark Core程序 Scala SparkPyhtonExample Spark Core程序 Python SparkSQLJavaExample Spark SQL程序 Java SparkSQLScalaExample Spark SQL程序 Scala SparkSQLPythonExample Spark SQL程序 Python SparkThriftServerJavaExample 通过JDBC访问Spark SQL的程序 Java SparkThriftServerScalaExample 通过JDBC访问Spark SQL的程序 Scala SparkOnHbaseJavaExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Java SparkOnHbaseScalaExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Scala SparkOnHbasePythonExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Python SparkOnHbaseJavaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Java SparkOnHbaseScalaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Scala SparkOnHbasePythonExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Python SparkOnHbaseJavaExample-JavaHBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Java SparkOnHbaseScalaExample-HBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Scala SparkOnHbasePythonExample-HBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Java SparkOnHbaseScalaExample-HBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Scala SparkOnHbasePythonExample-HBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Java SparkOnHbaseScalaExample-HBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Scala SparkOnHbasePythonExample-HBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Java SparkOnHbaseScalaExample-HBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Scala SparkOnHbasePythonExample-HBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Python SparkOnHbaseJavaExample-JavaHBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Java SparkOnHbaseScalaExample-HBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Scala SparkOnHbasePythonExample-HBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Python SparkOnHbaseJavaExample-JavaHBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Java SparkOnHbaseScalaExample-HBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Scala SparkOnHbasePythonExample-HBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Python SparkOnHbaseJavaExample-JavaHBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Java SparkOnHbaseScalaExample-HBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Scala SparkOnHbasePythonExample-HBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Python SparkOnHbaseJavaExample-JavaHBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Java SparkOnHbaseScalaExample-HBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Scala SparkOnHbasePythonExample-HBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Python SparkHbasetoHbaseJavaExample 从HBase读取数据再写入HBase Java SparkHbasetoHbaseScalaExample 从HBase读取数据再写入HBase Scala SparkHbasetoHbasePythonExample 从HBase读取数据再写入HBase Python SparkHivetoHbaseJavaExample 从Hive读取数据再写入HBase Java SparkHivetoHbaseScalaExample 从Hive读取数据再写入HBase Scala SparkHivetoHbasePythonExample 从Hive读取数据再写入HBase Python SparkStreamingKafka010JavaExample Spark Streaming对接Kafka0-10程序 Java SparkStreamingKafka010ScalaExample Spark Streaming对接Kafka0-10程序 Scala SparkStructuredStreamingJavaExample Structured Streaming程序 Java SparkStructuredStreamingScalaExample Structured Streaming程序 Scala SparkStructuredStreamingPythonExample Structured Streaming程序 Python StructuredStreamingADScalaExample Structured Streaming流流Join Scala StructuredStreamingStateScalaExample Structured Streaming 状态操作 Scala SparkOnHudiJavaExample 使用Spark执行Hudi基本操作 Java SparkOnHudiPythonExample 使用Spark执行Hudi基本操作 Python SparkOnHudiScalaExample 使用Spark执行Hudi基本操作 Scala

MAPREDUCE服务 MRS 准备Spark应用开发环境

应用平台 APPSTAGE-方案概述:解决方案

解决方案一站式使用应用平台流程如图1所示。图1 使用流程表1 使用流程详解序号流程环节说明 1 准备工作将应用接入AppStage前需要依次完成购买AppStage、关联组织、配置服务授权、关联CodeArts、配置凭证授权、添加组织的部门/成员信息、录入产品/服务/微服务信息和申请权限。 2 应用开发配置开发团队及服务扩展信息添加开发中心用户开发中心的用户数根据购买规格有相应的用户数量限制，组织管理员通过用户的添加或删除来合理管理开发中心的使用人员。创建团队在开发中心进行服务开发前，需要组织管理员先创建一个团队，将团队关联需要开发的服务。服务配置将团队关联服务后，还需将团队关联的服务关联CodeArts项目，后续的服务开发管理过程中才能正常使用CodeArts服务的代码托管、流水线、编译构建功能。添加团队成员在团队多用户协作开发过程中，不同角色成员执行各自权限和责任事项，因此需要在团队中添加协作开发的各角色成员（项目经理、开发人员、测试人员等），实现统一有序的成员信息管理。创建及规划版本创建版本对团队所关联的服务划分版本，包括创建版本的基本配置信息以及选择版本开始和结束时间。规划交付件在版本开发启动初期对产品开发过程所需的交付件进行规划，以辅助开发过程规范有序且可追溯。开发版本创建代码仓使用代码托管内置的仓库模板创建代码管理的仓库。下载代码基于Git的代码托管服务，支持将仓库文件下载到本地进行文件的操作。安装插件开发人员可下载所需的开发工具，如WiseStudio 插件、Nuwa 插件、Wushan 插件后进行安装。开发代码开发代码的详细指导请参见《开发指南》。提交代码到代码仓开发在本地完成业务代码后，需要提交代码文件至代码仓库。代码安全检视进行安全编码TOP问题的信息统计和检查结果录入。管理交付件管理版本开发过程不同阶段所需或交付的必要文档，保证版本开发过程阶段性成果沉淀以及过程可追溯。构建版本根据需要的场景，如开发测试环境应用部署、生产环境应用部署等，对这些自动化任务进行自定义编排，一次配置后就可以一键自动化触发调度执行。测试版本对于版本测试过程发现的缺陷进行记录、跟踪、分析和解决，包括管理版本缺陷、管理测试结论以及管理关键风险等。编辑总体测试结论、系统预置的测试类型结论，新增和管理自定义测试类型的测试结论，以及新增和管理版本关键风险问题。发布版本待版本开发及编译构建完成，且发布准入检查项均通过后，可由开发人员、测试人员或项目经理提交标准发布申请，待项目经理审批通过后，将软件发布到对应的部署平台。 3 应用部署服务环境配置使用AppStage运维中心前需要先准备环境并为服务关联区域、账号和企业项目。申请资源应用部署需要使用虚拟机、CCE、数据库等相关资源，您可以申请资源，或者在华为云购买资源后，将资源接入AppStage。更新环境开发完成的应用软件包，通过流水线发布，可以发布至运维中心的部署服务中，使用部署服务完成应用部署。 4 应用运维数据接入虚拟机日志接入支持通过部署filebeat完成虚拟机日志采集。日志接入后，可以对日志进行检索，查看已接入日志，具体操作请参见日志检索。容器日志接入支持将容器日志接入AppStage运维中心。日志接入后，可以对日志进行检索，查看已接入日志，具体操作请参见日志检索。主机监控接入支持定义服务的监控模板，然后通过为主机绑定监控模板，采集主机监控数据。 CES 指标接入支持将云监控服务 CES采集的监控指标数据接入至AppStage运维中心，如需将CES生成的告警接入AppStage运维中心，可参考CES告警接入操作。运维监控指标开发对已产生或接入的数据进行指标开发监控报表开发对已创建的指标或视图数据进行业务报表开发。配置后可以查看业务报表监控，具体操作请参见查看业务报表。告警配置支持对虚拟机监控数据或业务数据配置告警，及时掌握虚拟机状态，容器接入并安装监控插件后会自动生成告警。告警配置后可以查看告警，并及时处理告警问题，具体操作请参见查看告警。

应用平台 APPSTAGE 一站式应用开发、应用托管以及应用运维

应用平台 APPSTAGE-方案概述:背景信息

背景信息应用平台以“应用”为中心，基于云原生技术，打造了覆盖应用开发、托管、运维全生命周期支持的应用平台，面向企业IT应用、移动应用等提供一站式、集成式的云原生应用服务能力，支持开箱即用，全流程规范可视，高效异地协作，是沉淀行业通用能力，结合华为优秀实践，为产业上云及行业SaaS构建的竞争力底座。开发应用主要使用AppStage的开发中心，其深度集成CodeArts的功能，购买AppStage后需开通CodeArts后才能使用开发中心，请在AppStage购买页面根据页面提示，前往开通CodeArts地址进行开通。

应用平台 APPSTAGE 一站式应用开发、应用托管以及应用运维

应用平台 APPSTAGE-开发版本:步骤二：下载代码

步骤二：下载代码下载代码是AppStage集成代码托管CodeArts Repo服务的能力，基于Git的代码托管服务，支持将仓库文件下载到本地进行文件的操作。该操作需要具备开发人员角色权限，权限申请方法请参见申请权限。在开发中心左侧导航栏，选择“代码仓管理”。首次将仓库克隆/下载到本地的方式主要分为以下三种：使用SSH协议克隆代码托管仓库到本地。使用HTTPS协议克隆代码托管仓库到本地。从浏览器下载代码包。

应用平台 APPSTAGE 应用开发

MAPREDUCE服务 MRS-Alluxio常用概念:Client

Client Alluxio Client主要包括三种方式：Java API、Shell、HTTP REST API。 Java API 提供Alluxio文件系统的应用接口，本开发指南主要介绍如何使用Java API进行Alluxio客户端的开发。 Shell 提供shell命令完成Alluxio文件系统的基本操作。 HTTP REST API 提供除Shell、Java API以外的其他接口，可通过此接口查询信息，具体请参考Alluxio API接口介绍。

MAPREDUCE服务 MRS Alluxio应用开发概述

MAPREDUCE服务 MRS-Kafka应用开发常用概念

Kafka应用开发常用概念 Topic Kafka维护的同一类的消息称为一个Topic。 Partition 每一个Topic可以被分为多个Partition，每个Partition对应一个可持续追加的、有序不可变的log文件。 Producer 将消息发往Kafka topic中的角色称为Producer。 Consumer 从Kafka topic中获取消息的角色称为Consumer。 Broker Kafka集群中的每一个节点服务器称为Broker。父主题： Kafka应用开发概述

MAPREDUCE服务 MRS Kafka应用开发概述

MAPREDUCE服务 MRS-Flink Client CLI介绍:常用CLI

常用CLI Flink常用的CLI如下所示： yarn-session.sh 可以使用yarn-session.sh启动一个常驻的Flink集群，接受来自客户端提交的任务。启动一个有3个TaskManager实例的Flink集群示例如下： bin/yarn-session.sh -n 3 yarn-session.sh的其他参数可以通过以下命令获取： bin/yarn-session.sh -help Flink 使用flink命令可以提交Flink作业，作业既可以被提交到一个常驻的Flink集群上，也可以使用单机模式运行。提交到常驻Flink集群上的一个示例如下： bin/flink run examples/streaming/WindowJoin.jar 用户在用该命令提交任务前需要先用yarn-session启动Flink集群。以单机模式运行作业的一个示例如下： bin/flink run -m yarn-cluster -yn 2 examples/streaming/WindowJoin.jar 通过参数-m yarn-cluster使作业以单机模式运行，-yn表示TaskManager的数量。 flink脚本的其他参数可以通过以下命令获取： bin/flink --help

MAPREDUCE服务 MRS Flink应用开发常见问题

MAPREDUCE服务 MRS-Flink Client CLI介绍:注意事项

注意事项如果yarn-session.sh使用-z配置特定的zookeeper的namespace，则在使用flink run时必须使用-yid指出applicationID，使用-yz指出zookeeper的namespace，前后namespace保持一致。举例： bin/yarn-session.sh -n 3 -z YARN101 bin/flink run -yid application_****_**** -yz YARN101 examples/streaming/WindowJoin.jar 如果yarn-session.sh不使用-z配置特定的zookeeper的namespace，则在使用flink run时不要使用-yz指定特定的zookeeper的namespace。举例： bin/yarn-session.sh -n 3 bin/flink run examples/streaming/WindowJoin.jar 如果使用flink run -m yarn-cluster时启动集群则可以使用-yz指定一个zookeeper的namespace。不能同时启动两个或两个以上的集群来共享一个namespace。用户在启动集群或提交作业时如果使用了-z配置项，则在删除、停止及查询作业、触发savepoint时也要使用-z配置项指明namespace。

MAPREDUCE服务 MRS Flink应用开发常见问题

MAPREDUCE服务 MRS-Presto应用开发流程介绍

Presto应用开发流程介绍开发流程中各阶段的说明如图1和表1所示。图1 Presto应用程序开发流程表1 Presto应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解Presto的基本概念。 Presto应用开发常用概念准备开发和运行环境 Presto的应用程序支持使用Java进行开发。推荐使用Eclipse工具，请根据指导完成开发环境配置。 Presto应用开发环境简介根据场景开发工程提供了Java语言的样例工程和数据查询的样例工程。 Presto样例程序开发思路运行程序及查看结果指导用户将开发好的程序编译提交运行并查看结果。 JDBC客户端运行及结果查看父主题： Presto应用开发概述

MAPREDUCE服务 MRS Presto应用开发概述

MAPREDUCE服务 MRS-Storm应用开发简介:简介

简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件，每个组件负责处理一项简单特定的任务。Storm的目标是提供对大数据流的实时处理，可以可靠地处理无限的数据流。 Storm有很多适用的场景：实时分析、在线机器学习、持续计算和分布式ETL等，易扩展、支持容错，可确保数据得到处理，易于构建和操控。 Storm有如下几个特点：适用场景广泛易扩展，可伸缩性高保证无数据丢失容错性好多语言易于构建和操控

MAPREDUCE服务 MRS Storm应用开发概述

MAPREDUCE服务 MRS-准备Eclipse与JDK:操作步骤

操作步骤安装Eclipse程序。安装要求Eclipse使用3.0及以上版本。安装JDK程序。安装要求JDK使用1.7及或者1.8版本，支持IBM JDK和Oracle JDK。若使用IBM JDK，请确保Eclipse中的JDK配置为IBM JDK。若使用Oracle JDK，请确保Eclipse中的JDK配置为Oracle JDK。不同的Eclipse不要使用相同的workspace和相同路径下的示例工程。

MAPREDUCE服务 MRS 准备Storm应用开发环境

MAPREDUCE服务 MRS-准备本地应用开发环境:准备运行调测环境

准备运行调测环境在弹性云服务器管理控制台，申请一个新的弹性云服务器，用于应用开发、运行、调测。弹性云服务器的安全组需要和 MRS 集群Master节点的安全组相同。弹性云服务器的VPC需要与MRS集群在同一个VPC中。弹性云服务器的网卡需要与MRS集群在同一个网段中。申请弹性IP，绑定新申请的E CS 的IP，并配置安全组出入规则。下载客户端程序，请参考下载MRS客户端。登录存放下载的客户端的节点，再安装客户端。执行以下命令解压客户端包： cd /opt tar -xvf /opt/MRS_Services_Client.tar 执行以下命令校验安装文件包： sha256sum -c /opt/MRS_Services_ClientConfig.tar.sha256 MRS_Services_ClientConfig.tar:OK 执行以下命令解压安装文件包： tar -xvf /opt/MRS_Services_ClientConfig.tar 执行如下命令安装客户端到指定目录（绝对路径），例如“/opt/client”。目录会自动创建。 cd /opt/MRS_Services_ClientConfig sh install.sh /opt/client Components client installation is complete.

MAPREDUCE服务 MRS 准备HBase应用开发环境

MAPREDUCE服务 MRS-Storm接口介绍

Storm接口介绍 Storm采用的接口同开源社区版本保持一致，详情请参见： http://storm.apache.org/documentation/Home.html。 Storm-HDFS采用的接口同开源社区版本保持一致，详情参见： https://github.com/apache/storm/tree/v0.10.0/external/storm-hdfs。 Storm-HBase采用的接口同开源社区版本保持一致，详情参见： https://github.com/apache/storm/tree/v0.10.0/external/storm-hbase。 Storm-Kafka采用的接口同开源社区版本保持一致，详情参见： https://github.com/apache/storm/tree/v0.10.0/external/storm-kafka。 Storm-JDBC采用的接口同开源社区版本保持一致，详情参见： https://github.com/apache/storm/tree/v0.10.0/external/storm-jdbc。父主题： Storm应用开发常见问题

MAPREDUCE服务 MRS Storm应用开发常见问题

MAPREDUCE服务 MRS-Hive应用开发环境简介

Hive应用开发环境简介在进行应用开发时，要准备的本地开发环境如表1所示。同时需要准备运行调测的Linux环境，用于验证应用程序运行正常。表1 开发环境准备项说明操作系统开发环境：Windows系统，推荐Windows7以上版本。运行环境：Linux系统。安装JDK 开发和运行环境的基本配置。版本要求如下： MRS集群的服务端和客户端仅支持自带的Oracle JDK（版本为1.8），不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的，支持Oracle JDK和IBM JDK。 Oracle JDK：支持1.7和1.8版本。 IBM JDK：推荐1.7.8.10、1.7.9.40和1.8.3.0版本。说明：在HCatalog的开发环境中，基于安全考虑，MRS服务端只支持TLS 1.1和TLS 1.2加密协议，IBM JDK默认TLS只支持1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS1.0/1.1/1.2。详情请参见：https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置Eclipse 用于开发Hive应用程序的工具。版本要求如下： JDK使用1.7版本，Eclipse使用3.7.1及以上版本。 JDK使用1.8版本，Eclipse使用4.3.2及以上版本。说明：若使用IBM JDK，请确保Eclipse中的JDK配置为IBM JDK。若使用Oracle JDK，请确保Eclipse中的JDK配置为Oracle JDK。不同的Eclipse不要使用相同的workspace和相同路径下的示例工程。网络确保客户端与Hive服务主机在网络上互通。父主题：准备Hive应用开发环境

MAPREDUCE服务 MRS 准备Hive应用开发环境

云服务器内容精选

应用开发

7*24

备案

专业服务

退订

建议反馈

售前咨询热线