调测Spark应用-华为云

MAPREDUCE服务 MRS-在本地Windows环境中编包并运行Spark程序:操作步骤

操作步骤获取样例代码。下载样例工程的Maven工程源码和配置文件，请参见获取代码样例工程。将样例代码导入IDEA中。获取配置文件。从集群的客户端中获取文件。在“$SPARK_HOME/conf”中下载hive-site.xml与spark-defaults.conf文件到本地。在集群的 FusionInsight Manager页面下载所使用用户的认证文件到本地。在HDFS中上传数据。在Liunx中新建文本文件data，将如下数据内容保存到data文件中。 Miranda,32 Karlie,23 Candice,27 在HDFS客户端，执行如下命令获取安全认证。 cd {客户端安装目录} kinit {用于认证的业务用户} 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /data（hdfs dfs命令有同样的作用），创建对应目录。在Linux系统HDFS客户端使用命令hadoop fs -put data /data，上传数据文件。在样例代码中配置相关参数。认证用户配置。 userPrincipal配置为所使用的用户。 userKeytabPath配置为下载的keytab文件的路径。 Krb5ConfPath配置为下载的krb5.conf文件的路径。域名配置为DEFAULT_REALM，在KerberosUtil类中修改DEFAULT_REALM为集群的域名。将securityConfig拼接的字符串中user.principal与user.keytab修改为相应的用户名与路径。注意这里keytab的路径需要使用“/”。将加载数据的sql语句改为“LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD”。在程序运行时添加运行参数，分别为hive-site.xml与spark-defaults.conf文件的路径。运行程序。

MAPREDUCE服务 MRS 在本地Windows环境中调测Spark应用

MAPREDUCE服务 MRS-在Linux环境中编包并运行Spark程序:操作场景

操作场景在程序代码完成开发后，您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。使用Python开发的Spark应用程序无需打包成jar，只需将样例工程复制到编译机器上即可。用户需保证worker和driver的Python版本一致，否则将报错："Python in worker has different version %s than that in driver %s."。用户需保证Maven已配置华为镜像站中SDK的Maven镜像仓库，具体可参考配置华为开源镜像仓

MAPREDUCE服务 MRS 在Linux环境中调测Spark应用

MAPREDUCE服务 MRS-在Linux环境中查看Spark程序调测结果:操作步骤

操作步骤查看Spark应用运行结果数据。结果数据存储路径和格式已经由Spark应用程序指定，可通过指定文件获取。查看Spark应用程序运行情况。 Spark主要有两个Web页面。 Spark UI页面，用于展示正在执行的应用的运行情况。页面主要包括了Jobs、Stages、Storage、Environment和Executors五个部分。Streaming应用会多一个Streaming标签页。页面入口：在YARN的Web UI界面，查找到对应的Spark应用程序。单击应用信息的最后一列“ApplicationMaster”，即可进入SparkUI页面。 History Server页面，用于展示已经完成的和未完成的Spark应用的运行情况。页面包括了应用ID、应用名称、开始时间、结束时间、执行时间、所属用户等信息。单击应用ID，页面将跳转到该应用的SparkUI页面。查看Spark日志获取应用运行情况。您可以查看Spark日志了解应用运行情况，并根据日志信息调整应用程序。相关日志信息可参考Spark2x日志介绍。

MAPREDUCE服务 MRS 在Linux环境中调测Spark应用

MAPREDUCE服务 MRS-在Linux环境中编包并运行Spark程序:操作场景

操作场景在程序代码完成开发后，您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。使用Python开发的Spark应用程序无需打包成jar，只需将样例工程复制到编译机器上即可。用户需保证worker和driver的Python版本一致，否则将报错："Python in worker has different version %s than that in driver %s."。用户需保证Maven已配置华为镜像站中SDK的Maven镜像仓库，具体可参考配置华为开源镜像仓

MAPREDUCE服务 MRS 在Linux环境中调测Spark应用

MAPREDUCE服务 MRS-在本地Windows环境中编包并运行Spark程序:操作步骤

操作步骤获取样例代码。下载样例工程的Maven工程源码和配置文件，请参见获取代码样例工程。将样例代码导入IDEA中。获取配置文件。从集群的客户端中获取文件。在“$SPARK_HOME/conf”中下载hive-site.xml与spark-defaults.conf文件到本地。在HDFS中上传数据。在Liunx中新建文本文件data，将如下数据内容保存到data文件中。 Miranda,32 Karlie,23 Candice,27 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /data（hdfs dfs命令有同样的作用），创建对应目录。在Linux系统HDFS客户端使用命令hadoop fs -put data /data，上传数据文件。在样例代码中配置相关参数。将加载数据的sql语句改为“LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD”。在程序运行时添加运行参数，分别为hive-site.xml与spark-defaults.conf文件的路径。运行程序。

MAPREDUCE服务 MRS 在本地Windows环境中调测Spark应用

MAPREDUCE服务 MRS-在本地Windows环境中查看Spark程序调试结果

在本地Windows环境中查看Spark程序调试结果 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/mavenlocal/org/apache/logging/log4j/log4j-slf4j-impl/2.6.2/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/D:/mavenlocal/org/slf4j/slf4j-log4j12/1.7.30/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console. ---- Begin executing sql: CREATE TABLE IF NOT EXISTS CHILD (NAME STRING, AGE INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ---- Result ---- Done executing sql: CREATE TABLE IF NOT EXISTS CHILD (NAME STRING, AGE INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ---- ---- Begin executing sql: LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD ---- Result ---- Done executing sql: LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD ---- ---- Begin executing sql: SELECT * FROM child ---- NAME AGE Miranda 32 Karlie 23 Candice 27 ---- Done executing sql: SELECT * FROM child ---- ---- Begin executing sql: DROP TABLE child ---- Result ---- Done executing sql: DROP TABLE child ---- Process finished with exit code 0 父主题：在本地Windows环境中调测Spark应用

MAPREDUCE服务 MRS 在本地Windows环境中调测Spark应用

MAPREDUCE服务 MRS-编包并运行Spark应用:运行“通过JDBC访问Spark SQL”样例程序

运行“通过JDBC访问Spark SQL”样例程序在工程目录下执行mvn package命令生成jar包，在工程目录target目录下获取，比如:FemaleInfoCollection.jar 将生成的Jar包（如CollectFemaleInfo.jar）拷贝到Spark运行环境下（即Spark客户端），如“/opt/female”。开启Kerberos认证的安全集群下把从准备Spark应用开发用户中获取的user.keytab和krb5.conf文件拷贝到Spark客户端conf目录下，如：/opt/client/Spark/spark/conf；未开启Kerberos认证集群可不必拷贝user.keytab和krb5.conf文件。运行“通过JDBC访问Spark SQL”样例程序（Scala和Java语言）。在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例，否则可能会导致任务失败，并可能导致JobHistory部分数据丢失。运行程序时可根据需要选择运行模式： --deploy-mode client：driver进程在客户端运行，运行结果在程序运行后直接输出。 --deploy-mode cluster：driver进程在Yarn的ApplicationMaster（AM）中运行，运行结果和日志在Yarn的WebUI界面输出。进入Spark客户端目录，使用java -cp命令运行代码。 java -cp ${SPARK_HOME}/jars/*:${SPARK_HOME}/conf:/opt/female/SparkThriftServerJavaExample-*.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest ${SPARK_HOME}/conf/hive-site.xml ${SPARK_HOME}/conf/spark-defaults.conf 普通集群需要注释掉安全配置部分代码，详情请参见2和2。上面的命令行中，您可以根据不同样例工程，最小化选择其对应的运行依赖包。样例工程对应的运行依赖包详情，请参见1。

MAPREDUCE服务 MRS 调测Spark应用

MAPREDUCE服务 MRS-编包并运行Spark应用:提交SparkLauncher应用程序

提交SparkLauncher应用程序在工程目录下执行mvn package命令生成jar包，在工程目录target目录下获取，比如:FemaleInfoCollection.jar 将生成的Jar包（如CollectFemaleInfo.jar）拷贝到Spark运行环境下（即Spark客户端），如“/opt/female”。开启Kerberos认证的安全集群下把从准备Spark应用开发用户中获取的user.keytab和krb5.conf文件拷贝到Spark客户端conf目录下，如：/opt/client/Spark/spark/conf；未开启Kerberos认证集群可不必拷贝user.keytab和krb5.conf文件。提交SparkLauncher应用程序。在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例，否则可能会导致任务失败，并可能导致JobHistory部分数据丢失。运行程序时可根据需要选择运行模式： --deploy-mode client：driver进程在客户端运行，运行结果在程序运行后直接输出。 --deploy-mode cluster：driver进程在Yarn的ApplicationMaster（AM）中运行，运行结果和日志在Yarn的WebUI界面输出。 java -cp $SPARK_HOME/jars/*:{JAR_PATH} com.huawei.bigdata.spark.examples.SparkLauncherExample yarn-client {TARGET_JAR_PATH} { TARGET_JAR_MAIN_CLASS} {args} JAR_PATH为SparkLauncher应用程序jar包所在路径。 TARGET_JAR_PATH为待提交的spark application应用程序jar包所在路径。 args为待提交的spark application应用程序的参数。

MAPREDUCE服务 MRS 调测Spark应用

MAPREDUCE服务 MRS-在本地Windows环境中调测Spark应用:编包并运行程序

编包并运行程序获取样例代码。下载样例工程的Maven工程源码和配置文件，请参见获取 MRS 应用开发样例工程。将样例代码导入IDEA中。获取配置文件。从集群的客户端中获取文件。在“$SPARK_HOME/conf”中下载hive-site.xml与spark-defaults.conf文件到本地。在HDFS中上传数据。在Liunx中新建文本文件data，将如下数据内容保存到data文件中。 Miranda,32 Karlie,23 Candice,27 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /data（hdfs dfs命令有同样的作用），创建对应目录。在Linux系统HDFS客户端使用命令hadoop fs -put data /data，上传数据文件。在样例代码中配置相关参数。将加载数据的sql语句改为“LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD”。在程序运行时添加运行参数，分别为hive-site.xml与spark-defaults.conf文件的路径。运行程序。

MAPREDUCE服务 MRS 调测Spark应用

MAPREDUCE服务 MRS-在本地Windows环境中调测Spark应用:查看调试结果

查看调试结果 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/mavenlocal/org/apache/logging/log4j/log4j-slf4j-impl/2.6.2/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/D:/mavenlocal/org/slf4j/slf4j-log4j12/1.7.30/slf4j-log4j12-1.7.30.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console. ---- Begin executing sql: CREATE TABLE IF NOT EXISTS CHILD (NAME STRING, AGE INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ---- Result ---- Done executing sql: CREATE TABLE IF NOT EXISTS CHILD (NAME STRING, AGE INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ---- ---- Begin executing sql: LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD ---- Result ---- Done executing sql: LOAD DATA INPATH 'hdfs:/data/data' INTO TABLE CHILD ---- ---- Begin executing sql: SELECT * FROM child ---- NAME AGE Miranda 32 Karlie 23 Candice 27 ---- Done executing sql: SELECT * FROM child ---- ---- Begin executing sql: DROP TABLE child ---- Result ---- Done executing sql: DROP TABLE child ---- Process finished with exit code 0

MAPREDUCE服务 MRS 调测Spark应用

MAPREDUCE服务 MRS-在Linux环境中调测Spark应用:查看调测结果

查看调测结果 Spark应用程序运行完成后，可通过如下方式查看应用程序的运行情况。通过运行结果数据查看应用程序运行情况。结果数据存储路径和格式已经由Spark应用程序指定，可通过指定文件获取。登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。 Spark UI页面，用于展示正在执行的应用的运行情况。页面主要包括了Jobs、Stages、Storage、Environment和Executors五个部分。Streaming应用会多一个Streaming标签页。页面入口：在YARN的Web UI界面，查找到对应的Spark应用程序。单击应用信息的最后一列“ApplicationMaster”，即可进入SparkUI页面。 History Server页面，用于展示已经完成的和未完成的Spark应用的运行情况。页面包括了应用ID、应用名称、开始时间、结束时间、执行时间、所属用户等信息。单击应用ID，页面将跳转到该应用的SparkUI页面。通过Spark日志获取应用程序运行情况。您可以查看Spark日志了解应用运行情况，并根据日志信息调整应用程序。相关日志信息可参考Spark2x日志介绍。

MAPREDUCE服务 MRS 调测Spark应用

云服务器内容精选

调测Spark应用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线