检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
样例工程中的data文件需要放到JDBCServer所在机器的home目录下。 拼接JDBC URL。 val securityConfig = ";saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;user
场景说明 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行数据表的创建、数据加载、查询和删除。 数据规划 确保以HA模式启动了JDBCServer服务,并至少有一个实例对外服务。在hdfs上创建"/home/data"目录,新增包含如下内容的文件并上传到h
ACL时必须提供。 在JDBCServer服务中配置:登录JDBCServer安装节点,在“{BIGDATA_HOME}/FusionInsight_Spark_*/*_JDBCServer/etc/spark-defaults.conf”文件中配置表6相关参数。 表6 JDBCServer服务中的配置参数
使用spark-beeline时,需要登录Manager页面,选择“集群 > 服务 > Spark2x > 配置 > 全部配置”。 在搜索栏中搜索参数“spark.sql.extensions”,修改JDBCServer的spark.sql.extensions参数值为:org.apache
ACL时必须提供。 在JDBCServer服务中配置:登录JDBCServer安装节点,在“{BIGDATA_HOME}/FusionInsight_Spark_*/*_JDBCServer/etc/spark-defaults.conf”文件中配置表6相关参数。 表6 JDBCServer服务中的配置参数
如果没有active_thriftserver目录,执行4。 登录Manager界面,查看Spark的JDBCServer实例的主备状态是否未知。 是,执行5。 否,联系运维人员处理。 重启两个JDBCServer实例,查看主备实例状态恢复正常且zk下面有了目标目录和数据,作业即可恢复正常。若实
在部分场景Spark shuffle阶段会有如下异常 解决方法 JDBC应该: 登录FusionInsight Manager管理界面,修改JDBCServer的参数“spark.authenticate.enableSaslEncryption”值为“false”,并重启对应的实例。 客户端作业:
Executor信息的个数 配置场景 Spark WebUI中“Executor”页面支持展示Lost Executor的信息,对于JDBCServer长任务来说,Executor的动态回收是常态,Lost Executor个数太多,会撑爆“Executor”页面,因此需要控制页面显示的Lost
Executor信息的个数 配置场景 Spark WebUI中“Executor”页面支持展示Lost Executor的信息,对于JDBCServer长任务来说,Executor的动态回收是常态,Lost Executor个数太多,会撑爆“Executor”页面,因此需要控制页面显示的Lost
在部分场景Spark shuffle阶段会有如下异常 解决方法 JDBC应该: 登录FusionInsight Manager管理界面,修改JDBCServer的参数“spark.authenticate.enableSaslEncryption”值为“false”,并重启对应的实例。 客户端作业:
集群安装后使用spark beeline 登录FusionInsight Manager,选择“集群 > 服务 > Spark2x > 配置 > 全部配置”。 在左侧的导航列表中选择“JDBCServer2x > 自定义”。在参数“spark.hdfs-site.customized.configs”中添加配置项“dfs
SQL样例程序开发思路 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。 数据规划 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在JDBCServer节点上分别创建“/home/data”文件,内容如下:
大应用开启日志滚动功能。一般情况下,长时间运行的应用建议打开该功能。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.eventLog.rolling
大应用开启日志滚动功能。一般情况下,长时间运行的应用建议打开该功能。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.eventLog.rolling
工程师、分析师等)更容易访问和操作Hudi。 约束 支持在Hudi客户端执行Spark SQL操作Hudi。 支持在Spark2x的JDBCServer中执行Spark SQL操作Hudi。 不支持在Spark2x的客户端执行Spark SQL操作Hudi,支持在Spark3.1
SQL样例程序开发思路 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。 数据规划 将数据文件上传至HDFS中。 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”,内容如下:
理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 升级路径不一样重启的服务不一样,详情见如下表格。
SQL样例程序开发思路 场景说明 用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。 数据规划 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在JDBCServer节点上分别创建“/home/data”文件,内容如下:
建议使用spark-sql或者在Beeline/JDBCServer模式下使用spark用户来执行INSERT...SELECT操作,避免执行更改文件owner的操作,从而减少执行INSERT...SELECT语句的时间。 在Beeline/JDBCServer模式下,executor的用户
建议使用spark-sql或者在Beeline/JDBCServer模式下使用spark用户来执行INSERT...SELECT操作,避免执行更改文件owner的操作,从而减少执行INSERT...SELECT语句的时间。 在Beeline/JDBCServer模式下,executor的用户