搜索_华为云

优化小文件场景下的Spark SQL性能 - MapReduce服务 MRS

在小文件场景下，您可以通过如下配置手动指定每个Task的数据量（Split Size），确保不会产生过多的Task，提高性能。当SQL逻辑中不包含Shuffle操作时，设置此配置项，不会有明显的性能提升。配置描述要启动小文件优化，在Spark客户端的“spark-defaults.conf”配置文件中进行设置。

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark SQL性能调优
配置parquet表的压缩格式 - MapReduce服务 MRS

配置parquet表的压缩格式配置场景当前版本对于parquet表的压缩格式分以下两种情况进行配置：对于分区表，需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties："parquet

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark Core企业级能力增强
配置Spark表、列和数据库的用户权限 - MapReduce服务 MRS

据库授权三个场景下的操作。操作步骤 SparkSQL表授权、列授权、数据库授权与Hive的操作相同，详情请参见Hive用户权限管理。在权限管理中，为了方便用户使用，授予数据库下表的任意权限将自动关联该数据库目录的HDFS权限。为了避免产生性能问题，取消表的任意权限，系统不会自

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark用户权限管理
获取运行中Spark应用的Container日志 - MapReduce服务 MRS

获取运行中Spark应用的Container日志运行中Spark应用的Container日志分散在多个节点中，本章节用于说明如何快速获取Container日志。场景说明可以通过yarn logs命令获取运行在Yarn上的应用的日志，针对不同的场景，可以使用以下命令获取需要的日志：获取

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark运维管理
访问Spark应用获取的restful接口信息有误 - MapReduce服务 MRS

访问Spark应用获取的restful接口信息有误问题当Spark应用结束后，访问该应用的restful接口获取job信息，发现job信息中“numActiveTasks”的值是负数，如图1所示。图1 job信息 numActiveTasks是指当前正在运行task的个数。回答通过下面两种途径获取上面的job信息：

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark故障排除
优化Flink内存GC参数 - MapReduce服务 MRS

ink的执行效率影响很大。可以通过监控GC（Garbage Collection），评估内存使用及剩余情况来判断内存是否变成性能瓶颈，并根据情况优化。监控节点进程的YARN的Container GC日志，如果频繁出现Full GC，需要优化GC。 GC的配置：在客户端的“conf/flink-conf

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Flink > Flink性能调优
场景说明 - MapReduce服务 MRS
场景说明 - MapReduce服务 MRS

用户自定义JDBCServer的客户端，使用JDBC连接来进行数据表的创建、数据加载、查询和删除。数据规划确保以HA模式启动了JDBCServer服务，并至少有一个实例对外服务。在hdfs上创建"/home/data"目录，新增包含如下内容的文件并上传到hdfs的"/home/data"目录下。

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > 开发Spark应用 > 通过JDBC访问Spark SQL的程序
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值（2.x及以前版本） - MapReduce服务 MRS

连接到HiveServer的session数占最大允许数的百分比超过阈值（2.x及以前版本）告警解释系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比，该指标可在Hive服务监控界面查看。连接到HiveServer的sess

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
Scala样例代码 - MapReduce服务 MRS
Scala样例代码 - MapReduce服务 MRS

+= "DROP TABLE child" 样例工程中的data文件需要放到JDBCServer所在机器的home目录下保证本地的data文件和创建的表的所属的用户和用户组保持一致拼接JDBC URL。 HA模式下url的host和port必须为“ha-cluster”。普通集群需要将样例代码中com

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > 开发Spark应用 > 通过JDBC访问Spark SQL的程序
多级嵌套子查询以及混合Join的SQL调优 - MapReduce服务 MRS

多级嵌套子查询以及混合Join的SQL调优操作场景本章节介绍在多级嵌套以及混合Join SQL查询的调优建议。前提条件例如有一个复杂的查询样例如下： select s_name, count(1) as numwait from ( select s_name from (

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL性能调优
配置Spark表、列和数据库的用户权限 - MapReduce服务 MRS

据库授权三个场景下的操作。操作步骤 SparkSQL表授权、列授权、数据库授权与Hive的操作相同，详情请参见Hive用户权限管理。在权限管理中，为了方便用户使用，授予数据库下表的任意权限将自动关联该数据库目录的HDFS权限。为了避免产生性能问题，取消表的任意权限，系统不会自

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark用户权限管理
Python样例代码 - MapReduce服务 MRS

功能简介通过连接zookeeper上的对应znode获取到当前主JDBCServer的IP和PORT，然后使用pyhive连接到这个JDBCServer，从而实现在JDBCServer-ha模式下，出现主备倒换后不需要修改代码依旧就能直接访问新的主JDBCServer服务。该功能

 帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > 开发Spark应用 > 通过JDBC访问Spark SQL的程序
Java样例代码 - MapReduce服务 MRS
Java样例代码 - MapReduce服务 MRS

child"); executeSql(url, sqlList); 样例工程中的data文件需要放到HDFS上的home目录下保证data文件和创建的表的所属的用户和用户组保持一致拼接JDBC URL。 HA模式下url的host和port必须为“ha-cluster”。普通集群需要将样例代码中com

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > 开发Spark应用 > 通过JDBC访问Spark SQL的程序
SparkSQL建表时的目录权限 - MapReduce服务 MRS

code=0) 回答 Spark SQL建表底层调用的是Hive的接口，其建表时会在“/user/hive/warehouse”目录下新建一个以表名命名的目录，因此要求用户具备“/user/hive/warehouse”目录的读写、执行权限或具有Hive的group权限。 “/user/hiv

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark常见问题 > SQL和DataFrame
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 - MapReduce服务 MRS

在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录问题系统长时间运行后，在客户端安装节点的/tmp目录下，发现残留了很多blockmgr-开头和spark-开头的目录。图1 残留目录样例回答 Spark任务在运行过程中，driver会

 帮助中心 > MapReduce服务 MRS > 开发指南（LTS版） > Spark2x开发指南（普通模式） > Spark应用开发常见问题
访问Spark应用的聚合日志页面报“DNS查找失败”错误 - MapReduce服务 MRS

访问Spark应用的聚合日志页面报“DNS查找失败”错误问题采用http(s)://<spark ip>:<spark port>的方式直接访问Spark JobHistory页面时，如果当前跳转的Spark JobHistory页面不是FusionInsight代理的页面（Fus

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark常见问题 > Spark Core
在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象 - MapReduce服务 MRS

数到达保留的上限值（当前默认值为1000个），旧的UI数据才会在内存中被清除。因此，在将旧的UI数据从内存中清除之前，UI数据会占用大量内存，从而导致执行10T的TPCDS测试套时出现Driver内存不足的现象。规避措施：根据业务需要，配置合适的需要保留的Job和Stage的UI数据个数，即配置“spark

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark常见问题 > SQL和DataFrame
从checkpoint恢复spark应用的限制 - MapReduce服务 MRS

从checkpoint恢复spark应用的限制问题 Spark应用可以从checkpoint恢复，用于从上次任务中断处继续往下执行，以保证数据不丢失。但是，在某些情况下，从checkpoint恢复应用会失败。回答由于checkpoint中包含了spark应用的对象序列化信息、task执行

 帮助中心 > MapReduce服务 MRS > 开发指南（LTS版） > Spark2x开发指南（普通模式） > Spark应用开发常见问题
运行Spark Streaming任务参数调优的注意事项 - MapReduce服务 MRS

时，实际使用的executor个数和partition个数相同，其余的将会被空闲。所以应该使得executor个数小于或者等于partition个数。当Kafka上不同partition数据有倾斜时，数据较多的partition对应的executor将成为数据处理的瓶颈，所以在

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark常见问题 > Spark Streaming
如何处理自动加载的依赖包 - MapReduce服务 MRS

如何处理自动加载的依赖包问题在使用IDEA导入工程前，如果IDEA工具中已经进行过Maven配置时，会导致工具自动加载Maven配置中的依赖包。当自动加载的依赖包与应用程序不配套时，导致工程Build失败。如何处理自动加载的依赖包？回答建议在导入工程后，手动删除自动加载的依赖。步骤如下。

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > Spark应用开发常见问题

总条数： 3151

上一页
1
...
5
6
7
...
158
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

优化小文件场景下的Spark SQL性能 - MapReduce服务 MRS

配置parquet表的压缩格式 - MapReduce服务 MRS

配置Spark表、列和数据库的用户权限 - MapReduce服务 MRS

获取运行中Spark应用的Container日志 - MapReduce服务 MRS

访问Spark应用获取的restful接口信息有误 - MapReduce服务 MRS

优化Flink内存GC参数 - MapReduce服务 MRS

场景说明 - MapReduce服务 MRS

ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值（2.x及以前版本） - MapReduce服务 MRS

Scala样例代码 - MapReduce服务 MRS

多级嵌套子查询以及混合Join的SQL调优 - MapReduce服务 MRS

配置Spark表、列和数据库的用户权限 - MapReduce服务 MRS

Python样例代码 - MapReduce服务 MRS

Java样例代码 - MapReduce服务 MRS

SparkSQL建表时的目录权限 - MapReduce服务 MRS

在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 - MapReduce服务 MRS

访问Spark应用的聚合日志页面报“DNS查找失败”错误 - MapReduce服务 MRS

在Beeline/JDBCServer模式下连续运行10T的TPCDS测试套会出现内存不足的现象 - MapReduce服务 MRS

从checkpoint恢复spark应用的限制 - MapReduce服务 MRS

运行Spark Streaming任务参数调优的注意事项 - MapReduce服务 MRS

如何处理自动加载的依赖包 - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线