华为云首页用户手册

MapReduce服务 MRS-Spark CBO调优:操作步骤

MapReduce服务 MRS-Spark CBO调优:操作步骤

时间：2025-01-26 10:39:20

MapReduce服务 MRS Spark应用调优

操作步骤

Spark CBO的设计思路是，基于表和列的统计信息，对各个操作算子（Operator）产生的中间结果集大小进行估算，最后根据估算的结果来选择最优的执行计划。

设置配置项。
- 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo”，将其设置为true，默认为false。
- 在客户端执行SQL语句set spark.sql.cbo=true进行配置。
执行统计信息生成命令，得到统计信息。

此步骤只需在运行所有SQL前执行一次。如果数据集发生了变化（插入、更新或删除），为保证CBO的优化效果，需要对有变化的表或者列再次执行统计信息生成命令重新生成统计信息，以得到最新的数据分布情况。
- 表：执行COMPUTE STATS FOR TABLE src命令计算表的统计信息，统计信息包括记录条数、文件数和物理存储总大小。
- 列：
  - 执行COMPUTE STATS FOR TABLE src ON COLUMNS命令计算所有列的统计信息。
  - 执行COMPUTE STATS FOR TABLE src ON COLUMNS name,age命令计算表中name和age两个字段的统计信息。
    当前列的统计信息支持四种类型：数值类型、日期类型、时间类型和字符串类型。对于数值类型、日期类型和时间类型，统计信息包括：Max、Min、不同值个数(Number of Distinct Value,NDV)、空值个数(Number of Null)和Histogram（支持等宽、等高直方图）；对于字符串类型，统计信息包括：Max、Min、Max Length、Average Length、不同值个数(Number of Distinct Value,NDV)、空值个数(Number of Null)和Histogram（支持等宽直方图）。
CBO调优
- 自动优化：用户根据自己的业务场景，输入SQL语句查询，程序会自动去判断输入的SQL语句是否符合优化的场景，从而自动选择Join优化算法。
- 手动优化：用户可以通过DESC FORMATTED src命令查看统计信息，根据统计信息的分布，人工优化SQL语句。

上一篇：MapReduce服务 MRS-Storm应用开发简介:简介

下一篇：MapReduce服务 MRS-Storm应用开发简介:简介

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

MapReduce服务 MRS-Spark CBO调优:操作步骤

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题