MAPREDUCE服务 MRS-Spark Java API接口介绍:Spark SQL常用接口

时间:2024-10-22 10:49:50

Spark SQL常用接口

Spark SQL中重要的类有:

  • SQLContext:是Spark SQL功能和DataFrame的主入口。
  • DataFrame:是一个以命名列方式组织的分布式数据集
  • DataFrameReader:从外部存储系统加载DataFrame的接口。
  • DataFrameStatFunctions:实现DataFrame的统计功能。
  • UserDefinedFunction:用户自定义的函数。

常见的Actions方法有:

表6 Spark SQL方法介绍

方法

说明

Row[] collect()

返回一个数组,包含DataFrame的所有列。

long count()

返回DataFrame的行数。

DataFrame describe(java.lang.String... cols)

计算统计信息,包含计数,平均值,标准差,最小值和最大值。

Row first()

返回第一行。

Row[] head(int n)

返回前n行。

void show()

用表格形式显示DataFrame的前20行。

Row[] take(int n)

返回DataFrame中的前n行。

表7 基本的DataFrame Functions介绍

方法

说明

void explain(boolean extended)

打印出SQL语句的逻辑计划和物理计划。

void printSchema()

打印schema信息到控制台。

registerTempTable

将DataFrame注册为一张临时表,其周期和SQLContext绑定在一起。

DataFrame toDF(java.lang.String... colNames)

返回一个列重命名的DataFrame。

DataFrame sort(java.lang.String sortCol,java.lang.String... sortCols)

根据不同的列,按照升序或者降序排序。

GroupedData rollup(Column... cols)

对当前的DataFrame特定列进行多维度的回滚操作。

support.huaweicloud.com/devg-lts-mrs/mrs_07_200137.html