MAPREDUCE服务 MRS-Spark Java API接口介绍:Spark SQL常用接口
Spark SQL常用接口
Spark SQL中重要的类有:
- SQLContext:是Spark SQL功能和DataFrame的主入口。
- DataFrame:是一个以命名列方式组织的分布式数据集
- DataFrameReader:从外部存储系统加载DataFrame的接口。
- DataFrameStatFunctions:实现DataFrame的统计功能。
- UserDefinedFunction:用户自定义的函数。
常见的Actions方法有:
方法 |
说明 |
---|---|
Row[] collect() |
返回一个数组,包含DataFrame的所有列。 |
long count() |
返回DataFrame的行数。 |
DataFrame describe(java.lang.String... cols) |
计算统计信息,包含计数,平均值,标准差,最小值和最大值。 |
Row first() |
返回第一行。 |
Row[] head(int n) |
返回前n行。 |
void show() |
用表格形式显示DataFrame的前20行。 |
Row[] take(int n) |
返回DataFrame中的前n行。 |
方法 |
说明 |
---|---|
void explain(boolean extended) |
打印出SQL语句的逻辑计划和物理计划。 |
void printSchema() |
打印schema信息到控制台。 |
registerTempTable |
将DataFrame注册为一张临时表,其周期和SQLContext绑定在一起。 |
DataFrame toDF(java.lang.String... colNames) |
返回一个列重命名的DataFrame。 |
DataFrame sort(java.lang.String sortCol,java.lang.String... sortCols) |
根据不同的列,按照升序或者降序排序。 |
GroupedData rollup(Column... cols) |
对当前的DataFrame特定列进行多维度的回滚操作。 |