MAPREDUCE服务 MRS-Spark应用开发简介:Spark SQL常用概念

时间:2024-10-22 10:49:51

Spark SQL常用概念

DataSet

DataSet是一个由特定域的对象组成的强类型集合,可通过功能或关系操作并行转换其中的对象。 每个Dataset还有一个非类型视图,即由多个列组成的DataSet,称为DataFrame。

DataFrame是一个由多个列组成的结构化的分布式数据集合,等同于关系数据库中的一张表,或者是R/Python中的data frame。DataFrame是Spark SQL中的最基本的概念,可以通过多种方式创建,例如结构化的数据集、Hive表、外部数据库或者是RDD。

support.huaweicloud.com/devg-lts-mrs/mrs_07_410002.html