数据湖探索 DLI-使用DLI将CSV数据转换为Parquet数据:步骤2:使用DLI将CSV数据转换为Parquet数据

时间:2024-04-30 09:46:21

步骤2:使用 DLI CS V数据转换为Parquet数据

  1. 在DLI控制台总览页面左侧,单击“SQL编辑器”,进入SQL作业编辑器页面。
  2. 在SQL作业编辑器左侧,选择“数据库”页签,单击创建名字为demo的数据库。
  3. 在DLI的SQL编辑窗口,执行引擎选择“spark”,队列选择“default”,数据库选择为“demo”。输入以下建表语句,创建OBS表test_csv_hw并导入test.csv数据。
    create table test_csv_hw(id1 int, id2 int, id3 int, id4 int, id5 int)
     using csv
     options(
     path 'obs://obs-csv-parquet/test.csv'
     )
  4. 在DLI的SQL编辑窗口,执行以下语句可以查询表test_csv_hw中的数据。
    图4 查询表test_csv_hw
  5. 在DLI的SQL编辑窗口中创建OBS表test_parquet_hw。
    create table `test_parquet_hw` (`id1` INT, `id2` INT, `id3` INT, `id4` INT, `id5` INT)
    using parquet
    options (
    path 'obs://obs-parquet-data/'
    )

    不需要指明具体的文件,因为在将数据从CSV格式转换为Parquet格式之前,不存在任何Parquet文件。

  6. 在DLI的SQL编辑窗口中将CSV数据转换为Parquet数据并存储在OBS中。
    insert into test_parquet_hw select * from test_csv_hw
  7. 检查结果,如图5所示,系统自动创建了一个文件用于保存结果。
    图5 保存Parquet数据
support.huaweicloud.com/bestpractice-dli/dli_05_0014.html