数据治理中心 DATAARTS STUDIO-步骤1:数据准备:数据湖准备

时间:2024-11-12 17:25:41

数据湖 准备

在本示例中,选择 数据湖探索 DLI )服务作为数据湖。为确保 DataArts Studio 与DLI网络互通,在创建DLI队列时区域和企业项目应与DataArts Studio实例保持一致。

  • 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。
  • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

开通DLI服务后,您需要在管理中心创建DLI连接,然后通过数据开发组件新建数据库,再执行SQL来创建OBS外表。操作步骤如下:

  1. 参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
  3. “数据连接”页面,单击“创建数据连接”按钮。

    图1 数据连接

  4. 创建一个到DLI的连接,数据连接类型选择“数据湖探索(DLI)”,数据连接名称设置为“dli”

    完成设置后,单击“测试”,测试成功后单击“确定”,完成DLI数据连接的创建。

    图2 创建数据连接

  5. DLI连接创建完成后,跳转到数据开发页面。

    图3 跳转到数据开发页面

  6. 参见图4,在DLI连接上右键单击,创建一个数据库用于存放数据表,数据库名称为“BI”

    图4 创建数据库

  7. 创建一个DLI SQL脚本,以通过DLI SQL语句来创建数据表。

    图5 新建脚本

  8. 在新建脚本弹出的SQL编辑器中输入如下SQL语句,并单击“运行”来创建数据表。其中,user、product、comment、action为OBS外表,使用指定OBS路径中的 CS V文件来填充数据,用于存放原始数据;top_like_product和top_bad_comment_product为DLI表,用于存放分析结果。

    create table user(
      user_id int,
      age int,
      gender int,
      rank int,
      register_time string
    ) USING csv OPTIONS (path "obs://fast-demo/user_data");
    create table product(
      product_id int,
      a1 int,
      a2 int,
      a3 int,
      category int,
      brand int
    ) USING csv OPTIONS (path "obs://fast-demo/product_data");
    create table comment(
      deadline string,
      product_id int,
      comment_num int,
      has_bad_comment int,
      bad_comment_rate float
    ) USING csv OPTIONS (path "obs://fast-demo/comment_data");
    create table action(
      user_id int,
      product_id int,
      time string,
      model_id string,
      type string
    ) USING csv OPTIONS (path "obs://fast-demo/action_data");
    create table top_like_product(brand int, like_count int);
    create table top_bad_comment_product(product_id int, comment_num int, bad_comment_rate float);
    图6 创建数据表

    关键参数说明:
    • 数据连接:步骤4中创建的DLI数据连接。
    • 数据库:步骤6中创建的数据库。
    • 资源队列:可使用提供的默认资源队列“default”
      • 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。
      • DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。

  9. 脚本运行成功后,可以通过如下脚本检查数据表是否创建成功。

    SHOW TABLES;

    确认数据表创建成功后,该脚本后续无需使用,可直接关闭。

support.huaweicloud.com/qs-dataartsstudio/dataartsstudio_04_0022.html