数据治理中心 DATAARTS STUDIO-步骤1:数据准备:数据湖准备
数据湖 准备
在本示例中,选择 数据湖探索 ( DLI )服务作为数据底座。为确保 DataArts Studio 与DLI网络互通,在创建DLI队列时区域和企业项目应与DataArts Studio实例保持一致。
开通DLI服务后,您需要在管理中心创建DLI连接,然后通过数据开发组件新建数据库,再执行SQL来创建OBS外表。操作步骤如下:
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
- 在“数据连接”页面,单击“创建数据连接”按钮。
图1 数据连接
- 创建一个到DLI的连接,数据连接类型选择“数据湖探索(DLI)”,数据连接名称设置为“dli”。
完成设置后,单击“测试”,测试成功后单击“确定”,完成DLI数据连接的创建。
图2 创建数据连接
- DLI连接创建完成后,跳转到数据开发页面。
图3 跳转到数据开发页面
- 参见图4,在DLI连接上右键单击,创建一个数据库用于存放数据表,数据库名称为“BI”。
- 创建一个DLI SQL脚本,以通过DLI SQL语句来创建数据表。
图5 新建脚本
- 在新建脚本弹出的SQL编辑器中输入如下SQL语句,并单击“运行”来创建数据表。其中,user、product、comment、action为OBS外表,使用指定OBS路径中的 CS V文件来填充数据,用于存放原始数据;top_like_product和top_bad_comment_product为DLI表,用于存放分析结果。
create table user( user_id int, age int, gender int, rank int, register_time string ) USING csv OPTIONS (path "obs://fast-demo/user_data"); create table product( product_id int, a1 int, a2 int, a3 int, category int, brand int ) USING csv OPTIONS (path "obs://fast-demo/product_data"); create table comment( deadline string, product_id int, comment_num int, has_bad_comment int, bad_comment_rate float ) USING csv OPTIONS (path "obs://fast-demo/comment_data"); create table action( user_id int, product_id int, time string, model_id string, type string ) USING csv OPTIONS (path "obs://fast-demo/action_data"); create table top_like_product(brand int, like_count int); create table top_bad_comment_product(product_id int, comment_num int, bad_comment_rate float);
图6 创建数据表
- 脚本运行成功后,可以通过如下脚本检查数据表是否创建成功。
SHOW TABLES;
确认数据表创建成功后,该脚本后续无需使用,可直接关闭。