数据治理中心 DATAARTS STUDIO-步骤1:数据准备:数据湖准备
时间:2024-11-12 17:25:40
数据湖 准备
在本示例中,选择 数据仓库 服务(DWS)服务作为数据湖。
创建DWS集群的具体操作请参见创建集群。为确保DWS集群与 DataArts Studio 实例网络互通,DWS集群需满足如下要求:
- DataArts Studio实例(指DataArts Studio实例中的 CDM 集群)与DWS集群处于不同区域的情况下,需要通过公网或者专线打通网络。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与DWS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
- 此外,您还必须确保DWS集群与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。
创建DWS集群后,您需要在管理中心创建DWS连接,然后通过数据开发组件新建数据库、数据库模式,再执行SQL来创建DWS表。操作步骤如下:
- 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
- 在“数据连接”页面,单击“创建数据连接”按钮。
图1 数据连接
- 在弹出窗口中,配置数据连接参数,完成配置后,单击“确定”完成数据连接的创建。参数配置如图2所示。
- 数据连接类型:数据仓库服务(DWS)
- 数据连接名称:dws_link
- 标签:可选参数。您可以输入新的标签名称,也可以在下拉列表中选择已有的标签。
- 适用组件:保持默认即可。
- SSL加密:是否开启,请与源端DWS集群的配置保持一致。
- 连接方式:选择“通过代理连接”。
- 手动:选择“集群名”模式,“IP”和“端口”不需要手动填写。
- DWS集群名:选择所创建的DWS集群。
- KMS密钥:选择一个KMS密钥,使用KMS密钥对敏感数据进行加密。如果未创建KMS密钥,请单击“访问KMS”进入KMS控制台创建一个密钥。
- 绑定Agent:需选择一个数据集成集群作为连接代理,该集群和DWS集群必须网络互通。本示例可选择创建DataArts Studio实例时自动创建的数据集成集群。
- 用户名:数据库的用户名,创建DWS集群时指定的用户名,默认为dbadmin。
- 密码:数据库的访问密码,创建DWS集群时指定的密码。
- DWS连接创建完成后,跳转到数据开发页面。
图3 跳转到数据开发页面
- 创建DWS数据库和数据库模式。
- 在数据开发界面,在DWS连接上右键单击,选择“新建数据库”,创建一个数据库用于存放数据表,数据库名称为“demo”。
图4 创建数据库
- 展开DWS连接目录至demo数据库的数据库模式层级,然后再右键单击,选择“新建模式”,创建数据库模式用于存放数据表,数据库模式名称为“dgc”。
图5 创建数据库模式
- 在数据开发界面,在DWS连接上右键单击,选择“新建数据库”,创建一个数据库用于存放数据表,数据库名称为“demo”。
- 创建一个DWS SQL脚本,以通过DWS SQL语句来创建数据表。
图6 新建脚本
- 在新建脚本弹出的SQL编辑器中输入如下SQL语句,并单击“运行”来创建数据表。其中,movies_item、ratings_item为原始数据表,具体数据将在之后通过CDM由OBS迁移到表中;top_rating_movie和top_active_movie为结果表,用于存放分析结果。
SET SEARCH_PATH TO dgc; CREATE TABLE IF NOT EXISTS movies_item( movieId INT, movieTitle VARCHAR, videoReleaseDate VARCHAR, IMDbURL VARCHAR, unknown INT, Action INT, Adventure INT, Animation INT, Children INT, Comedy INT, Crime INT, Documentary INT, Drama INT, Fantasy INT, FilmNoir INT, Horror INT, Musical INT, Mystery INT, Romance INT, SciFi INT, Thriller INT, War INT, Western INT ); CREATE TABLE IF NOT EXISTS ratings_item( userId INT, movieId INT, rating INT, timestamp VARCHAR ); CREATE TABLE IF NOT EXISTS top_rating_movie( movieTitle VARCHAR, avg_rating float, rating_user_number int ); CREATE TABLE IF NOT EXISTS top_active_movie( movieTitle VARCHAR, avg_rating float, rating_user_number int );
图7 创建数据表
- 脚本运行成功后,可以通过如下脚本检查数据表是否创建成功。确认数据表创建成功后,该脚本后续无需使用,可直接关闭。
SELECT * FROM pg_tables;
support.huaweicloud.com/qs-dataartsstudio/dataartsstudio_04_0032.html
看了此文的人还看了
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格
推荐文章