云服务器内容精选

  • 数据湖 准备 在本示例中,选择 数据湖探索 DLI )服务作为数据湖。为确保 DataArts Studio 与DLI网络互通,在创建DLI队列时区域和企业项目应与DataArts Studio实例保持一致。 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。 DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。 开通DLI服务后,您需要在管理中心创建DLI连接,然后通过数据开发组件新建数据库,再执行SQL来创建OBS外表。操作步骤如下: 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在“数据连接”页面,单击“创建数据连接”按钮。 图1 数据连接 创建一个到DLI的连接,数据连接类型选择“数据湖探索(DLI)”,数据连接名称设置为“dli”。 完成设置后,单击“测试”,测试成功后单击“确定”,完成DLI数据连接的创建。 图2 创建数据连接 DLI连接创建完成后,跳转到数据开发页面。 图3 跳转到数据开发页面 参见图4,在DLI连接上右键单击,创建一个数据库用于存放数据表,数据库名称为“BI”。 图4 创建数据库 创建一个DLI SQL脚本,以通过DLI SQL语句来创建数据表。 图5 新建脚本 在新建脚本弹出的SQL编辑器中输入如下SQL语句,并单击“运行”来创建数据表。其中,user、product、comment、action为OBS外表,使用指定OBS路径中的 CS V文件来填充数据,用于存放原始数据;top_like_product和top_bad_comment_product为DLI表,用于存放分析结果。 create table user( user_id int, age int, sexuality int, rank int, register_time string ) USING csv OPTIONS (path "obs://fast-demo/user_data"); create table product( product_id int, a1 int, a2 int, a3 int, category int, brand int ) USING csv OPTIONS (path "obs://fast-demo/product_data"); create table comment( deadline string, product_id int, comment_num int, has_bad_comment int, bad_comment_rate float ) USING csv OPTIONS (path "obs://fast-demo/comment_data"); create table action( user_id int, product_id int, time string, model_id string, type string ) USING csv OPTIONS (path "obs://fast-demo/action_data"); create table top_like_product(brand int, like_count int); create table top_bad_comment_product(product_id int, comment_num int, bad_comment_rate float); 图6 创建数据表 关键参数说明: 数据连接:步骤3中创建的DLI数据连接。 数据库:步骤5中创建的数据库。 资源队列:可使用提供的默认资源队列“default”。 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。 DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。 脚本运行成功后,可以通过如下脚本检查数据表是否创建成功。 SHOW TABLES; 确认数据表创建成功后,该脚本后续无需使用,可直接关闭。
  • 分析10大用户关注最多的产品 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。 创建一个DLI SQL脚本,以通过DLI SQL语句来创建数据表。 图1 新建脚本 在新建脚本弹出的SQL编辑器中输入如下SQL语句,单击“运行”,从OBS原始数据表中计算出10大用户关注最多的产品,将结果存放到top_like_product表。 INSERT OVERWRITE table top_like_product SELECT product.brand as brand, COUNT(product.brand) as like_count FROM action JOIN product ON (action.product_id = product.product_id) WHERE action.type = 'like' group by brand ORDER BY like_count desc LIMIT 10 图2 脚本(分析10大用户关注最多的产品) 关键参数说明: 数据连接:步骤3中创建的DLI数据连接。 数据库:步骤5中创建的数据库。 资源队列:可使用提供的默认资源队列“default”。 当前由于DLI的“default”队列默认Spark组件版本较低,可能会出现无法支持建表语句执行的报错,这种情况下建议您选择自建队列运行业务。如需“default”队列支持建表语句执行,可联系DLI服务客服或技术支持人员协助解决。 DLI的“default”队列为共享队列,仅用于用户体验,用户间可能会出现抢占资源的情况,不能保证每次都可以得到资源执行相关操作。当遇到执行时间较长或无法执行的情况,建议您在业务低峰期再次重试,或选择自建队列运行业务。 脚本调试无误后,单击“保存”保存该脚本,脚本名称为“top_like_product”。单击“提交”,提交脚本版本。在后续开发并调度作业会引用该脚本。 脚本保存完成且运行成功后,您可通过如下SQL语句查看top_like_product表数据。您还可以参考图3,下载或转储表数据。 SELECT * FROM top_like_product 图3 查看top_like_product表数据