本文主要介绍如何使用华为云DLI上的实际消费数据(文中涉及账户的信息已脱敏),在DLI的大数据分析平台上进行分析,找出费用优化的空间,并给出使用DLI过程中降低成本的一些优化措施。 流程介绍 使用DLI进行账单分析与优化的操作过程主要包括以下步骤: 步骤1:获取消费数据。获取账户的实际消费数据。
在执行SQL作业后立即修改表名,可能会导致表的数据大小结果不正确。 这是因为DLI在执行SQL作业时,会对表进行元数据更新,如果在作业执行完成前修改了表名,会和作业的元数据更新过程冲突,从而影响对数据大小的判断。 为了避免这种情况,建议在SQL作业执行完成后,等待5分钟后再修改表名。确保系统有足够的时间更新表的元数据
b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“user_info”。
需要创建一个OBS桶将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。
b已创建的DLI数据源连接。 资源队列 选择已创建的DLI SQL类型的队列。 数据库名称 选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。 表名 选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
该字段的map的value需要为double类型,表示score,该字段的map的key表示redis的set中的值。 当data-type为sorted-set,且schema-syntax为array-scores时,除主键字段外,只能有两个非主键字段,且这两个字段的类型需要为array。
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发
该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 若使用MRS
创建OBS表时怎样指定OBS路径 场景概述 创建OBS表时,OBS路径须指定到数据库下的具体表层路径。路径格式为:obs://xxx/数据库名/表名。 创建OBS表更多语法介绍请参考《数据湖探索Spark SQL语法参考》。 正确示例 CREATE TABLE `di_selle
db_name 格式 无。 说明 数据库名称,仅支持字符串类型,名称长度不能超过128字节。 父主题: 标示符
REPLACE,或者替换所有作业中的函数F1为F2。 需要重启Spark SQL队列后新创建的自定义函数F2生效 需要重启Spark SQL队列,影响当前运行的作业。 重启队列后,影响F1原有功能,F1的功能变为和F2一样。 场景二 在原有程序包类的基础上新增了类,新创建的函数指定为新增的类,包名不变。
用默认的工作空间,也可以参考本章节的内容创建一个新的工作空间。 如需创建新的空间请参考创建并管理工作空间。 图3 进入DataArts Studio实例空间 图4 进入DataArts Studio数据开发页面 步骤1:创建数据库和表 开发创建数据库和表的SQL脚本 数据库和表是
检查DLI队列对应网段是否开放,若没有,则在vpc中添加出方向网段。 在DLI服务找到跨源连接绑定队列对应的网段 图6 查找跨源连接绑定队列对应的网段 在虚拟私有云安全组中查看DLI队列对应的网段是否已配置。 图7 查看vpc中对应安全组中DLI队列对应网段 如果没有配置,则进行添加。 图8 在VPC中添加对应网段
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将数据脱敏后上
队列管理”,选择运行作业的队列,单击队列名称旁的按钮,获取队列的网段信息。 步骤3:外部数据源的安全组添加放通DLI队列网段的规则 登录VPC控制台。 在左侧导航树选择“访问控制 > 安全组”。 单击外部数据源所属的安全组名称,进入安全组详情界面。 您可以在对应数据源的管理控制台,参考步
否 String 所列OBS表数据的类型,目前支持:parquet、ORC、CSV、JSON格式。只有OBS表有该参数,DLI表没有该参数。 data_location 是 String 数据存储的地方,分OBS表、DLI表,View。 last_access_time 是 Long
云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个A
您即将访问非华为云网站,请注意账号财产安全