数据湖探索 DLI-使用DLI分析账单消费数据:步骤2:分析账户消费结构并优化

时间:2025-02-12 15:00:46

步骤2:分析账户消费结构并优化

  1. DLI 上进行消费明细分析。
    1. 1下载的消费明细数据上传到已建好的OBS桶中。
    2. 数据湖探索 服务中创建表。
      1. 登录DLI控制台,左侧导航栏单击“SQL编辑器”,执行引擎选择“spark”,选择执行的队列和数据库。本次演示队列和数据库选择“default”。
      2. 下载的文件中包含时间用量等,按表头意义在DLI上创建表,具体可以参考如下示例,其中amount列为费用。
        CREATE TABLE `spending` (  account_period string,  EnterpriseProject string,  EnterpriseProjectID string,  accountID string,  product_type_code string,  product_type string,  product_code string,  product_name string,  product_id string,  mode string,  time1 string,  use_start string,  use_end string,  orderid string,  ordertime string,  resource_type string,  resource_id string,  resouce_name string,  tag string,  skuid string,  `c22name` STRING,  `c23name` STRING,  `c24name` STRING,  `c25name` STRING,  `c26name` STRING,  `c27name` STRING,  `c28name` STRING,  `c29name` STRING,  size STRING,  `c31name` STRING,  `c32name` STRING,  `c33name` STRING,  `c34name` STRING,  `c35name` STRING,  `amount` STRING,  `c37name` STRING,  `c38name` STRING,  `c39name` STRING,  `c40name` STRING,  `c41name` STRING,  `c42name` STRING,  `c43name` STRING,  `c44name` STRING,  `c45name` STRING,  `c46name` STRING,  `c47name` STRING,  `c48name` STRING,  `c49name` STRING,  `c50name` STRING,  `c51name` STRING,  `c52name` STRING,  `c53name` STRING,  `c54name` STRING) USING csv options (  path 'obs://xxx/Spendings(ByTransaction)_20200501_20200531.csv',  header true)
    3. 查询该时间内消费最高的resource_id, resource_name。

      通过以下语句,可以发现sql和flink队列使用的费用均为1842元,在总费用3754元中占比为98%。

      select resource_id, resouce_name, sum(size)    as usage, sum(amount)    as sum_amount    from spending    group by resource_id, resouce_name    order by sum_amount desc
      图4 查询结果
    4. 使用以下语句具体分析sql和flink这两个资源消费的时间段。
      select * from spending where resource_id = 'd91d4616-b10c-471a-820d-e676e6c5f4b4' order by ordertime

      可以发现sql队列从2020-05-14 17:00:00 GMT+08:00开始,每小时产生5.6元费用,持续到2020-05-28 10:00:00 GMT+08:00,说明这个sql队列在这段时间内持续使用。

      同样,也可以发现flink队列在2020-05-14 17:00:00 GMT+08:00到2020-05-28 10:00:00 GMT+08:00这段 内持续使用。

  2. 优化建议。

    通过以上分析,了解到sql和flink这两个队列几乎是在持续使用的,建议通过购买包周期队列来降低使用成本。另外,对于明确需要使用多少CU时的作业,也可以提前购买对应的CU时套餐包,来降低使用成本。

support.huaweicloud.com/bestpractice-dli/dli_05_0005.html