检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文主要介绍如何使用华为云DLI上的实际消费数据(文中涉及账户的信息已脱敏),在DLI的大数据分析平台上进行分析,找出费用优化的空间,并给出使用DLI过程中降低成本的一些优化措施。 流程介绍 使用DLI进行账单分析与优化的操作过程主要包括以下步骤: 步骤1:获取消费数据。获取账户的实际消费数据。
创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。 通过合理设置队列的计算资源分配策略,可以提高计算资源利用率。 具体操作请参考:创建弹性资源池并添加队列。
在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。数据库是表的逻辑分组。 OBS表、DLI表、CloudTable表 不同表类型表示不同的数据存储位置。 OBS表表示数据存储在OBS服务的桶中。 DLI表表示数据存储在本服务内部的表中。
DLI提供了一个通用接口,可用于获取用户在启动Spark作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk.core
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。 创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。
es"修改为对应的数据库名字。 passwdauth DLI侧创建的Password类型的跨源认证名称。使用跨源认证则无需在作业中配置账号和密码。 dbtable 数据库postgres中的数据表。 partitionColumn 读取数据时,用于设置并发使用的数值型字段。 说明:
S表即可对OBS上的数据进行分析和处理。 本指导中的操作内容包括:创建OBS表、导入OBS表数据、插入和查询OBS表数据等内容来帮助您更好的在DLI上对OBS表数据进行处理。 前提条件 已创建OBS的桶。具体OBS操作可以参考《对象存储服务用户指南》。本指导中的OBS桶名都为“dli-test-021”。
Lakeformation元数据可在湖仓构建Lakeformation服务的管理控制台中查看。 相关操作 DLI SQL队列对接DLI元数据方法: 在DLI管理控制台的SQL编辑器页面的“数据目录”中选择“dli”。 在“数据库”选项中选择要对接的DLI元数据中的数据库,即可对接到DLI元数据。 DLI通用队列对接DLI元数据方法:
读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 truncate
scan.count 每批次读取的数据记录数,默认为100。如果在读取过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。 iterator.grouping.size 每批次插入的数据记录数,默认为100。如果在插入过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。
南》中的“选择依赖资源参数说明”。 通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。 完整示例代码 通过DataFrame API访问 认证用的password硬编码到代码中或者明文存储都有很大的安全风
指南》中的“选择依赖资源参数说明”。 通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。 完整示例代码 通过DataFrame API 访问 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险
DLI提供了一个通用接口,可用于获取用户在启动Flink作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk.core
SQL权限管理或者IAM鉴权管理DLI元数据的权限 DLI SQL权限管理: 在“数据湖探索 > 数据管理 > 库表管理”页面,搜索要授权的库/表。 单击表操作列的“权限管理”,即可查看当前库/表授权信息或者新增授权。 更多信息请参考在DLI控制台管理数据库资源。 IAM鉴权: 参考权限管理概述章节中的“IAM鉴权使用场景”。
图1描述了按需计费的DLI资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;当您的账号因按需资源自动扣费导致欠费后,账号将变成欠费状态,资源将陆续进入宽限期和保留期。 图1 按需计费的DLI资源生命周期 欠费预警 系统会在每个计费周期后的一段时间对按需计费资源进行扣费。当您的账
java样例代码 开发说明 本样例只适用于MRS的HBase。 前提条件 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用数据湖探索来分析用户和商品的各种数
请参见流水与明细账单。 图3 查询数据存储的资源账单 查看数据扫描量的资源账单 DLI的default队列采用数据扫描量的计费方式。扫描量计费=单价*扫描量数据(GB)。怎样查看DLI的数据扫描量? 您可以在费用中心查询DLI数据扫描量的资源账单。 在控制台顶部菜单栏中选择“费用与成本
添加数据源的相关配置,请参见图1。 驱动:上传下载的DLI JDBC驱动。 URL:后面填写DLI jdbc的URL,URL的格式见表2,属性配置项说明见表3。 指定数据库: “表结构模式”可填写需访问的数据库名称,如果填写,后续创建数据集时,刷新表,页面上只可见该数据库下的表。如果
安全CSS集群的证书,生成的keystore文件在OBS上的地址。 es.net.ssl.keystore.pass 安全CSS集群的证书,生成的keystore文件时的密码。 es.net.ssl.truststore.location 安全CSS集群的证书,生成的truststore文件在OBS上的地址。