检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
计费。 数据库 数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。 在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。数据库是表的逻辑分组。
DLI弹性资源池与队列简介 DLI的计算资源是执行作业的基础,本节内容介绍DLI计算资源的模式和队列类型。 什么是弹性资源池和队列? 在了解DLI计算资源模式前首先了解弹性资源池和队列的基本概念。 弹性资源池是DLI计算资源的一种池化管理模式,可以看做DLI计算资源的集合。DLI支持在弹性
数据权限相关 数据权限列表 创建角色 删除角色 绑定角色 解绑角色 显示角色 分配权限 回收权限 显示已授权限 显示所有角色和用户的绑定关系
持消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。
持消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。
SON和Avro格式,且编码格式仅支持UTF-8。 前提条件 待导入的数据已存储到OBS上。 导入数据步骤 导入数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面导入数据。 在管理控制台的左侧,选择“数据管理”>“库表管理”。 单击需导入数据的表对应
Spark计算服务。 在总览页面,单击Spark作业右上角的“创建作业”,或在Spark作业管理页面,单击右上角的“创建作业”,均可进入Spark作业编辑页面。 进入Spark作业编辑页面,页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业
扫描数据量资费=执行SQL时产生的扫描数据量*单价。如果计算任务超时或失败,则本次计算不收取费用。 Flink作业和Spark作业的计费只有计算计费,具体计费规则与SQL作业相同。 具体计费规则可以参考华为云官网价格详情。 。 步骤1:获取消费数据 获取消费明细数据。 使用华为云账户登录控制台。
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。DLI可以
持消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半结构化的KeyValue数据存储。 利用DLI,用户可方便地将海量数据高速、低时延写入HBase。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。DLI可以
弹性资源池产品规格 弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI弹性资源池之间为物理集
RDS对您选择的数据库实例、数据库存储和备份存储(可选)收费。 了解RDS计费说明。 DLV DLV适配云上云下多种数据源,提供丰富多样的可视化组件,快速定制数据大屏。 使用DLV服务的费用主要是DLV包年包月套餐的费用,您可以根据实际使用情况,选择合适的版本规格。 了解DLI产品价格详情。
older_than:指定清理多版本数据的时间范围。 参数说明 表1 参数说明 参数 描述 db_name 数据库名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。 table_name 表名称。 时间戳 删除该时间戳时间点之前的多版本数据。时间格式需要为yyyy-MM-dd
参考《数据湖探索开发指南》。 数据治理中心DataArts Studio 数据治理中心DataArts Studio具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。DLI可以
行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。 JOIN
存储计费 DLI数据存储计费模式 存储资源是DLI服务内部的存储资源,用于存储数据库和DLI表。支持以下计费模式: 按需计费:按需计费是一种后付费模式,DLI支持使用按需计费模式购买数据存储。按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。计费方式自创建起按自然
动分配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。 选择“包年/包月”计费模式时,可选择“固定规格”,也可以“自定义规格”。“按需计费”只支持选择固定规格。 请按需选择队列规格。队列规格指的是计算节点所有CU数的总和,DLI系统会自动分配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。
优点:写入过程中对主键进行hash分桶写入,性能比较高,不受表的数据量限制。Flink和Spark引擎都支持,Flink和Spark引擎可以实现交叉混写同一张表。 缺点:Bucket个数不能动态调整,数据量波动和整表数据量持续上涨会导致单个Bucket数据量过大出现大数据文件。需要结合分区表来进行平衡改善。