检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节主要介绍从创建弹性资源池、创建增强型跨源、添加队列到弹性资源池并运行作业的一个完整流程,帮助您更好、更方便的使用弹性资源池。 图1 创建弹性资源池运行作业流程图 表1 创建新队列时绑定弹性资源池流程说明 阶段 说明 参考文档 步骤一:创建弹性资源池 创建弹性资源池,配置弹性资源池的基本信息,如:计费模式、CU范围、网段等配置。
Hudi表模型设计规范 规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力,该能力要求Hudi表必须设置主键,主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键,两种主键类型均要求主键不能有null值和空值,可以参考以下示例设置主键: SparkSQL:
Hudi数据表设计规范 Hudi表模型设计规范 Hudi表索引设计规范 Hudi表分区设计规范 父主题: DLI Hudi开发规范
GO语言深入之道 介绍几个Go语言及相关开源框架的插件机制 跟唐老师学习云网络 唐老师将自己对网络的理解分享给大家 智能客服 您好!我是有问必答知识渊博的的智能问答机器人,有问题欢迎随时求助哦! 社区求助 华为云社区是华为云用户的聚集地。这里有来自数据湖探索的技术牛人,为您解决技术难题。
某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用数据湖探索来分析用户和商品的各种数据特征,可为营
查看SQL执行计划 SQL执行计划是数据库查询的逻辑流程图,它展示了数据库管理系统如何执行一个特定的SQL查询。执行计划详细列出了执行查询所需的各个步骤,例如表扫描、索引查找、连接操作(如内连接、外连接)、排序和聚合等。执行计划可以帮助分析查询的性能,识别可能的性能瓶颈,通过了解
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
发布区域:全部 使用DLI提交Spark Jar作业 OBS 2.0支持 DLI Flink作业 DLI Flink作业专为实时数据流处理设计,适用于低时延、需要快速响应的场景,支持与多种云服务跨源连通,形成丰富的流生态圈。适用于实时监控、在线分析等场景。 · Flink Ope
配置Fine BI通过Kyuubi连接DLI进行数据查询和分析 Fine BI是一款智能可视化工具,专注于数据分析和可视化。它支持连接多种数据源,能够将复杂的数据转换为直观的图表和仪表板,快速获得数据洞察。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使
命令注入漏洞(CVE-2022-33891)。 该漏洞主要影响在启用了ACL(访问控制列表)时,可以通过提供任意用户名来执行命令导致数据安全受到威胁。 DLI在设计时充分考虑了数据安全和数据隔离,因此没有启用相关的配置项,所以不会受到这个漏洞的影响。 父主题: DLI产品咨询类
DLI预置的SQL模板中TPC-H样例数据说明 TPC-H样例数据简介 TPC-H(商业智能计算测试) 是交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集。目前,在学术
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
需要较强的技术能力进行搭建、配置、运维。 高可用 具有跨AZ容灾能力。 无 高易用 学习成本 学习成本低,包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。 学习成本高,需要了解上百个调优参数。 支持数据源 云上:OBS、RDS、DWS、CSS、MongoDB、Redis。 云下:自建数据库、MongoDB、Redis。
SQL Elasticsearch结果表failure-handler参数填写retry_rejected导致提交失败 问题根因 该问题属于开源设计缺陷。 解决措施 您可以尝试将retry_rejected修改为retry-rejected。 父主题: Flink SQL作业类
Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。 Delta Lake与Apache Spark API完全兼容,并且其设计能够与结构化流式处理紧密集成,可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。 DLI中Delta的使用限制 仅Spark
表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。
Hudi开发规范概述 范围 本节内容介绍DLI-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则,适用于Hudi开发场景的表的设计、管理与作业开发。 主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述:
OpenTSDB结果表 功能描述 OpenTSDB是基于HBase分布式的 ,可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。
数据治理中心DataArts Studio具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
DLI Hudi开发规范 Hudi开发规范概述 Hudi数据表设计规范 Hudi数据表管理操作规范 Spark on Hudi开发规范 Bucket调优示例