-
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI
partitions参数提高并行度 操作场景 Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。 该问题可以通过设置spark.sql.shuffle.partitions提高shuffle read
-
产品规格 - 数据湖探索 DLI
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI提供以下规格的计算资源,如表1所示。 表1 弹性资源池规格
-
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
-
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
-
弹性资源池概述 - 数据湖探索 DLI
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 弹性资源池产品规格 DLI提供以下规格的计算资源,如表1所示。
-
查询HBase表 - 数据湖探索 DLI
查询下压 通过hbase进行数据过滤,即HBase Client将过滤条件传给HBase服务端进行处理,HBase服务端只返回用户需要的数据,提高了Spark SQL查询的速度。对于HBase不支持的过滤条件,例如组合Rowkey的查询,直接由Spark SQL进行。 支持查询下压的场景
-
查询HBase表 - 数据湖探索 DLI
查询下压 通过hbase进行数据过滤,即HBase Client将过滤条件传给HBase服务端进行处理,HBase服务端只返回用户需要的数据,提高了Spark SQL查询的速度。对于HBase不支持的过滤条件,例如组合Rowkey的查询,直接由Spark SQL进行。 支持查询下压的场景
-
什么是用户配额? - 数据湖探索 DLI
什么是用户配额? 华为云对用户的资源数量和容量做了限制。如果资源配额限制满足不了用户的使用需求,可以通过工单系统来提交您的申请,并告知您申请提高配额的理由。 在通过我们的审理之后,我们会更新您的配额并进行通知。关于配额的具体操作说明,请参见关于配额。 父主题: 配额相关问题
-
WITH...AS - 数据湖探索 DLI
WITH...AS 功能描述 通过用WITH...AS定义公共表达式(CTE)来简化查询,提高可阅读性和易维护性。 语法格式 1 WITH cte_name AS (select_statement) sql_containing_cte_name; 关键字 cte_name:公共表达式的名字,不允许重名。
-
WITH...AS - 数据湖探索 DLI
WITH...AS 功能描述 通过用WITH...AS定义公共表达式(CTE)来简化查询,提高可阅读性和易维护性。 语法格式 1 WITH cte_name AS (select_statement) sql_containing_cte_name; 关键字 cte_name:公共表达式的名字,不允许重名。
-
产品优势 - 数据湖探索 DLI
分析。SQL语法全兼容标准ANSI SQL 2003。 存算分离 DLI解耦计算和存储负载,存算分离架构,存储资源和计算资源按需灵活配置,提高了资源利用率,降低了成本。 企业级多租户 支持计算资源按租户隔离,数据权限控制到队列、作业,帮助企业实现部门间的数据共享和权限管理。 Serverless
-
DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线(EOL)公告 - 数据湖探索 DLI
DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线(EOL)公告 公告说明 为了更好的实现资源共享,提高计算资源利用率,DLI将“包年/包月”和“按需计费”计费模式队列升级为“弹性资源池队列”。即使用DLI计算资源需先购买弹性资源池,并在弹性资源池中创建队列。
-
创建队列 - 数据湖探索 DLI
当前包年/包月计费模式和按需计费专属资源模式支持双AZ策略。 双AZ能提高您的数据可用性。 双AZ属性一旦启用,后续无法修改。 CPU架构 X86 鲲鹏 规格 队列规格指的是计算节点所有CU数的总和,1CU=1核4GB。DLI系统会自动分配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。
-
深度学习模型预测 - 数据湖探索 DLI
model_path 是 模型存放在OBS上的完整路径,包括模型结构和模型权值。 is_dl4j_model 是 是否是deeplearning4j的模型。 true代表是deeplearning4j,false代表是keras模型。 keras_model_config_path 是
-
深度学习模型预测 - 数据湖探索 DLI
model_path 是 模型存放在OBS上的完整路径,包括模型结构和模型权值。 is_dl4j_model 是 是否是deeplearning4j的模型。 true代表是deeplearning4j,false代表是keras模型。 keras_model_config_path 是
-
Spark 3.3.1版本说明 - 数据湖探索 DLI
Spark查询语句性能提升。 元数据访问性能提升 提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的
-
作业开发 - 数据湖探索 DLI
如何在DLI中运行复杂PySpark程序? Spark作业访问MySQL数据库的方案 如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 Spark jar 如何读取上传文件 父主题: Spark作业相关问题
-
运行Spark作业报java.lang.AbstractMethodError - 数据湖探索 DLI
基于Spark 2.3重新编译应用 使用sl4j+log4j来实现日志功能,而不是直接继承Spark内部接口Logging。具体如下: <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId>
-
创建数据库和表 - 数据湖探索 DLI
可选择“普通列”或“分区列”。“分区列”是分区表专用的,对用户数据进行分区,可提高查询效率。 说明: 列名不区分大小写,不能相同。 name 数据类型 与“列名”对应,表示该列的数据类型。 字符串(string):字符串类型。 有符号整数(int):存储空间为4字节。 日期类型(date):所表示日期的范围为0000-01-01
-
最新动态 - 数据湖探索 DLI
定时扩容/缩容 2020年6月 序号 功能名称 功能描述 阶段 相关文档 1 计算队列支持跨AZ双活 DLI跨AZ队列能够为用户提供跨区域容灾的能力,提高计算的可靠性。 商用 队列管理概述 2 支持Spark作业开发者模式 用户可以在DLI管理控制台采用API接口模式设置参数及参数值。 商用