检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Serverless DLI与传统自建Hadoop集群对比的优势 优势 维度 数据湖探索 DLI 自建Hadoop系统 低成本 资金成本 按照实际扫描数据量或者CU时收费,可变成本,成本可节约50%。 长期占用资源,资源浪费严重,成本高。 弹性扩缩容能力 基于容器化Kubernetes,具有极致的弹性伸缩能力。
使用Notebook实例提交DLI作业 Notebook是基于开源JupyterLab进行了深度优化的交互式数据分析挖掘模块,提供在线的开发和调试能力,用于编写和调测模型训练代码。完成DLI对接Notebook实例后,您可以基于Notebook提供的Web交互的开发环境同时完成代
目前仅支持查看“QUERY”类型作业的执行结果。 row_count 否 Integer 作业结果总条数。 input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of Objects 作业结果集。
说明 类别 适用引擎 支持的动作 取值说明 系统默认创建规则 SQL语句示例 dynamic_0001 Scan files number 扫描文件数的限制。 dynamic spark HetuEngine 提示 拦截 取值范围:1-2000000 默认值:200000 是 NA
与该队列绑定的计算单元数。即当前队列的CU数。 chargingMode 否 integer 队列的收费模式。 0:系统默认default队列。按照扫描量计费。 1:表示按照CU时收费。 2:表示按照包年包月收费。 resource_id 否 String 队列的资源ID。 resource_mode
dynamicPartitionPruning.enabled true 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。
建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。DIS的更多信息,请参见《数据接入服务用户指南》。 语法格式 create table
与该队列绑定的计算单元数,即当前队列的CU数。 charging_mode 否 Integer 队列的收费模式。 0:系统默认default队列。按照扫描量计费。 1:表示按照CU时收费。 2:表示按照包年包月收费。 resource_id 否 String 队列的资源ID。 enterprise_project_id
ive',否则在HiveCatalog中一个表默认被认为是通用的。注意,如果使用Hive方言,就不需要connector属性。 监视策略是扫描当前位置路径中的所有目录/文件。许多分区可能会导致性能下降。 对未分区表进行流式读取时,要求将每个文件以原子方式写入目标目录。 分区表的流式读取要求在
队列类型: default队列:DLI服务预置了名为“default”的队列供用户体验,资源的大小按需分配。运行作业时按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 SQL类型队列:SQL队列支持提交Spark SQL作业。 通用队列:支持Spark程序、Flink SQL、Flink
DWS Connector概述 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DLI将Flink作业从数据仓库服务(DWS)中读取数据。DWS数据库内核兼容PostgreSQ
Power BI将使用ODBC连接到Kyuubi,并允许你预览和选择数据库中的表和视图。 在预览库表时请选择limit,否则分区表将全表扫描。 常用操作:SQL作业参数设置 根据安装ODBC驱动类型选择配置方法: 使用Cloudera Hive ODBC (v2.5.12)驱动
is 否 15000 Integer redis集群失败时的休眠时间。 scan-keys-count 否 1000 Integer 每次扫描时读取的数量。 default-score 否 0 Double 当data-type设置为“sorted-set”时的默认score。
is 否 15000 Integer redis集群失败时的休眠时间。 scan-keys-count 否 1000 Integer 每次扫描时读取的数量。 default-score 否 0 Double 当data-type设置为“sorted-set”数据类型的默认score。
is 否 15000 Integer redis集群失败时的休眠时间。 scan-keys-count 否 1000 Integer 每次扫描时读取的数量。 default-score 否 0 Double 当data-type设置为“sorted-set”数据类型的默认score。
dynamicPartitionPruning.enabled true 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。
is 否 15000 Integer redis集群失败时的休眠时间。 scan-keys-count 否 1000 Integer 每次扫描时读取的数量。 default-score 否 0 Double 当data-type设置为“sorted-set”时的默认score。
包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数
包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数
队列类型: default队列:DLI服务预置了名为“default”的队列供用户体验,资源的大小按需分配。运行作业时按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 SQL类型队列:SQL队列支持提交Spark SQL作业。 通用队列:支持Spark程序、Flink SQL、Flink