检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
读取数据,数据量较大的场景防止内存OOM建议关闭。 否 false 配置为false代表关闭预加载。 kyuubi.engine.jdbc.memory jdbc engine进程内存 默认为1g,建议改成5g以上加大jdbc engine进程内存使用 否 5g 快速启动kyuubi。
功,可导出结果),已扫描数据,执行用户,结果状态(运行成功,可查看结果;运行失败,显示失败原因),数据库,CPU累计使用量,输出字节。 CPU累计使用量:作业执行过程的CPU消耗总和,单位:Core*ms 输出字节:作业执行完成后输出的字节数。 查找作业 在“SQL作业”页面,可
Failed 未满足前提条件,服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。
读取数据,数据量较大的场景防止内存OOM建议关闭。 否 false 配置为false代表关闭预加载。 kyuubi.engine.jdbc.memory jdbc engine进程内存 默认为1g,建议改成5g以上加大jdbc engine进程内存使用 否 5g 快速启动kyuubi。
典型场景示例:配置DLI与内网数据源的网络联通 背景信息 DLI与内网数据源的网络联通通常指的是华为云内部服务的场景,例如DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和外部数据源之间的网络。使用DLI提供的增强型跨源连接,采用对等连接的方式打通DLI与目的数据源的VPC网络,实现数据互通。
读取数据,数据量较大的场景防止内存OOM建议关闭。 否 false 配置为false代表关闭预加载。 kyuubi.engine.jdbc.memory jdbc engine进程内存 默认为1g,建议改成5g以上加大jdbc engine进程内存使用 否 5g 快速启动kyuubi。
SDK的获取与安装 Java SDK安装方式 您可以通过以下两种方式安装Java SDK。 导入Maven依赖,适用于使用Maven管理的Java项目。具体操作请参考方法一:通过Maven安装DLI SDK依赖。 在集成开发环境中导入JAR文件,适用于使用Eclipse作为集成开
参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
Key。 插入redis数据时必填。 查询redis数据时与“keys.pattern”参数二选一。 keys.pattern 使用正则表达式匹配多个Key或Hash Key。该参数仅用于查询时使用。查询redis数据时与“table”参数二选一。 key.column 非必填。
参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
Array of Objects 作业标签。具体请参考表5。 output_byte 否 String 作业的输出字节数。 cpu_cost 否 String 作业的CPU累计使用量。 表5 tags参数 参数名称 是否必选 参数类型 说明 key 是 String 标签的键。 value
无 String MySQL 数据库服务器的 IP 地址或主机名。 username 是 无 String 连接到 MySQL 数据库服务器时要使用的 MySQL 用户的名称。 password 是 无 String 连接 MySQL 数据库服务器时使用的密码。 database-name
典型场景示例:配置DLI 与公网网络连通 操作场景 公网数据源指的是可以通过互联网访问的数据源。这些数据源资源有一个公网IP地址,配置DLI与公网网络联通可以实现对这些数据源的访问。 本节提供了详细的操作指导,介绍如何通过设置SNAT规则和配置路由信息,实现DLI服务与公网的网络连接。 操作流程
参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。 支持容器集群Spark日志跳转查看 需要在容器查看日志。 支持动态加载UDF(公测) 无需重启队列UDF即可生效。
当CompactedLogScanner合并所有日志文件时,此配置有助于选择是否应延迟读取日志块。选择true以使用I/O密集型延迟块读取(低内存使用),或者为false来使用内存密集型立即块读取(高内存使用)。 true hoodie.compaction.reverse.log.read HoodieLogF
商用 Flink作业管理概述 2019年10月 序号 功能名称 功能描述 阶段 相关文档 1 支持鲲鹏计算集群(北京四) DLI支持选在鲲鹏CPU架构 商用 创建队列 2019年8月 序号 功能名称 功能描述 阶段 相关文档 1 支持SparkUI查看作业详情 DLI支持通过SparkUI页面查看作业运行的情况。
join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以配置该参数为false即禁用动态分区修剪优化,有助于减少内存使用,避免内存溢出和频繁的Full GC。 但禁用此优化可能会降低查询性
Flink作业字节输出总数 展示用户Flink作业字节的输出总数。单位:字节。 Flink作业CPU使用率 展示用户Flink作业的CPU使用率。单位:%。 Flink作业内存使用率 展示用户Flink作业的内存使用率。单位:%。 Flink作业最大算子延迟 展示用户Flink作业的最大算子延迟时间,单位ms。
queue_type 否 String 队列的类型,。 sql general all 如果不指定,默认为“sql”。 cu_count 否 Integer 与该队列绑定的计算单元数,即当前队列的CU数。 charging_mode 否 Integer 队列的收费模式。 0:系统默认default队列。按照扫描量计费。