检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建增强型跨源连接 操作场景 使用DLI访问其他数据源的数据前,首先要通过建立增强型跨源连接打通DLI和数据源之间的网络,DLI才能够访问、导入、查询、分析其他数据源的数据。
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。
通常用于结构化数据的查询和分析。 详细操作请参考创建并提交SQL作业。 适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。 Flink作业 专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。
Spark SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle.partitions
应用场景 DLI服务适用于海量日志分析、异构数据源联邦分析、大数据ETL处理。 海量日志分析 游戏运营数据分析 游戏公司不同部门日常通过游戏数据分析平台,分析每日新增日志获取所需指标,通过数据来辅助决策。例如:运营部门通过平台获取新增玩家、活跃玩家、留存率、流失率、付费率等,了解游戏当前状态及后续响应活动措施
HetuEngine简介 HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书
Serverless融合处理分析服务。
window_function 格式 无。 说明 分析窗口函数。 父主题: 标示符
SQL作业开发指南 使用Spark SQL作业分析OBS数据 在DataArts Studio开发DLI SQL作业 在Spark SQL作业中使用UDF 在Spark SQL作业中使用UDTF 在Spark SQL作业中使用UDAF
配置DLI与数据源网络连通(增强型跨源连接) 增强型跨源连接概述 创建增强型跨源连接 建立DLI与共享VPC中资源的网络连接 DLI常用跨源分析开发方式 父主题: 配置DLI读写外部数据源数据
window_func 分析窗口函数。 user_define_func 用户自定义函数。 general_binary_operator 普通二元操作符。 general_unary_operator 普通一元操作符。 ( 指定子属性表达式开始。 ) 指定子属性表达式结束。
云容器引擎-成长地图 | 华为云 数据湖探索 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在
根因分析 用户C查询View失败的原因是由于用户B不具备Table1的查询表权限。 解决措施 请在DLI赋予用户B Table1的查询表权限后,用户C重试查询View1。 父主题: DLI权限管理类
原因分析 客户建表语句: CREATE TABLE IF NOT EXISTS dli_to_rds USING JDBC OPTIONS ( 'url'='jdbc:mysql://to-rds-1174405119-oLRHAGE7.datasource.com:5432/
ClickHouse结果表 功能描述 DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse
通常用于结构化数据的查询和分析。 Flink作业 Flink作业专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将数据脱敏后上传到
如何在DLI中运行复杂PySpark程序? 数据湖探索(DLI)服务对于PySpark是原生支持的。 对于数据分析来说Python是很自然的选择,而在大数据分析中PySpark无疑是不二选择。对于JVM语言系的程序,通常会把程序打成Jar包并依赖其他一些第三方的Jar,同样的Python