-
使用Spark作业访问sftp中的文件,作业运行失败,日志显示访问目录异常 - 数据湖探索 DLI
使用Spark作业访问sftp中的文件,作业运行失败,日志显示访问目录异常 Spark作业不支持访问sftp,建议将文件数据上传到OBS,再通过Spark作业进行读取和分析。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 父主题: 作业运维报错
-
scala样例代码 - 数据湖探索 DLI
条数上限,则停止存储数据,以batch.size.entries为准,提交该批次的数据。 es.nodes.wan.only 是否仅通过域名访问es节点,默认为false。使用经典型跨源的连接地址作为es.nodes时,该参数需要配置为true;使用css服务提供的原始内网IP地址作为es
-
使用咨询 - 数据湖探索 DLI
使用咨询 DLI适用哪些场景 DLI支持哪些数据格式 DLI Flink与MRS Flink有什么区别? 怎样升级DLI作业的引擎版本 DLI中的Spark组件与MRS中的Spark组件有什么区别? DLI的数据可存储在哪些地方 DLI表与OBS表的区别 不上传数据到OBS,如何使用DLI
-
身份认证与访问控制 - 数据湖探索 DLI
身份认证与访问控制 身份认证 用户访问DLI的方式主要有两种,包括DLI Console界面、DLI Open API等,其本质都是通过DLI提供的REST API接口进行请求。 DLI的接口均需要通过认证鉴权才能访问,控制台发送的请求与调用API接口的请求均支持Token认证鉴权。
-
Flink Jar作业设置backend为OBS,报错不支持OBS文件系统 - 数据湖探索 DLI
确认客户esdk-obs-java-3.1.3.jar的版本。 确认是集群存在问题。 处理步骤 设置依赖关系provided。 重启clusteragent应用集群升级后的配置。 去掉OBS依赖,否则checkpoint会写不进OBS。 父主题: Flink Jar作业相关问题
-
Spark 3.1.1版本说明 - 数据湖探索 DLI
1.1版本说明 下表列举了Spark 3.1.1 版本主要的功能特性。 更多版本新特性请参考Release Notes - Spark 3.1.1。 【SPARK-33050】:Apache ORC 升级到1.5.12。 【SPARK-33092】:增强子表达式消减。 【SPARK
-
创建指定地址连通性测试请求 - 数据湖探索 DLI
队列名称。 请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 address 是 String 测试地址。格式为:IP地址或域名:访问端口。 响应消息 表3 响应参数 参数名称 是否必选 参数类型 说明 is_success 是 Boolean 请求执行是否成功。“true”表示请求执行成功。
-
迁移Hive数据至DLI - 数据湖探索 DLI
E条件做数据过滤及在字段映射页面添加新字段的需求,选择HDFS方式即可。 HDFS文件方式读取数据时,性能较好,但不支持使用WHERE条件做数据过滤及在字段映射页面添加新字段。 JDBC方式读取数据时,支持使用WHERE条件做数据过滤及在字段映射页面添加新字段。 更多参数的详细配
-
使用Spark Jar作业读取和查询OBS数据 - 数据湖探索 DLI
新运行该作业即可。 后续指引 如果您想通过Spark Jar作业访问其他数据源,请参考《使用Spark作业跨源访问数据源》。 如果您想通过Spark Jar作业在DLI创建数据库和表,请参考《使用Spark作业访问DLI元数据》。 完整样例代码参考 认证用的access.key和secret
-
跨源分析问题 - 数据湖探索 DLI
跨源分析问题 如何实现跨数据源查询 如何实现跨区域访问数据 创建DLI关联RDS表时,如果RDS表有自增主键或者其他自动填充的字段时,在DLI中插入数据时,对应字段如何填写? 父主题: 跨源连接相关问题
-
scala样例代码 - 数据湖探索 DLI
探索用户指南》。 创建经典型跨源连接后,使用经典型跨源连接中返回的连接地址。 创建增强型跨源连接后,使用RDS提供的"内网域名"或者内网地址和数据库端口访问,MySQL格式为"协议头://内网IP:内网端口",PostGre格式为"协议头://内网IP:内网端口/数据库名"。 例如:"jdbc:mysql://192
-
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI
存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI
-
自定义DLI委托权限 - 数据湖探索 DLI
Spark作业下载OBS对象、读写OBS外表。 访问和使用OBS的权限策略 允许DLI在访问DEW获取数据访问凭证 自定义 DLI 作业使用DEW-CSMS凭证管理能力。 使用DEW加密功能的权限 允许访问DLI Catalog元数据 自定义 DLI 访问DLI元数据。 访问DLI Catalog元数据的权限
-
SQL作业访问报错:File not Found - 数据湖探索 DLI
SQL作业访问报错:File not Found 问题现象 执行SQL作业访问报错:File not Found。 解决措施 文件报错找不到,一般是读写冲突产生的,建议查询一下SQL查询报错表的时候,是否有作业正在覆盖写对应数据。 父主题: 作业运维报错
-
使用Spark作业访问DLI元数据 - 数据湖探索 DLI
该功能公测阶段,如需使用请提交工单申请开通“使用Spark作业访问DLI元数据”的使用权限。 约束限制 如果使用Spark 3.1访问元数据,则必须新建队列。 不支持的场景: 在SQL作业中创建了数据库(database),编写程序代码指定在该数据库下创建表。 例如在DLI的SQL编辑器
-
使用DLI Flink SQL进行电商实时业务数据分析 - 数据湖探索 DLI
存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI
-
创建队列 - 数据湖探索 DLI
创建队列的操作入口有三个,分别在“总览”页面、“SQL编辑器”页面和“队列管理”页面。 单击总览页面右上角“购买队列”进行创建队列。 在“队列管理”页面创建队列。 在DLI管理控制台的左侧导航栏中,选择“资源管理 > 队列管理”。 单击“队列管理”页面右上角“购买队列”进行创建队列。 在“SQL编辑器”页面创建队列。
-
Flink Opensource SQL使用DEW管理访问凭据 - 数据湖探索 DLI
险。 本节操作介绍Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导。 前提条件 已在DEW服务创建通用凭证,并存入凭据值。具体操作请参考:创建通用凭据。 已创建DLI访问DEW的委托并完成委托授权。该委托需具备以下权限: DEW中的查询凭据的版本与凭
-
将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? - 数据湖探索 DLI
on脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理 > 程序包管理”。 在“程序包管理”页面,单击右上角“创建”可创建程序包。
-
Spark Jar 使用DEW获取访问凭证读写OBS - 数据湖探索 DLI
泄露以及权限失控带来的业务风险。 本例以获取访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。 前提条件 已在DEW服务创建通用凭证,并存入凭据值。具体操作请参考:创建通用凭据。 已创建DLI访问DEW的委托并完成委托授权。该委托需具备以下权限: