检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源和成本规划 资源 资源说明 成本说明 OBS 需要创建一个OBS桶将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。
Connector列表 Connector概述 BlackHole ClickHouse DataGen Doris DWS Elasticsearch 对象存储OBS Hbase Hive JDBC Kafka MySql CDC Print Redis Upsert Kafka 父主题: Flink
直接输入路径或单击选择OBS的路径,如果没有合适的桶可直接跳转OBS创建。 创建OBS表时指定的路径必须是文件夹,如果建表路径是文件将导致导入数据失败。 当OBS的目录下有同名文件夹和文件时,数据导入指向该路径会优先指向文件而非文件夹。 说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata
file_format 是 OBS表存储格式,支持TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET table_comment 否 表描述。仅支持字符串常量。 obs_path 是 数据文件所在的OBS存储路径,推荐使用OBS并行文件系统存储。
Flink Jar作业设置backend为OBS,报错不支持OBS文件系统 问题现象 客户执行Flink Jar作业,通过设置checkpoint存储在OBS桶中,作业一直提交失败,并伴有报错提交日志,提示OBS桶名不合法。 原因分析 确认OBS桶名是否正确。 确认所用AKSK是否有权限。
使用DEW获取访问凭证读写OBS 操作场景 DLI将Flink Jar作业的输出数据写入到OBS时,需要配置AKSK访问OBS,为了确保AKSK数据安全,您可以通过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management
Livy工具配置文件 上传指定的DLI Livy工具jar资源包到OBS桶路径下。 登录OBS控制台,在指定的OBS桶下创建一个存放Livy工具jar包的资源目录。例如:“obs://bucket/livy/jars/”。 进入3.a中DLI Livy工具所在ECS服务器的安装目
DLI Flink作业提交运行后(已选择保存作业日志到OBS桶),提交运行失败的情形(例如:jar包冲突),有时日志不会写到OBS桶中 DLI Flink作业提交或运行失败时,对应生成的作业日志保存方式,包含以下三种情况: 提交失败,只会在submit-client下生成提交日志。
造成历史数据无法查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别
添加分区(只支持OBS表) 功能描述 创建OBS分区表成功后,OBS表实际还没有生成分区信息。生成分区信息主要有以下两种场景: 给OBS分区表插入对应的分区数据,数据插入成功后OBS表才会生成分区元数据信息,后续则可以根据对应分区列进行查询等操作。 手工拷贝分区目录和数据到OBS分区表路
Spark查询语句性能提升。 元数据访问性能提升 提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容
使用DEW获取访问凭证读写OBS 操作场景 DLI将Spark Jar作业并的输出数据写入到OBS时,需要配置AKSK访问OBS,为了确保AKSK数据安全,您可以通过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
上传数据到OBS桶 OBS控制台 将测试数据上传到OBS桶下。 3 新建Maven工程,配置pom文件 IntelliJ IDEA 参考样例代码说明,编写程序代码读取OBS数据。 4 编写程序代码 5 调试,编译代码并导出Jar包 6 上传Jar包到OBS和DLI OBS控制台 DLI控制台
BasicCredentials类中。 本操作介绍获取Flink作业委托临时凭证的操作方法。 Spark作业场景 Spark Jar 使用DEW获取访问凭证读写OBS 访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。 用户获取Spark作业委托临时凭证 本操作介绍获取Spark
添加分区(只支持OBS表) 功能描述 创建OBS分区表成功后,OBS表实际还没有生成分区信息。生成分区信息主要有以下两种场景: 给OBS分区表插入对应的分区数据,数据插入成功后OBS表才会生成分区元数据信息,后续则可以根据对应分区列进行查询等操作。 手工拷贝分区目录和数据到OBS分区表路
ObsException: OBS servcie Error Message. Request Error: ... Cause by: ObsException: com.obs.services.exception.ObsException: OBSs servcie Error Message
导出DLI表数据至OBS中 支持将数据从DLI表中导出到OBS服务中,导出操作将在OBS服务新建文件夹,或覆盖已有文件夹中的内容。 注意事项 支持导出json格式的文件,且文本格式仅支持UTF-8。 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。
Flink作业输出流写入数据到OBS,通过该OBS文件路径创建的DLI表查询无数据 问题现象 使用Flink作业输出流写入数据到了OBS中,通过该OBS文件路径创建的DLI表进行数据查询时,无法查询到数据。 例如,使用如下Flink结果表将数据写入到OBS的“obs://obs-sink/car_infos”路径下。
t保存的OBS桶。手工停止Flink作业后,再次启动该Flink作业怎样从指定Checkpoint恢复。 解决方案 由于Flink Checkpoint和Savepoint生成机制及格式一致,因此可以通过Flink作业列表“操作”列中的“更多 > 导入保存点”,导入OBS中最新成功的Checkpoint,并从中恢复。