检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对接大数据平台 支持的大数据平台简介 华为云MRS对接OBS Cloudera CDH对接OBS Hortonworks HDP对接OBS 父主题: 大数据场景下使用OBS实现存算分离
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
MRS与OBS对接的具体操作,请参见华为云MRS对接OBS。 Cloudera CDH CDH是Cloudera基于Apache Hadoop生态系统构建的大数据分析管理平台发行版。 Cloudera CDH与OBS对接的具体操作,请参见Cloudera CDH对接OBS。 Hortonworks
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Spark集群对接OBS配置项 Spark应用对接OBS,需要在YARN集群中进行core-site.xml配置,包括:ak、sk、endpoint、impl等。 core-site.xml配置完成后“重启”YARN集群,再重启Spark集群的“部署客户端配置”。 Hive集群对接OBS配置项
华为云MRS对接OBS 对接步骤 配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
对接大数据组件 支持的大数据组件简介 Hadoop对接OBS Hive对接OBS Spark对接OBS Presto对接OBS Flume对接OBS DataX对接OBS Druid对接OBS Flink对接OBS Logstash对接OBS 父主题: 大数据场景下使用OBS实现存算分离
Java SDK接口概览(Java SDK) 桶相关接口 桶相关接口如下表所示。 表1 桶相关接口概览 接口名 方法 功能描述 示例代码源代码 创建桶 obsClient.createBucket(CreateBucketRequest request) 在当前账号按照用户指定的
Hortonworks HDP对接OBS 部署视图 安装版本 硬件:1master+3core(配置:8U32G,操作系统:CentOS 7.5) 软件:Ambari:2.7.1.0,HDP:3.0.1.0 部署视图 更新OBSA-HDFS工具 下载与hadoop版本配套的OBSA-HDFS工具:下载地址。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置:
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
下载与安装SDK(Java SDK) 下载SDK OBS Java SDK最新版本源码:最新版本源码下载 OBS Java SDK历史版本下载地址:历史版本下载 如需采用Maven依赖方式获取SDK,请参见安装SDK章节。 安装方式概览 如表1所示,Java SDK以下安装方式。
S服务,本文介绍DataX如何对接OBS。 对接步骤 下载datax源码,以发布版本datax_v202308为例:下载地址。 修改编译datax。 升级hdfsreader和hdfswriter模块依赖的hadoop版本,以升级到2.8.3版本为例。 修改datax\hdfswriter\pom
问题定位方法(Java SDK) 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。 使用OBS Java SDK对接OBS服务可能会遇到许多问题,您可以通过下面介绍的步骤进行问题分析和定位: 确保使用的是OBS Java SDK的最新版本,
日志分析(Java SDK) 日志开启方式 将OBS SDK包中的log4j2.xml文件放到classpath根目录; 或者调用Log4j2Configurator.setLogConfig直接指定log4j2.xml文件的路径。 您可以从OBS Java SDK的发布软件包中获取默认的日志配置文件log4j2
对象上传简介(Java SDK) 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。 在OBS中,用户操作的基本数据单元是对象。OBS Java SDK提供了丰富的对象上传接口,可以通过以下方式上传对象: 流式上传 文件上传 分段上传
判断对象是否存在(Java SDK) 功能说明 判断对象是否存在,返回的结果中HTTP状态码为200表明对象存在,否则返回404表明对象或桶不存在。 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。 接口约束 您必须是桶拥有者或
流式上传(Java SDK) 功能说明 您可以将本地文件直接通过Internet上传至OBS指定的位置。待上传的文件可以是任何类型:文本文件、图片、视频等。 通过SDK的流式上传,可以上传小于5GB的文件。本章节介绍如何使用Java SDK流式上传对象。流式上传使用java.io.
创建并配置客户端(Java SDK) 操作场景 本章节指导客户创建并配置客户端,该任务是使用SDK与OBS交互的必备前置任务。如果您已有客户端,请跳过该节,直接参考Java SDK接口概览(Java SDK)获取接口信息。 前提条件 初始化客户端之前,您需要先完成以下几项准备工作:
设置多版本对象ACL(Java SDK) 功能说明 OBS支持对对象的操作进行权限控制。默认情况下,只有对象的创建者才有该对象的读写权限。用户也可以设置其他的访问策略,比如对一个对象可以设置公共访问策略,允许所有人对其都有读权限。SSE-KMS方式加密的对象即使设置了ACL,跨租户也不生效。