检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OBS提供的DIS通知功能,主要面向大数据场景,要求OBS与数据接入服务(DIS)及其他大数据相关服务结合使用。 仅支持华东-上海一、华北-北京四、华南-广州区域。 当OBS桶中触发了对象上传、下载、删除等操作事件时,OBS将事件通知发送给DIS,再通过DIS通道将通知分发给下游的大数据处理服务,如数据湖工厂(
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。 HDFS协议:Hado
我在什么场景下需要使用生命周期管理? 生命周期管理可适用于以下典型场景: 周期性上传的日志文件,可能只需要保留一个星期或一个月。到期后要删除它们。 某些文档在一段时间内经常访问,但是超过一定时间后便可能不再访问了。这些文档需要在一定时间后转化为低频访问存储,归档存储或者删除。 如
、Python等SDK计算POST上传签名,客户端采用JavaScript向服务端获取签名信息后利用签名信息访问OBS。 其中,计算POST上传签名信息请参考各SDK语言: Java Python PHP BrowserJS Node.js 除POST上传外,在其他场景中,为了避
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Logstash对接OBS 概述 Logstash能够从多个来源采集数据、转换数据并将数据发送到存储系统中,具体请参见Logstash。本文用于描述Logstash如何对接使用OBS。 注意事项 请使用较新版本的logstash,例如≥7.10.2的版本,避免使用较老版本的logstash。
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
桶的访问域名 downloadFile合法域名 桶的访问域名 udp合法域名 根据实际情况填写 tcp合法域名 根据实际情况填写 计算POST上传签名。 POST上传前需要根据上传时自定义使用的policy字段计算相关签名信息,签名计算规则请参见基于浏览器上传的表单中携带签名,计算签名相关源代码如下:
接用来加密数据,系统先是从用户主密钥中派生出数据加密密钥和数据加密密钥的密文,然后使用数据加密密钥来加密OBS对象,加密完成后,OBS存储数据加密密钥的密文和对象密文。 图2 SSE-KMS解密流程 解密对象时,如图2所示,KMS云服务先解密数据加密密钥密文,然后用数据加密密钥来
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置:
操作流程 大数据场景下使用OBS实现存算分离的操作流程如图1所示。 图1 操作流程 配置的核心是完成大数据平台与OBS对接,实现OBS作为大数据的统一数据湖存储。本文档提供三种主流大数据平台的对接指导,详情请参见支持的大数据平台简介。 (可选)OBS除了可以与主流大数据平台对接外,
id:唯一标识,每个节点的标识都必须是唯一的。就算重启或升级Presto都必须还保持原来的标识。 node.data-dir:数据目录,Presto用它来保存log和其他数据 示例: node.environment=presto_cluster node.id=bigdata00 node
MULTIDELETE 数据事件_写操作 归档对象恢复 对象 POST.OBJECT.RESTORE 数据事件_写操作 合并段 对象 POST.UPLOAD.COMPLETE 数据事件_写操作 初始化段 对象 POST.UPLOAD.INIT 数据事件_写操作 上传对象 对象 PUT.OBJECT
用来加入自定义的元数据,以便对对象进行自定义管理。当用户获取此对象或查询此对象元数据时,加入的自定义元数据将会在返回消息的头中出现。更多说明详见对象自定义元数据介绍。 示例:x-obs-meta-test: test metadata 约束限制: 自定义元数据key-value对都必须符合US-ASCII。
配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
int、impl等。 core-site.xml配置完成后“重启”Hive集群,再重启Hive集群的“部署客户端配置”。 父主题: 对接大数据平台
由于业务原因,您需要将OBS数据从一个区域的数据中心迁移至另一个区域的数据中心。 数据备份与容灾 出于对数据安全性以及可用性的考虑,您希望对所有写入OBS的数据,都在另一个区域的数据中心显式地创建一个备份,以防止在数据发生不可逆损毁时,有安全、可用的备份数据。 易维护 您在两个不同OBS区域中具
3.1.1-hw-53.8.jar /usr/hdp/3.0.1.0-187/hive/auxlib 重启Hive集群。 父主题: 对接大数据平台