正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
方案概述 应用场景 某企业基于弹性云服务器(Elastic Cloud Server,ECS)构建好基础的业务后,随着数据增长,硬盘已无法满足大量的图片、视频等数据存取需求。了解到华为云提供有海量、弹性的云存储服务OBS后,决定将OBS作为数据存储资源池,以减轻服务器负担。
获取桶元数据 功能介绍 对桶拥有读权限的用户可以执行查询桶元数据是否存在的操作。
前期安装难、设备成本高、初始投资大、自建周期长、无法匹配快速变更的企业业务。 需承担网络信息安全、技术漏洞、误操作等各方面的数据安全风险。 OBS提供海量、稳定、安全的云存储能力,无需事先规划存储容量,存储资源可线性无限扩展,用户永远不必担心存储容量不够用。
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。
无论是从前期搭建数据中心还是后期的维护,都使得传统的备份与恢复方案面临着管理复杂、投入成本高的难题。 云存储定位于简单、安全、高效且低成本,使其成为磁带等传统存储设备的非常有吸引力的替代品。OBS即一种云存储服务,它提供海量、可弹性扩展的存储服务。
OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。
父主题: 对接大数据组件
Logstash对接OBS 概述 Logstash能够从多个来源采集数据、转换数据并将数据发送到存储系统中,具体请参见Logstash。本文用于描述Logstash如何对接使用OBS。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。
使用数据回源获取源站数据 一般情况下,当客户端访问OBS时,如果OBS中没有被访问的数据,将会返回404错误。OBS提供数据回源功能,可以在被请求的数据不存在时,通过回源规则从源站获取对应数据。
父主题: 对接大数据平台
获取自定义元数据 开发过程中,您有任何问题可以在github上提交issue,或者在华为云对象存储服务论坛中发帖求助。接口参考文档详细介绍了每个接口的参数和使用方法。 下载对象成功后会返回对象的自定义元数据。
此文件数据是由shell解析,所以选项中包含空格或特殊字符会被忽略。
计费场景 某企业基于弹性云服务器(Elastic Cloud Server,ECS)构建好基础的业务后,随着数据增长,硬盘已无法满足大量的图片、视频等数据存取需求。了解到华为云提供有海量、弹性的云存储服务OBS后,决定将OBS作为数据存储资源池,以减轻服务器负担。
父主题: 对接大数据平台
API说明,请参见获取桶元数据。
为什么OBS存储的数据丢失了? 请检查桶中是否设置了生命周期过期删除规则,符合规则的对象会被删除。 请检查桶是否授权了其他用户桶的写权限,被授权的用户都可以删除对象。如果您开启了日志记录功能,可以通过日志记录查询到删除对象的用户。 父主题: 产品咨询
父主题: 对接大数据平台