检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置:
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
connector的配置文件:hive.properties # hive.properties #连接名 connector.name=hive-hadoop2 #配置hive metastore连接 hive.metastore.uri=thrift://192.168.XX.XX:9083
OBS如何实现备份和容灾? OBS通过如下方式实现备份和容灾: 创建桶时开启多AZ属性,用户数据冗余存储至多个AZ中。 通过跨区复制功能。用户可以将一个区域的桶中数据复制到另一个区域,实现云端备份。 将OBS中的数据下载到本地,本地备份数据。 父主题: 数据安全、迁移和备份
使用obsutil实现目录分享 目录分享允许桶的拥有者将桶的目录或者整个桶以授权码+提取码的形式分享给其他用户。获取到授权码和提取码的用户,可以在授权码的有效期内通过OBS提供的工具(OBS Browser、obsutil),或者直接在浏览器上输入授权码进行对象的列举和下载。 o
/opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/ 执行如下命令,建立各目录的软连接,将hadoop-huaweicloud的jar包放入如下目录。 ln -s /opt/cloudera/parcels/CDH-6.0.1-1
DataX对接OBS 概述 DataX是一个数据同步框架,实现了包括MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。OBS在大数据场景中可以替代Hadoop系统中的HDF
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
题处理,API参考提供了各API的所有参数及定义。OBS提供了以下主流语言SDK供开发者使用: 语言 SDK开发指南 API参考 Java Java SDK开发指南 - Python Python SDK开发指南 - C C SDK开发指南 - Go Go SDK开发指南 - BrowserJS
操作流程 大数据场景下使用OBS实现存算分离的操作流程如图1所示。 图1 操作流程 配置的核心是完成大数据平台与OBS对接,实现OBS作为大数据的统一数据湖存储。本文档提供三种主流大数据平台的对接指导,详情请参见支持的大数据平台简介。 (可选)OBS除了可以与主流大数据平台对接外
云服务器ECS和弹性负载均衡ELB组成的视频监控处理平台将视频流切片后存入OBS,后续再从OBS下载历史视频对象传输到观看视频的终端设备。存放在OBS中的视频文件还可以利用跨区域复制等功能进行备份,提升数据存储的安全性和可靠性。 建议搭配服务 弹性负载均衡 ELB,弹性云服务器 ECS
使用obsutil实现客户端跨区域复制 obsutil支持使用客户端跨区域复制模式进行复制,即通过数据流的方式从源桶直接复制数据到目标桶,且两个桶可以是任意两个OBS服务的桶;借助客户端跨区域复制模式即可实现相同账户下不同区域桶或不同账户间桶内对象的复制;跨账号复制对象具体步骤如下:
华为云MRS对接OBS 对接步骤 配置存算分离集群。 详细操作,请参见使用委托方式配置存算分离集群。 使用存算分离集群。 详细操作,请参见使用存算分离集群。 父主题: 对接大数据平台
失败而产生碎片。 网络条件较差,与OBS的服务器之间的连接经常断开。 上传过程中,人为中断上传任务。 设备故障。 突然断电等特殊情况。 文件上传失败或上传任务暂停后,都会有碎片存储在OBS中,可以通过任务管理重新启动上传,实现断点续传。上传成功后,碎片将自动消失。 您也可以通过碎
使用备份软件实现本地数据备份至OBS 使用场景 传统的备份与恢复方案需要将备份数据写入磁带等存储设备,然后再运输至数据中心。在此过程中数据的安全及完整性依赖很多因素,比如硬件、人员等等。无论是从前期搭建数据中心还是后期的维护,都使得传统的备份与恢复方案面临着管理复杂、投入成本高的难题。
支持的大数据平台简介 华为云MRS对接OBS Cloudera CDH对接OBS Hortonworks HDP对接OBS 父主题: 大数据场景下使用OBS实现存算分离
如何在不暴露AKSK的条件下实现与OBS交互? 使用BrowserJS SDK与OBS服务交互时,必须将AK/SK暴露到前端,这样会存在安全问题。为避免该问题出现,可让后端生成临时签名URL给前端后,前端再与OBS交互。 比如:实现上传功能。 // 后端使用NodeJS SDK //
配置双端固定实现VPC粒度的访问控制 操作场景 使用“双端固定”特性,即同时设置VPC终端节点策略与桶策略,可以对OBS的资源提供VPC粒度的权限控制。 一方面,设置VPC终端节点策略可以限制VPC中的服务器(ECS/CCE/BMS)访问OBS中的特定资源;另一方面,设置桶策略可
Distcp(Distributed copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 配置指南 参考H
注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差别的:HDFS租约机制可以保证并发写同一个文件时不会产生一致性问题,但是OBS实现的HDFS协议不支持租约Lease机制(并发写同一个文件时将产生不可确定的状态),所以在flume场景下可以通过文件命名规则进行解决。 如