检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DataX是一个数据同步框架,实现了包括MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务,本文介绍DataX如何对接OBS。 对接步骤
OBS如何实现备份和容灾? OBS通过如下方式实现备份和容灾: 创建桶时开启多AZ属性,用户数据冗余存储至多个AZ中。 通过跨区复制功能。用户可以将一个区域的桶中数据复制到另一个区域,实现云端备份。 将OBS中的数据下载到本地,本地备份数据。 父主题: 数据安全、迁移和备份
如何实现上传对象时限速(Java SDK) 此示例用于上传对象时设置单链接实现限速,通过自定义头域,SDK透传x-obs-traffic-limit,服务端校验完成限速。 import com.obs.services.ObsClient; import com.obs.services
如何实现下载对象时限速(Java SDK) 此示例用于下载对象时设置单链接实现限速,通过自定义头域,SDK透传x-obs-traffic-limit,服务端校验完成限速。 import com.obs.services.ObsClient; import com.obs.services
如何在不暴露AKSK的条件下实现与OBS交互? 使用BrowserJS SDK与OBS服务交互时,必须将AK/SK暴露到前端,这样会存在安全问题。为避免该问题出现,可让后端生成临时签名URL给前端后,前端再与OBS交互。 比如:实现上传功能。 // 后端使用NodeJS SDK //
概述 Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。
3为例。 下载apache-hive-2.3.3-bin.tar.gz,并解压到/opt/hive-2.3.3。 在/etc/profile文件中增加配置内容: export HIVE_HOME=/opt/hive-2.3.3 export PATH=$HIVE_HOME/bin:$PATH
此外,对象存储服务OBS提供了OBSFileSystem插件(OBSA-HDFS),可与上层大数据平台无缝对接,实现业务零改造。 OBSFileSystem的主要作用:提供HDFS文件系统的相关接口实现,让大数据计算引擎(Hive、Spark等)可以将OBS作为HDFS协议的底层存储。 图2 存算分离方案中的OBSFileSystem
如何迁移数据至OBS? 数据迁移场景 数据迁移至OBS主要有以下几种场景: 搬迁本地数据至OBS 迁移第三方云厂商数据至OBS OBS之间数据迁移(跨账号、跨区域以及同区域内数据迁移) 场景一:搬迁本地数据至OBS 搬迁本地数据至OBS的方案如下,了解更多详见搬迁本地数据至OBS最佳实践:
获取桶列表 操作场景 如果用户想要查看自己创建的所有桶信息,可以使用获取桶列表接口查看。 下面介绍如何调用获取桶列表API,API的调用方法请参见如何调用API。 前提条件 已获取AK和SK,获取方法参见获取访问密钥(AK/SK)。 您需要明确需要列举的桶所在的区域信息,并根据区
使用obsutil实现目录分享 目录分享允许桶的拥有者将桶的目录或者整个桶以授权码+提取码的形式分享给其他用户。获取到授权码和提取码的用户,可以在授权码的有效期内通过OBS提供的工具(OBS Browser、obsutil),或者直接在浏览器上输入授权码进行对象的列举和下载。 ob
copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 配置指南 参考Hadoop对接OBS中hadoop-huaweic
配置CORS实现跨域访问OBS OBS提供HTML5协议中的CORS设置,帮助用户实现跨域访问。 您可以新建CORS规则,也可以从其他桶复制已有CORS规则。 背景知识 跨域是指不同域名之间相互访问。 跨域访问是浏览器出于安全考虑而设置的一个限制,即同源策略。由于JavaScri
-1.12.1/conf/log4j.properties文件中增加配置: logger.obs.name=com.obs logger.obs.level=ERROR flink-obs-fs-hadoop的实现基于flink的plugin加载机制(flink从1.9开始引入)
properties文件中增加配置: log4j.logger.com.obs=ERROR obsa写入时临时文件的目录配置 Flume写OBS时会先写入本地磁盘缓冲区,然后上传到OBS,如果对写入OBS有极致性能要求请选择高性能磁盘作为缓冲区,在core-site.xml文件中增加配置: 1 2
如何永久分享文件或文件夹 通过OBS Browser+工具可以实现分享文件或分享文件夹,通过该方式生成的分享链接中都包含链接的有效时间,超过有效期后即无法通过该链接继续访问。 永久分享文件:可通过将对象权限设置为匿名用户读取权限,通过获取对象URL,匿名用户通过该URL地址访问对象数据。
官方文档。 使用AnyBackup Cloud备份方案 爱数AnyBackup Cloud结合华为云基础服务,将本地数据备份或迁移到云,提供安全、经济、易管理的数据保护解决方案。 购买方式: 进入华为云市场,搜索AnyBackup Cloud,根据场景选择适合自己业务的备份方案。
properties文件中增加配置: log4j.logger.com.obs= ERROR 对接步骤 以Spark2.3.3为例。 下载spark-2.3.3-bin-without-hadoop.tgz,并解压到/opt/spark-2.3.3。 在/etc/profile文件中增加配置内容:
桶所有者的账号ID,即domain_id。 取值范围: 如何获取账号ID请参见如何获取账号ID和用户ID?。 默认取值: 无 displayName String 可选 参数解释: 所有者的账号名。 取值范围: 如何获取账号名请参见如何获取账号名?。 默认取值: 无 表11 StorageClassEnum
大数据场景下使用OBS实现存算分离 大数据场景下使用OBS实现存算分离方案概述 操作流程 对接大数据平台 对接大数据组件 迁移HDFS数据至OBS