检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Q:选择多AZ存储后,数据是以副本的形式分别存放在多个AZ中吗?如果某个AZ出现故障,其他AZ中的数据是否完整? A:多AZ采用Erasure Code(EC,纠删码)算法做数据冗余,不是以副本的形式存储。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,
概述 DataX是一个数据同步框架,实现了包括MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务,本文介绍DataX如何对接OBS。
随着大数据技术的飞速发展,对数据价值的认识逐渐加深,大数据已经融入到了各行各业。根据相关调查报告数据显示,超过39.6%的企业正在应用大数据并从中获益;超过89.6%的企业已经成立或计划成立相关的大数据分析部门;超过六成的企业在扩大大数据的投入力度。对各行业来讲,大数据的使用能力成为未来取得竞争优势的关键能力之一。
户端跨区域复制的相关配置信息,具体可参考更新配置文件。 复制时源桶对应的配置信息为配置文件中的:akCrr/skCrr/tokenCrr/endpointCrr,目标桶对应的配置信息为配置文件中的:ak/sk/token/endpoint; 对于同一账号下不同区域的桶,也可以按照
大数据场景下使用OBS实现存算分离的操作流程如图1所示。 图1 操作流程 配置的核心是完成大数据平台与OBS对接,实现OBS作为大数据的统一数据湖存储。本文档提供三种主流大数据平台的对接指导,详情请参见支持的大数据平台简介。 (可选)OBS除了可以与主流大数据平台对接外,还可以直接与开源的大数据
归档存储->深度归档存储 执行生命周期规则时,OBS依据桶的多版本状态执行的转换操作如下: 未开启多版本的桶 开启多版本的桶 暂停多版本的桶 当桶未开启多版本时,您可以使用生命周期转换桶内对象的存储类别,此时每个对象只有一个版本。 表1 转换未开启多版本桶的对象存储类别 操作类别 操作效果 计时起点
对接大数据组件 支持的大数据组件简介 Hadoop对接OBS Hive对接OBS Spark对接OBS Presto对接OBS Flume对接OBS DataX对接OBS Druid对接OBS Flink对接OBS Logstash对接OBS 父主题: 大数据场景下使用OBS实现存算分离
使用备份软件实现本地数据备份至OBS 使用场景 传统的备份与恢复方案需要将备份数据写入磁带等存储设备,然后再运输至数据中心。在此过程中数据的安全及完整性依赖很多因素,比如硬件、人员等等。无论是从前期搭建数据中心还是后期的维护,都使得传统的备份与恢复方案面临着管理复杂、投入成本高的难题。
表响应消息头的名称,第二个String代表响应消息头的值。 默认取值: 无 queryParams Map<String, Object> 可选 参数解释: 请求中携带的查询参数。Map中类型为String的key代表request中的查询参数,类型为Obeject的value是查询参数取得的值。
断点续传上传接口是利用分段上传特性实现的,是对分段上传的封装和加强。 断点续传上传接口不仅能在失败重传时节省资源提高效率,还因其对分段进行并发上传的机制能加快上传速度,帮助用户快速完成上传业务;且其对用户透明,用户不用关心checkpoint文件的创建和删除、分段任务的切分、并发上传的实现等内部细节。
对接大数据平台 支持的大数据平台简介 华为云MRS对接OBS Cloudera CDH对接OBS Hortonworks HDP对接OBS 父主题: 大数据场景下使用OBS实现存算分离
配置双端固定实现VPC粒度的访问控制 操作场景 使用“双端固定”特性,即同时设置VPC终端节点策略与桶策略,可以对OBS的资源提供VPC粒度的权限控制。 一方面,设置VPC终端节点策略可以限制VPC中的服务器(ECS/CCE/BMS)访问OBS中的特定资源;另一方面,设置桶策略可
包含公网/内网流入流量和公网/内网流出流量的趋势。 请求 请求趋势 包含请求总数和总请求平均时延趋势。 请求次数 分别统计产生的GET请求、PUT请求和DELETE请求的次数,以及所有请求的次数总和。 请求使用率 分别统计请求的成功率、有效率和中断率。 状态码分布 分别统计产生请求后服务端返回的状态码的分布情况。不同的状态码详细介绍请参考状态码说明。
断点续传上传接口是利用分段上传特性实现的,是对分段上传的封装和加强。 断点续传上传接口不仅能在失败重传时节省资源提高效率,还因其对分段进行并发上传的机制能加快上传速度,帮助用户快速完成上传业务;且其对用户透明,用户不用关心checkpoint文件的创建和删除、分段任务的切分、并发上传的实现等内部细节。
之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 配置指南 参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法,完成OBS相关配置。
如何在不暴露AKSK的条件下实现与OBS交互? 使用BrowserJS SDK与OBS服务交互时,必须将AK/SK暴露到前端,这样会存在安全问题。为避免该问题出现,可让后端生成临时签名URL给前端后,前端再与OBS交互。 比如:实现上传功能。 // 后端使用NodeJS SDK //
参数解释: 说明访问者希望采用的语言或语言组合,以根据自己偏好的语言来定制。详情请参见HTTP协议中关于ContentLanguage的定义。 默认取值: 无 expires String 可选 参数解释: 响应中的Expires头。指定对象被下载时的网页的缓存过期时间。 默认取值:
当下载大对象到本地文件时,经常出现因网络不稳定或程序崩溃导致下载失败的情况。失败后再次重新下载不仅浪费资源,而且当网络不稳定时仍然有下载失败的风险。断点续传下载接口能有效地解决此类问题引起的下载失败,其原理是将待下载的对象分成若干个分段分别下载,并实时地将每段下载结果统一记录在checkpoint文
Druid对接OBS 概述 Druid专为需要快速数据查询与摄入的工作流程而设计,在即时数据可见性、即席查询、运营分析以及高并发等方面表现非常出色。 通过HDFS接口对接OBS,使用OBS提供的OBSA-HDFS工具,无需重新编译druid,将OBS配置为deep storage。
Spark对接OBS 概述 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 注意事项 为了减少日志输出,在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置: