检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FS文件系统的相关接口实现,让大数据计算引擎(Hive、Spark等)可以将OBS作为HDFS协议的底层存储。 图2 存算分离方案中的OBSFileSystem OBS服务支持对象存储桶(对象语义)和并行文件系统(POSIX文件语义),在大数据场景下建议选择并行文件系统。并行文件
可选 参数解释: 并行文件系统的ACL是否向并行文件系统内对象传递,作用于并行文件系统内所有对象。 取值范围: true:是,并行文件系统ACL向并行文件系统内对象传递。 false:否,并行文件系统ACL不向并行文件系统内对象传递,仅作用于并行文件系统。 默认取值: false
OBS与自建存储服务器对比 对比项 OBS 自建存储服务器 数据存储量 提供海量的存储服务,在全球部署着N个数据中心,所有业务、存储节点采用分布式集群方式部署,各节点、集群都可以独立扩容,用户永远不必担心存储容量不够。 数据存储量受限于搭建存储服务器时使用的硬件设备,存储量不够时需要重新购买存储硬盘,进行人工扩容。
并行文件系统 并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件语义系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载,主要应用于大数据场景。
Flink对接OBS 概述 Flink是一个分布式的数据处理引擎,用于处理有界和无界流式数据。Flink定义了文件系统抽象,OBS服务实现了Flink的文件系统抽象,使得OBS可以作为flink StateBackend和数据读写的载体。 注意事项 flink-obs-fs-hadoop目前仅支持OBS并行文件系统。
Hadoop对接OBS 概述 Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。
挂载并行文件系统失败 本文根据在挂载并行文件系统时遇到的不同现象,总结了常见挂载并行文件系统失败的可能原因及解决办法。 现象一:挂载并行文件系统时出现“The specified bucket does not exist”类似错误 问题定位: 待挂载并行文件系统不存在。 解决办法:
取消挂载并行文件系统 如果不再需要通过挂载方式访问OBS并行文件系统,或者需要对已挂载并行文件系统进行参数新增、修改或删除时,可以取消挂载并行文件系统。 取消挂载并行文件系统不会影响已保存至并行文件系统中的数据。 前提条件 待取消挂载的并行文件系统目前处于挂载状态。 操作步骤 打开命令行终端。
限 场景介绍 本案例介绍如何通过IAM预置的与OBS相关的系统角色和策略,为华为云账号下的多个IAM用户或用户群组授予OBS所有资源的基本操作权限。预置的系统角色和策略所支持的权限如下表所示。 表1 OBS系统权限 系统角色/策略名称 描述 类别 Tenant Administrator
OBS支持的region以及region与endPoint的对应关系,详细信息请参见地区与终端节点。 目前接口仅在并行文件系统支持,普通对象并行文件系统不支持,如何创建并行文件系统请参考创建并行文件系统(Java SDK)。 方法定义 obsClient.renameObject(RenameObjectRequest
并行文件系统是否支持资源包? 当前如下资源包同时支持并行文件系统及对象桶: 标准存储资源包:包括单AZ及多AZ 归档存储资源包 公网流出流量包 由于并行文件系统暂时不支持跨区域复制和回源功能,所以无法使用对应的跨区域复制流量包和回源流量包。 父主题: 计费相关
Flume对接OBS 概述 Flume是一个分布式的、可靠的和高可用的服务,用于收集、聚合以及移动大量日志数据,具体请参见Apache Flume。OBS在大数据场景中可以替代Hadoop系统中的HDFS服务。 注意事项 多sink写同一文件 OBS和HDFS在一致性保证上是有差
Windows系统 前提条件 在使用本工具前,您需完成注册华为帐号并开通华为云,开通OBS,并创建一个可用的桶。 已下载obsftp工具。 工具下载地址:https://github.com/huaweicloud-obs/obsftp 在Windows上使用此工具前需要您先完成Python安装。
html。 ak = os.getenv("AccessKeyID") sk = os.getenv("SecretAccessKey") # 【可选】如果使用临时AKSK和SecurityToken访问OBS,则同样推荐通过环境变量获取 security_token = os.getenv("SecurityToken")
Hive对接OBS 概述 Hive是一个数据仓库工具,可以对存储在分布式存储中的大规模数据进行数据提取、转化和加载,它提供了丰富的SQL查询方式来进行数据分析。 前提条件 已安装Hadoop,具体请参见Hadoop对接OBS。 对接步骤 以Hive 2.3.3为例。 下载apache-hive-2
Linux/Unix系统 前提条件 在使用本工具前,您需完成注册华为帐号并开通华为云,开通OBS,并创建一个可用的桶。 已下载obsftp工具。 工具下载地址:https://github.com/huaweicloud-obs/obsftp 通常Linux/unix系统已安装Pyth
S应用以标准化、中心化的方式接入事件网格,通过标准化的CloudEvents协议在这些应用之间以灵活方式路由事件,帮助您轻松构建松耦合、分布式的事件驱动架构。 OBS作为云服务事件源将产生的云服务事件发送到EG,事件规则对云服务事件进行过滤和转换,通过转换后的事件触发事件目标(即函数工作流服务中的函数)。
系统配置 本节介绍如何修改OBS Browser的各项配置。 操作步骤 登录OBS Browser。 在OBS Browser右上角,单击,并选择“系统配置”,系统弹出“系统配置”对话框,如图1所示。 图1 系统配置 单击“基本配置”,根据需要修改基本配置参数。 各参数含义如表1所示。
”。 在弹出的消息窗口中,单击“确定”关闭消息窗口。 操作步骤 登录OBS Browser。 单击待上传文件或文件夹的桶。 单击“上传”,系统弹出“上传对象”对话框,如图1所示。 您可以选择文件上传,详见4;也可以选择文件夹上传,详见5。 图1 上传对象 单击“选择文件”,打开本
创建并行文件系统 用户可以通过控制台创建并行文件系统。 操作步骤 在管理控制台首页,选择“服务列表 > 存储 > 对象存储服务”。 选择左侧导航栏的“并行文件系统”,进入并行文件系统控制台。 单击界面右上角的“创建并行文件系统”,进入创建页面。 图1 创建并行文件系统 (可选)复制并行文件系统配置。