检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据存储在OBS和HDFS有什么区别? MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS(Object Storage Service)即对象存储服务,是一个基于对象的海量存
HDFS访问OBS 功能简介 访问OBS过程为: 设置“fs.obs.access.key”和“fs.obs.secret.key”。 由此FileSystem实例可以读取、新增和删除各类资源。 不支持追加操作。 前提条件 对接OBS前需要提前在OBS服务中创建相关目录,并确保访问用户具有对应目录的访问操作权限。
通过Flink作业处理OBS数据 应用场景 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。 本文将向您介绍如何在MRS集群中运行Flink作业来处理OBS中存储的数据。 方案架构 Flink
配置Flink通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Flink客户端访问OBS并行文件系统并运行作业。 Flink对接OBS 使用安装客户端的用户登录Flink客户端安装节点。 执行如下命令初始化环境变量。 source
在hdfs命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 例如,执行以下命令访问“mrs-word001”并行文件系统,返回文件列表即表示访问OBS成功,如图1所示: hadoop
MRS服务的默认配置文件中已经添加了OBS的实现类来对接OBS,如下所示: <property> <name>fs.AbstractFileSystem.obs.impl</name> <value>org.apache.hadoop.fs.obs.OBS</value> </property>
配置Hive通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在Hive客户端创建Location为OBS路径的表。 建表时指定Location为OBS路径 使用安装客户端用户登录客户端安装节点。 执行如下命令初始化环境变量。 source
运行模式:选择HDFS连接的运行模式。 步骤3:创建OBS连接 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,连接器类型选择“对象存储服务(OBS)”后,单击“下一步”配置OBS连接参数,如图3所示。 名称:用户自定义连接名称,例如“obslink”。 OBS终端节点、端口:配置为OBS实际的地址信息。
endpoint OBS桶地址 s3.endpoint-name.access_key_id OBS ak,获取方法请参考如何获取访问密钥AK/SK s3.endpoint-name.secret_access_key OBS sk,获取方法请参考如何获取访问密钥AK/SK 对于OBS直接分
配置HDFS通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在HDFS客户端查看和创建OBS文件目录。 HDFS对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录
0-LTS及之后的版本支持基于Guardian组件对接OBS。 创建OBS委托。 用户需要创建1个具有OBS访问权限的委托,用于Guardian组件对接OBS时使用。 开启Guardian组件对接OBS开关并配置组件。 修改Guardian服务相关配置参数,配置IAM委托认证信息。
户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在Yarn命令行显式添加要访问的OBS文件系统。 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录:
properties 在文件中添加OBS日志级别配置: log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图4 添加OBS日志级别 使用Spark Shell读取OBS文件 使用安装客户端用户登录客户端安装节点。
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。 图1 错误信息 回答 HDFS上ssl.jceks文件权限不足,导致建表失败。
路径。 “bucket”选择“通过资源路径指定”,并单击“添加资源路径”在“路径”中输入obs_bucket_name。 其中obs_bucket-name请使用实际的OBS桶名替换。若桶类型为“并行文件系统”需要再添加obs_bucket_name/tmp/路径,桶类型为“对象
配置MapReduce通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,MapReduce服务还需参考本章节新增自定义配置。 MapReduce对接OBS 登录MRS管理控制台,单击集群名称进入集群详情页面。 选择“组件管理 > Mapr
配置Flume通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,Flume即可运行OBS作业。 本章节适用于MRS 3.x及之后的版本。 Flume对接OBS 创建用于存放数据的OBS文件夹。 登录OBS控制台。 单击“并行文件系统”进入并行文件系统页面。
配置Hudi通过Guardian访问OBS 参考配置Guardian服务对接OBS完成Guardian对接OBS后,即可在spark-shell中创建Hudi COW表存储到OBS中。 Hudi对接OBS 使用客户端安装用户登录客户端安装节点。 配置环境变量。 source 客户端安装目录/bigdata_env
配置Hudi通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,即可在spark-shell中创建Hudi COW表存储到OBS中。 Hudi对接OBS 使用安装客户端用户登录客户端安装节点。 配置环境变量。 source 客户端安装目录/bigdata_env
配置Sqoop通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成Sqoop客户端对接OBS文件系统的配置后,可在Sqoop客户端导入关系型数据库的表到OBS中,或导出OBS中的表到关系型数据库中。 前提条件 需在MySQL官网https://downloads