MAPREDUCE服务 MRS-配置Yarn通过Guardian访问OBS:对接OBS

时间:2024-10-22 09:12:43

对接OBS

  1. 以客户端安装用户登录安装了Yarn客户端的节点。
  2. 执行以下命令,切换到客户端安装目录。

    cd 客户端安装目录

  3. 执行以下命令配置环境变量。

    source bigdata_env

  4. 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。

    kinit HDFS组件操作用户

  5. 在Yarn命令行显式添加要访问的OBS文件系统。

    • 使用以下命令访问OBS文件系统。

      hdfs dfs -ls obs://OBS并行文件系统名称/路径

    • 使用以下命令创建OBS文件系统下的目录:

      hdfs dfs -mkdir obs://OBS并行文件系统名称/hadoop1

    • 执行以下Yarn任务访问OBS:

      yarn jar 客户端安装目录/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi -Dmapreduce.job.hdfs-servers=NAMESERVICE -fs obs://OBS并行文件系统名称 1 1

    其中“NAMESERVICE”为HDFS文件系统中的NameService,默认为“hdfs://hacluster”,如有多个NameService, 以“,”分割。

    例如:

    yarn jar /opt/hadoopclient/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar pi -Dmapreduce.job.hdfs-servers=hdfs://hacluster -fs obs://bucketname 1 1

    • 执行以下命令写入数据到OBS:

      yarn jar 客户端安装目录/HDFS/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 100 obs://OBS并行文件系统名称/hadoop1/teragen1

    • 执行以下命令将OBS下的数据复制到HDFS:

      hadoop distcp obs://OBS并行文件系统名称/hadoop1/teragen1 /tmp

OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下:

cd 客户端安装目录/Yarn/config

vi log4j.properties

在文件中添加OBS日志级别配置(应用若使用自带的log4j.properties,添加同样配置即可)

log4j.logger.org.apache.hadoop.fs.obs=WARN

log4j.logger.com.obs=WARN
图1 添加OBS日志级别配置
support.huaweicloud.com/usermanual-mrs/mrs_01_248997.html