云服务器内容精选

  • 运行多组件样例程序 将hive-site.xml、hbase-site.xml、hiveclient.properties放入工程的conf目录。 确保样例工程依赖的所有Hive、HBase相关jar包已正常获取。 打开MultiComponentLocalRunner.java,确认代码中System.setProperty("HADOOP_USER_NAME", "root");设置了用户为root,请确保场景说明中上传的数据的用户为root,或者在代码中将root修改为上传数据的用户名。 在IntelliJ IDEA开发环境中,选中“MultiComponentLocalRunner.java”工程,单击运行对应的应用程序工程。或者右键工程,选择“Run MultiComponentLocalRunner.main()”运行应用工程。 如果集群开启了ZooKeeper SSL,则运行该样例前,需要检查配置文件mapred-site.xml(准备运行环境中样例工程的“conf”配置文件目录中获取)的配置项“mapreduce.admin.map.child.java.opts”和“mapreduce.admin.reduce.child.java.opts”是否包含如下内容: -Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty 如果不包含,将上述内容添加到配置项末尾处。
  • 操作场景 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 MapReduce应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 在IntelliJ IDEA中查看应用程序运行情况。 通过MapReduce日志获取应用程序运行情况。 登录MapReduce WebUI查看应用程序运行情况。 登录Yarn WebUI查看应用程序运行情况。 在MapReduce任务运行过程中禁止重启HDFS服务,否则可能会导致任务失败。
  • 操作场景 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 MapReduce应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 在IntelliJ IDEA中查看应用程序运行情况。 通过MapReduce日志获取应用程序运行情况。 登录MapReduce WebUI查看应用程序运行情况。 登录Yarn WebUI查看应用程序运行情况。 如果Windows运行环境中使用IBM JDK,不支持在Windows环境中直接运行应用程序。 在MapReduce任务运行过程中禁止重启HDFS服务,否则可能会导致任务失败。
  • 规划MapReduce访问多组件样例程序数据 创建HDFS数据文件。 在Linux系统中新建文本文件,将待处理的数据复制到文件中。例如将MapReduce访问多组件样例程序开发思路中log1.txt中的内容复制保存到data.txt。 执行以下命令进入HDFS客户端目录并认证用户。 cd HDFS客户端安装目录 source bigdata_env kinit 组件业务用户(该用户需要具有操作HDFS的权限,首次认证需要修改密码) 在HDFS上创建一个文件夹“/tmp/examples/multi-components/mapreduce/input/”,并上传data.txt到此目录,操作如下: 在HDFS客户端使用以下命令创建目录。 hdfs dfs -mkdir -p /tmp/examples/multi-components/mapreduce/input/ 执行以下命令上传文件至HDFS。 hdfs dfs -put local_filepath/data.txt /tmp/examples/multi-components/mapreduce/input/ 创建HBase表并插入数据。 执行以下命令进入HBase客户端。 cd HBase客户端安装目录 source bigdata_env kinit 组件业务用户 hbase shell 执行以下命令在HBase shell交互窗口创建数据表table1,该表有一个列族cf。 create 'table1', 'cf' 执行以下命令插入一条rowkey为1、列名为cid、数据值为123的数据。 put 'table1', '1', 'cf:cid', '123' 执行以下命令退出HBase客户端。 quit 创建Hive表并载入数据。 使用以下命令进入Hive客户端。 cd Hive客户端安装目录 source bigdata_env kinit 组件业务用户 beeline 执行以下命令在Hive beeline交互窗口创建数据表person,该表有3个字段:name/gender/stayTime。 CREATE TABLE person(name STRING, gender STRING, stayTime INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile; 执行以下命令在Hive beeline交互窗口加载数据文件。 LOAD DATA INPATH '/tmp/examples/multi-components/mapreduce/input/' OVERWRITE INTO TABLE person; 执行命令!q退出。 由于Hive加载数据将HDFS对应数据目录清空,所以需再次执行1。
  • 规划MapReduce统计样例程序数据 将待处理的日志文件放置在HDFS系统中。 在Linux系统中新建文本文件,将待处理的数据复制到文件中。例如将MapReduce统计样例程序开发思路中log1.txt中的内容复制保存到input_data1.txt,将log2.txt中的内容复制保存到input_data2.txt。 在HDFS上建立一个文件夹“/tmp/input”,并上传input_data1.txt,input_data2.txt到此目录,操作如下: 执行以下命令进入HDFS客户端目录并认证用户。 cd HDFS客户端安装目录 source bigdata_env kinit 组件业务用户 (该用户需要具有操作HDFS的权限,首次认证需要修改密码) 执行以下命令创建“/tmp/input”目录。 hdfs dfs -mkdir /tmp/input 执行以下命令将已准备好的文件上传至HDFS客户端的“/tmp/input”目录下。 hdfs dfs -put local_filepath/input_data1.txt /tmp/input hdfs dfs -put local_filepath/input_data2.txt /tmp/input