开发HDFS应用-华为云

MAPREDUCE服务 MRS-配置HDFS同分布策略（Colocation）:代码样例

代码样例完整样例代码可参考com.huawei.bigdata.hdfs.examples.ColocationExample。在运行Colocation工程时，需要设置运行用户，此用户需绑定supergroup用户组。在运行Colocation工程时，HDFS的配置项fs.defaultFS不能配置为viewfs://ClusterX。初始化使用Colocation前需要设置运行用户。 private static void init() throws IOException { // 设置用户，若用户没有设置HADOOP_USER_NAME，则使用USER if (System.getenv("HADOOP_USER_NAME") == null && System.getProperty("HADOOP_USER_NAME") == null) { System.setProperty("HADOOP_USER_NAME", USER); } } 获取实例样例：Colocation的操作使用DFSColocationAdmin和DFSColocationClient实例，在进行创建group等操作前需获取实例。 dfsAdmin = new DFSColocationAdmin(conf); dfs = new DFSColocationClient(); dfs.initialize(URI.create(conf.get("fs.defaultFS")), conf); 创建group 样例：创建一个gid01组，组中包含3个locator。 /** * 创建group * * @throws java.io.IOException */ private static void createGroup() throws IOException { dfsAdmin.createColocationGroup(COLOCATION_GROUP_GROUP01, Arrays.asList(new String[] { "lid01", "lid02", "lid03" })); } 写文件，写文件前必须创建对应的group 样例：写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static void put() throws IOException { FSDataOutputStream out = dfs.create(new Path(TESTFILE_TXT), true, COLOCATION_GROUP_GROUP01, "lid01"); // 代写入HDFS的数据 byte[] readBuf = "Hello World".getBytes("UTF-8"); out.write(readBuf, 0, readBuf.length); out.close(); } 删除文件样例：删除testfile.txt文件。 /** * 删除文件 * * @throws java.io.IOException */ @SuppressWarnings("deprecation") private static void delete() throws IOException { dfs.delete(new Path(TESTFILE_TXT)); } 删除group 样例：删除gid01。 /** * 删除group * * @throws java.io.IOException */ private static void deleteGroup() throws IOException { dfsAdmin.deleteColocationGroup(COLOCATION_GROUP_GROUP01); }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-配置HDFS同分布策略（Colocation）:功能简介

功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。在使用Colocation功能之前，建议用户对Colocation的内部机制有一定了解，包括： • Colocation分配节点原理 • 扩容与Colocation分配 • Colocation与数据节点容量 Colocation分配节点原理 Colocation为locator分配数据节点的时候，locator的分配算法会根据已分配的情况，进行均衡的分配数据节点。 locator分配算法的原理是，查询目前存在的所有locators，读取所有locators所分配的数据节点，并记录其使用次数。根据使用次数，对数据节点进行排序，使用次数少的排在前面，优先选择排在前面的节点。每次选择一个节点后，计数加1，并重新排序，选择后续的节点。扩容与Colocation分配集群扩容之后，为了平衡地使用所有的数据节点，使新的数据节点的分配频率与旧的数据节点趋于一致，有如下两种策略可以选择，如表1所示。表1 分配策略编号策略说明 1 删除旧的locators，为集群中所有数据节点重新创建locators。在未扩容之前分配的locators，平衡的使用了所有数据节点。当扩容后，新加入的数据节点并未分配到已经创建的locators中，所以使用Colocation来存储数据的时候，只会往旧的数据节点存储数据。由于locators与特定数据节点相关，所以当集群进行扩容的时候，就需要对Colocation的locators分配进行重新规划。 2 创建一批新的locators，并重新规划数据存放方式。旧的locators使用的是旧的数据节点，而新创建的locators偏重使用新的数据节点，所以需要根据实际业务对数据的使用需求，重新规划locators的使用。一般的，建议用户在进行集群扩容之后采用策略一来重新分配locators，可以避免数据偏重使用新的数据节点。 Colocation与数据节点容量由于使用Colocation进行存储数据的时候，会固定存储在指定的locator所对应的数据节点上面，所以如果不对locator进行规划，会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则，如表2所示。表2 使用原则编号使用原则说明 1 所有的数据节点在locators中出现的频率一样。如何保证频率一样：假如数据节点有N个，则创建locators的数量应为N的整数倍（N个、2N个……）。 2 对于所有locators的使用需要进行合理的数据存放规划，让数据均匀的分布在这些locators中。无 HDFS的二次开发过程中，可以获取DFSColocationAdmin和DFSColocationClient实例，进行从location创建group、删除group、写文件和删除文件的操作。使用Colocation功能，用户指定了DataNode，会造成某些节点上数据量很大。数据倾斜严重，导致HDFS写任务失败。由于数据倾斜，导致MapReduce只会在某几个节点访问，造成这些节点上负载很大，而其他节点闲置。针对单个应用程序任务，只能使用一次DFSColocationAdmin和DFSColocationClient实例。如果每次对文件系统操作都获取此实例，会创建过多HDFS链接，消耗HDFS资源。 Colocation提供了文件同分布的功能，执行集群balancer或mover操作时，会移动数据块，使Colocation功能失效。因此，使用Colocation功能时，建议将HDFS配置项dfs.datanode.block-pinning.enabled设置为true，此时执行集群Balancer或Mover操作时，使用Colocation写入的文件将不会被移动，从而保证了文件同分布。

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-初始化HDFS:配置文件介绍

配置文件介绍登录HDFS时会使用到如表1所示的配置文件。这些文件均已导入到“hdfs-example-security”工程的“conf”目录。表1 配置文件文件名称作用 core-site.xml 配置HDFS详细参数。 hdfs-site.xml 配置HDFS详细参数。 user.keytab 对于Kerberos安全认证提供HDFS用户信息。 krb5.conf Kerberos server配置信息。不同集群的“user.keytab”、“krb5.conf”不能共用。 “conf”目录下的“log4j.properties”文件客户根据自己的需要进行配置。

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-初始化HDFS:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples的HdfsExample类。在Linux客户端运行应用和在Windows环境下运行应用的初始化代码相同，代码样例如下所示。 // 完成初始化和认证 confLoad(); authentication(); // 创建一个用例 HdfsExample hdfs_examples = new HdfsExample("/user/hdfs-examples", "test.txt"); /** * * 如果程序运行在Linux上，则需要core-site.xml、hdfs-site.xml的路径修改 * 为在Linux下客户端文件的绝对路径 * * */ private static void confLoad() throws IOException { conf = new Configuration(); // conf file conf.addResource(new Path(PATH_TO_HDFS_SITE_XML)); conf.addResource(new Path(PATH_TO_CORE_SITE_XML)); // conf.addResource(new Path(PATH_TO_SMALL_SITE_XML)); } /** *安全认证 * */ private static void authentication() throws IOException { // security mode if ("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))) { System.setProperty("java.security.krb5.conf", PATH_TO_KRB5_CONF); LoginUtil.login(PRNCIPAL_NAME, PATH_TO_KEYTAB, PATH_TO_KRB5_CONF, conf); } } /** *创建用例 */ public HdfsExample(String path, String fileName) throws IOException { this.DEST_PATH = path; this.FILE_NAME = fileName; instanceBuild(); } private void instanceBuild() throws IOException { fSystem = FileSystem.get(conf); }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-追加信息到HDFS指定文件:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 追加文件内容 * * @throws java.io.IOException */ private void append() throws IOException { final String content = "I append this content."; FSDataOutputStream out = null; try { out = fSystem.append(new Path(DEST_PATH + File.separator + FILE_NAME)); out.write(content.getBytes()); out.hsync(); LOG .info("success to append."); } finally { // make sure the stream is closed finally. IOUtils.closeStream(out); } }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-创建HDFS文件并写入内容:代码样例

代码样例如下是写文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 创建文件，写文件 * * @throws java.io.IOException * @throws com.huawei.bigdata.hdfs.examples.ParameterException */ private void write() throws IOException { final String content = "hi, I am bigdata. It is successful if you can see me."; FSDataOutputStream out = null; try { out = fSystem.create(new Path(DEST_PATH + File.separator + FILE_NAME)); out.write(content.getBytes()); out.hsync(); LOG.info("success to write."); } finally { // make sure the stream is closed finally. IOUtils.closeStream(out); } }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-删除HDFS指定目录:代码样例

代码样例如下是删除文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 删除目录 * * @throws java.io.IOException */ private void rmdir() throws IOException { Path destPath = new Path(DEST_PATH); if (!deletePath(destPath)) { LOG.error("failed to delete destPath " + DEST_PATH); return; } LOG.info("success to delete path " + DEST_PATH); } /** * * @param filePath * @return * @throws java.io.IOException */ private boolean deletePath(final Path filePath) throws IOException { if (!fSystem.exists(filePath)) { return false; } // fSystem.delete(filePath, true); return fSystem.delete(filePath, true); }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-写HDFS文件:代码样例

代码样例如下是写文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsMain类和HdfsWriter类。 /** * 创建文件，写文件 * * @throws IOException * @throws ParameterException */ private void write() throws IOException, ParameterException { final String content = "hi, I am bigdata. It is successful if you can see me."; InputStream in = (InputStream) new ByteArrayInputStream( content.getBytes()); try { HdfsWriter writer = new HdfsWriter(fSystem, DEST_PATH + File.separator + FILE_NAME); writer.doWrite(in); System.out.println("success to write."); } finally { //务必要关闭流资源 close(in); } }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-初始化HDFS:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsMain类。在Linux客户端运行应用的初始化代码，代码样例如下所示。 /** * 初始化，获取一个FileSystem实例 * * @throws IOException */ private void init() throws IOException { confLoad(); authentication(); instanceBuild(); } /** * * 如果程序运行在Linux上，则需要core-site.xml、hdfs-site.xml的路径， * 修改为在Linux下客户端文件的绝对路径。 * */ private void confLoad() throws IOException { conf = new Configuration(); // conf file conf.addResource(new Path(PATH_TO_HDFS_SITE_XML)); conf.addResource(new Path(PATH_TO_CORE_SITE_XML)); } /** * kerberos security authentication * 如果程序运行在Linux上，则需要krb5.conf和keytab文件的路径， * 修改为在Linux下客户端文件的绝对路径。并且需要将样例代码中的keytab文件和principal文件 * 分别修改为当前用户的keytab文件名和用户名。 * */ private void authentication() throws IOException { // 安全模式 if ("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))) { System.setProperty("java.security.krb5.conf", PATH_TO_KRB5_CONF); LoginUtil.login(PRNCIPAL_NAME, PATH_TO_KEYTAB, PATH_TO_KRB5_CONF, conf); } } /** * build HDFS instance */ private void instanceBuild() throws IOException { // get filesystem fSystem = FileSystem.get(conf); }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-初始化HDFS:配置文件介绍

配置文件介绍登录HDFS时会使用到如表1所示的配置文件。这些文件均已导入到“hdfs-example”工程的“conf”目录。表1 配置文件文件名称作用获取地址 core-site.xml 配置HDFS详细参数。 MRS _Services_ClientConfig\HDFS\config\core-site.xml hdfs-site.xml 配置HDFS详细参数。 MRS_Services_ClientConfig\HDFS\config\hdfs-site.xml user.keytab 对于Kerberos安全认证提供HDFS用户信息。如果是安全模式集群，您可以联系管理员获取相应账号对应权限的keytab文件和krb5文件。 krb5.conf Kerberos server配置信息。不同集群的“user.keytab”、“krb5.conf”不能共用。 “conf”目录下的“log4j.properties”文件客户根据自己的需要进行配置。

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-创建HDFS文件并写入内容:代码样例

代码样例如下是写文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 创建文件，写文件 * * @throws java.io.IOException * @throws com.huawei.bigdata.hdfs.examples.ParameterException */ private void write() throws IOException { final String content = "hi, I am bigdata. It is successful if you can see me."; FSDataOutputStream out = null; try { out = fSystem.create(new Path(DEST_PATH + File.separator + FILE_NAME)); out.write(content.getBytes()); out.hsync(); LOG.info("success to write."); } finally { // make sure the stream is closed finally. IOUtils.closeStream(out); } }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-追加信息到HDFS指定文件:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 追加文件内容 * * @throws java.io.IOException */ private void append() throws IOException { final String content = "I append this content."; FSDataOutputStream out = null; try { out = fSystem.append(new Path(DEST_PATH + File.separator + FILE_NAME)); out.write(content.getBytes()); out.hsync(); LOG.info("success to append."); } finally { // make sure the stream is closed finally. IOUtils.closeStream(out); } }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-配置HDFS同分布策略（Colocation）:功能简介

功能简介同分布（Colocation）功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性，将那些需进行关联操作的文件存放在相同数据节点上，在进行关联操作计算时避免了到别的数据节点上获取数据，大大降低网络带宽的占用。在使用Colocation功能之前，建议用户对Colocation的内部机制有一定了解，包括： • Colocation分配节点原理 • 扩容与Colocation分配 • Colocation与数据节点容量 Colocation分配节点原理 Colocation为locator分配数据节点的时候，locator的分配算法会根据已分配的情况，进行均衡的分配数据节点。 locator分配算法的原理是，查询目前存在的所有locators，读取所有locators所分配的数据节点，并记录其使用次数。根据使用次数，对数据节点进行排序，使用次数少的排在前面，优先选择排在前面的节点。每次选择一个节点后，计数加1，并重新排序，选择后续的节点。扩容与Colocation分配集群扩容之后，为了平衡地使用所有的数据节点，使新的数据节点的分配频率与旧的数据节点趋于一致，有如下两种策略可以选择，如表1所示。表1 分配策略编号策略说明 1 删除旧的locators，为集群中所有数据节点重新创建locators。在未扩容之前分配的locators，平衡的使用了所有数据节点。当扩容后，新加入的数据节点并未分配到已经创建的locators中，所以使用Colocation来存储数据的时候，只会往旧的数据节点存储数据。由于locators与特定数据节点相关，所以当集群进行扩容的时候，就需要对Colocation的locators分配进行重新规划。 2 创建一批新的locators，并重新规划数据存放方式。旧的locators使用的是旧的数据节点，而新创建的locators偏重使用新的数据节点，所以需要根据实际业务对数据的使用需求，重新规划locators的使用。一般的，建议用户在进行集群扩容之后采用策略1来重新分配locators，可以避免数据偏重使用新的数据节点。 Colocation与数据节点容量由于使用Colocation进行存储数据的时候，会固定存储在指定的locators所对应的数据节点上面，所以如果不对locator进行规划，会造成数据节点容量不均衡。下面总结了保证数据节点容量均衡的两个主要的使用原则，如表2所示。表2 使用原则编号使用原则说明 1 所有的数据节点在locators中出现的频率一样。如何保证频率一样：假如数据节点有N个，则创建locators的数量应为N的整数倍（N个、2N个……）。 2 对于所有locators的使用需要进行合理的数据存放规划，让数据均匀的分布在这些locators中。无 HDFS的二次开发过程中，可以获取DFSColocationAdmin和DFSColocationClient实例，进行从location创建group、删除group、写文件和删除文件的操作。使用Colocation功能，用户指定了DataNode，会造成某些节点上数据量很大。数据倾斜严重，导致HDFS写任务失败。由于数据倾斜，导致MapReduce只会在某几个节点访问，造成这些节点上负载很大，而其他节点闲置。针对单个应用程序任务，只能使用一次DFSColocationAdmin和DFSColocationClient实例。如果每次对文件系统操作都获取此实例，会创建过多HDFS链接，消耗HDFS资源。 Colocation提供了文件同分布的功能，执行集群balancer或mover操作时，会移动数据块，使Colocation功能失效。因此，使用Colocation功能时，建议将HDFS配置项dfs.datanode.block-pinning.enabled设置为true，此时执行集群Balancer或Mover操作时，使用Colocation写入的文件将不会被移动，从而保证了文件同分布。

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-配置HDFS同分布策略（Colocation）:代码样例

代码样例完整样例代码可参考com.huawei.bigdata.hdfs.examples.ColocationExample。在运行Colocation工程时，需要设置运行用户，此用户需绑定supergroup用户组。在运行Colocation工程时，HDFS的配置项fs.defaultFS不能配置为viewfs://ClusterX。初始化使用Colocation前需要设置运行用户。 private static void init() throws IOException { // 设置用户，若用户没有设置HADOOP_USER_NAME，则使用USER if (System.getenv("HADOOP_USER_NAME") == null && System.getProperty("HADOOP_USER_NAME") == null) { System.setProperty("HADOOP_USER_NAME", USER); } } 获取实例样例：Colocation的操作使用DFSColocationAdmin和DFSColocationClient实例，在进行创建group等操作前需获取实例。 dfsAdmin = new DFSColocationAdmin(conf); dfs = new DFSColocationClient(); dfs.initialize(URI.create(conf.get("fs.defaultFS")), conf); 创建group 样例：创建一个gid01组，组中包含3个locator。 /** * 创建group * * @throws java.io.IOException */ private static void createGroup() throws IOException { dfsAdmin.createColocationGroup(COLOCATION_GROUP_GROUP01, Arrays.asList(new String[] { "lid01", "lid02", "lid03" })); } 写文件，写文件前必须创建对应的group 样例：写入testfile.txt文件。 /** * 创建并写入文件 * * @throws java.io.IOException */ private static void put() throws IOException { FSDataOutputStream out = dfs.create(new Path(TESTFILE_TXT), true, COLOCATION_GROUP_GROUP01, "lid01"); // 代写入HDFS的数据 byte[] readBuf = "Hello World".getBytes("UTF-8"); out.write(readBuf, 0, readBuf.length); out.close(); } 删除文件样例：删除testfile.txt文件。 /** * 删除文件 * * @throws java.io.IOException */ @SuppressWarnings("deprecation") private static void delete() throws IOException { dfs.delete(new Path(TESTFILE_TXT)); } 删除group 样例：删除gid01。 /** * 删除group * * @throws java.io.IOException */ private static void deleteGroup() throws IOException { dfsAdmin.deleteColocationGroup(COLOCATION_GROUP_GROUP01); }

MAPREDUCE服务 MRS 开发HDFS应用

MAPREDUCE服务 MRS-初始化HDFS:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples的HdfsExample类。在Linux客户端运行应用和在Windows环境下运行应用的初始化代码相同，代码样例如下所示。 // 完成初始化和认证 confLoad(); authentication(); // 创建一个用例 HdfsExample hdfs_examples = new HdfsExample("/user/hdfs-examples", "test.txt"); /** * * 如果程序运行在Linux上，则需要core-site.xml、hdfs-site.xml的路径修改为在Linux下客户端文件的绝对路径 * * */ private static void confLoad() throws IOException { conf = new Configuration(); // conf file conf.addResource(new Path(PATH_TO_HDFS_SITE_XML)); conf.addResource(new Path(PATH_TO_CORE_SITE_XML)); // conf.addResource(new Path(PATH_TO_SMALL_SITE_XML)); } /** *安全认证 * */ private static void authentication() throws IOException { // security mode if ("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))) { System.setProperty("java.security.krb5.conf", PATH_TO_KRB5_CONF); LoginUtil.login(PRNCIPAL_NAME, PATH_TO_KEYTAB, PATH_TO_KRB5_CONF, conf); } } /** *创建用例 */ public HdfsExample(String path, String fileName) throws IOException { this.DEST_PATH = path; this.FILE_NAME = fileName; instanceBuild(); } private void instanceBuild() throws IOException { fSystem = FileSystem.get(conf); }

MAPREDUCE服务 MRS 开发HDFS应用

云服务器内容精选

开发HDFS应用

7*24

备案

专业服务

退订

建议反馈

售前咨询热线