MAPREDUCE服务 MRS-配置HDFS文件目录标签策略(NodeLabel):基于标签的数据块摆放策略样例

时间:2024-08-01 19:24:48

基于标签的数据块摆放策略样例

例如某 MRS 集群有六个DataNode:dn-1,dn-2,dn-3,dn-4,dn-5以及dn-6,对应的IP为10.1.120.[1-6]。有六个目录需要配置标签表达式,Block默认备份数为3。

  • 下面给出3种DataNode标签信息在“host2labels”文件中的表示方式,其作用是一样的。
    • 主机名正则表达式
      /dn-[1456]/ = label-1,label-2
      /dn-[26]/ = label-1,label-3
      /dn-[3456]/ = label-1,label-4
      /dn-5/ = label-5
    • IP地址范围表示方式
      10.1.120.[1-6] = label-1
      10.1.120.1 = label-2
      10.1.120.2 = label-3
      10.1.120.[3-6] = label-4
      10.1.120.[4-6] = label-2
      10.1.120.5 = label-5
      10.1.120.6 = label-3
    • 普通的主机名表达式
      /dn-1/ = label-1, label-2
      /dn-2/ = label-1, label-3
      /dn-3/ = label-1, label-4
      /dn-4/ = label-1, label-2, label-4
      /dn-5/ = label-1, label-2, label-4, label-5
      /dn-6/ = label-1, label-2, label-3, label-4
  • 目录的标签表达式设置结果如下:
    /dir1 = label-1
    /dir2 = label-1 && label-3
    /dir3 = label-2 || label-4[replica=2]
    /dir4 = (label-2 || label-3) && label-4
    /dir5 = !label-1
    /sdir2.txt = label-1 && label-3[replica=3,fallback=NONE]
    /dir6 = label-4[replica=2],label-2

    标签表达式设置方式请参考hdfs nodelabel -setLabelExpression命令。

    文件的数据块存放结果如下:

    • “/dir1”目录下文件的数据块可存放在dn-1,dn-2,dn-3,dn-4,dn-5和dn-6六个节点中的任意一个。
    • “/dir2”目录下文件的数据块可存放在dn-2和dn-6节点上。Block默认备份数为3,表达式只匹配了两个DataNode节点,第三个副本会在集群上剩余的节点中选择一个DataNode节点存放。
    • “/dir3”目录下文件的数据块可存放在dn-1,dn-3,dn-4,dn-5和dn-6中的任意三个节点上。
    • “/dir4”目录下文件的数据块可存放在dn-4,dn-5和dn-6。
    • “/dir5”目录下文件的数据块没有匹配到任何一个DataNode,会从整个集群中任意选择三个节点存放(和默认选块策略行为一致)。
    • “/sdir2.txt”文件的数据块,两个副本存放在dn-2和dn-6节点上,虽然还缺失一个备份节点,但由于使用了fallback=NONE参数,所以只存放两个备份。
    • “/dir6”目录下文件的数据块在具备label-4的节点中选择2个节点(dn-3 -- dn-6),然后在label-2中选择一个节点,如果用户指定“/dir6”下文件副本数大于3,则多出来的副本均在label-2。
support.huaweicloud.com/cmpntguide-mrs/mrs_01_1676.html