MAPREDUCE服务 MRS-正则表达式函数:概述

时间:2024-07-02 16:39:54

概述

所有的正则表达式函数都使用Java样式的语法。但以下情况除外:

  • 使用多行模式(通过(?m)标志启用)时,只有\ n被识别为行终止符。 此外,不支持(?d)标志,因此不能使用。
  • 大小写区分模式(通过(?i)标志启用)时,总是以unicode的模式去实现。同时,不支持上下文敏感匹配和局部敏感匹配。此外,不支持(?u)标志。
  • 不支持Surrogate Pair编码方式。例如,\ uD800 \ uDC00不被视为U + 10000,必须将其指定为\ x {10000}。
  • 边界字符(\b)无法被正确处理,因为它一个不带基字符的非间距标记。
  • \Q和\E在字符类(如[A-Z123])中不受支持,而是作为文本处理。
  • 支持Unicode字符类(\ p {prop}),但有以下差异:
    • 名称中的所有下划线都必须删除。例如,使用OldItalic而不是Old_Italic
    • 必须直接指定脚本,不能带Is,script =或sc =前缀。示例:\ p {Hiragana}
    • 必须使用In前缀指定块。不支持block =和blk =前缀。示例:\p{Mongolian}
    • 必须直接指定类别,而不能带Is,general_category =或gc =前缀。示例:\p{L}
    • 二进制属性必须直接指定,而不是Is。示例:\p{NoncharacterCodePoint}
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_300201.html