转义Java正则表达式中的特殊字符
在Java或任何开源库中是否有任何方法可以转义(不引用)特殊字符(元字符),以便将其用作正则表达式?
这在动态构建正则表达式时非常方便,无需手动转义每个单独的字符。
例如,考虑一个简单的正则表达式,如\d+\.\d+
,匹配小数点为1.2
,以及以下代码:
String digit = "d"; String point = "."; String regex1 = "\\d+\\.\\d+"; String regex2 = Pattern.quote(digit + "+" + point + digit + "+"); Pattern numbers1 = Pattern.compile(regex1); Pattern numbers2 = Pattern.compile(regex2); System.out.println("Regex 1: " + regex1); if (numbers1.matcher("1.2").matches()) { System.out.println("\tMatch"); } else { System.out.println("\tNo match"); } System.out.println("Regex 2: " + regex2); if (numbers2.matcher("1.2").matches()) { System.out.println("\tMatch"); } else { System.out.println("\tNo match"); }
毫不奇怪,上面代码产生的输出是:
Regex 1: \d+\.\d+ Match Regex 2: \Qd+.d+\E No match
也就是说, regex1
匹配1.2
但regex2
(“动态”构建)不匹配(相反,它匹配文字字符串d+.d+
)。
那么,是否有一种方法可以自动转义每个正则表达式元字符?
如果有,比如java.util.regex.Pattern
的静态escape()
方法,输出
Pattern.escape('.')
将是字符串"\."
但是
Pattern.escape(',')
应该只生成","
,因为它不是元字符。 同样的,
Pattern.escape('d')
可以产生"\d"
,因为'd'
用于表示数字(虽然在这种情况下逃避可能没有意义,因为'd'
可能意味着字面'd'
,这不会被正则表达式插入者误解为别的东西,就像'.'
的情况一样。
在Java或任何开源库中是否有任何方法可以转义(不引用)特殊字符(元字符),以便将其用作正则表达式?
我不是百分百肯定这就是你在这里问的问题。 如果您正在寻找一种方法来创建可以在正则表达式模式中使用的常量,那么只需在它们前面加上"\\"
但是没有很好的Pattern.escape('.')
函数来帮助解决这个问题。
因此,如果您尝试匹配"\\d"
(字符串\d
而不是小数字符),那么您将执行以下操作:
// this will match on \d as opposed to a decimal character String matchBackslashD = "\\\\d"; // as opposed to String matchDecimalDigit = "\\d";
Java字符串中的4个斜杠在正则表达式模式中变为2个斜杠。 正则表达式模式中的2个反斜杠与反斜杠本身匹配。 使用反斜杠前置任何特殊字符会将其转换为普通字符而不是特殊字符。
matchPeriod = "\\."; matchPlus = "\\+"; matchParens = "\\(\\)"; ...
在您的post中,您使用Pattern.quote(string)
方法 。 您可能知道这会将您的模式包装在"\\Q"
和"\\E"
因此您可以匹配字符串,即使它恰好有一个特殊的正则表达式字符( +
, .
, \\d
等)
我写了这个模式:
Pattern SPECIAL_REGEX_CHARS = Pattern.compile("[{}()\\[\\].+*?^$\\\\|]");
并在此方法中使用它:
String escapeSpecialRegexChars(String str) { return SPECIAL_REGEX_CHARS.matcher(str).replaceAll("\\\\$0"); }
然后你可以像这样使用它,例如:
Pattern toSafePattern(String text) { return Pattern.compile(".*" + escapeSpecialRegexChars(text) + ".*"); }
我们需要这样做,因为在转义之后,我们添加了一些正则表达式。 如果没有,你可以简单地使用\Q
和\E
:
Pattern toSafePattern(String text) { return Pattern.compile(".*\\Q" + text + "\\E.*") }
正则表达式匹配器知道你正在寻找数字而不是字母d
的唯一方法是逃避字母( \d
)。 要在java中键入正则表达式转义字符,您需要转义它(因此\
成为\\
)。 因此,没有办法为特殊的正则表达式字符键入双反斜杠。
同意Gray,因为您可能需要您的模式同时具有litrals(\ [,\ _))和元字符([,])。 因此,使用某些实用程序,您应该能够首先转义所有字符,然后您可以添加要在相同模式上添加的元字符。
使用
pattern.compile("\""); String s= p.toString()+"yourcontent"+p.toString();
将结果作为yourcontent
的内容