使用Java正则表达式删除字符串中的每个其他字符

我有这个功课问题,我需要使用正则表达式删除字符串中的所有其他字符。

在一个部分中,我必须删除索引1,3,5处的字符,…我已按如下方式执行此操作:

String s = "1a2b3c4d5"; System.out.println(s.replaceAll("(.).", "$1")); 

这打印12345这是我想要的。 基本上我一次匹配两个字符,并替换为第一个字符。 我用组捕获来做到这一点。

问题是,我在作业的第二部分遇到麻烦,我需要删除索引0,2,4处的字符,…

我做了以下事情:

 String s = "1a2b3c4d5"; System.out.println(s.replaceAll(".(.)", "$1")); 

这打印abcd5 ,但正确的答案必须是abcd 。 如果输入字符串长度为奇数,则我的正则表达式只是不正确。 如果它是偶数,那么我的正则表达式工作正常。

我想我真的很接近答案,但我不确定如何解决它。

你确实非常接近答案:只需匹配第二个char可选。

 String s = "1a2b3c4d5"; System.out.println(s.replaceAll(".(.)?", "$1")); // prints "abcd" 

这是因为:

  • 默认情况下,正则表达式是贪婪的,如果它存在,它将采用第二个字符
    • 当输入为奇数长度时,第二个字符将不会在最后一次替换时出现,但您仍然匹配一个字符(即输入中的最后一个字符)
  • 即使组无法匹配,您仍然可以在替换中使用反向引用
    • 它将替换为空字符串,而不是"null"
    • 这与Matcher.group(int)不同,后者为失败的组返回null

参考

  • regular-expressions.info/Optional

仔细看看第一部分

让我们仔细看看作业的第一部分:

 String s = "1a2b3c4d5"; System.out.println(s.replaceAll("(.).", "$1")); // prints "12345" 

在这里你没有必要使用? 对于第二个字符,但它“有效”,因为即使你没有匹配最后一个字符, 你也没有! 由于问题规范,最后一个字符可以保持不匹配,未替换。

现在假设我们要删除索引1,3,5的字符…,并将字符放在索引0,2,4 …括号中。

 String s = "1a2b3c4d5"; System.out.println(s.replaceAll("(.).", "($1)")); // prints "(1)(2)(3)(4)5" 

A-HA! 现在你遇到了与奇数长度输入完全相同的问题! 您无法将最后一个字符与正则表达式匹配,因为正则表达式需要两个字符,但最后只有一个字符用于奇数长度输入!

解决方案同样是使第二个char匹配可选:

 String s = "1a2b3c4d5"; System.out.println(s.replaceAll("(.).?", "($1)")); // prints "(1)(2)(3)(4)(5)" 

如果输入字符串长度为奇数,则我的正则表达式只是不正确。 如果它是偶数,那么我的正则表达式工作正常。

把你的表达改为.(.)? – 问号使第二个字符成为可选,这意味着输入是奇数还是偶数无关紧要

你的正则表达式需要2个字符来匹配,所以最后的字符串失败了。

这个正则表达式:

 ".(.{0,1})" 

将使第二个字符可选,因此它将与您的最终“5”匹配