如何创建正则表达式匹配流？

我试图解析标准输入并提取与特定模式匹配的每个字符串，计算每个匹配的出现次数，并按字母顺序打印结果。这个问题似乎是Streams API的一个很好的匹配，但是我找不到从Matcher创建匹配流的简洁方法。

我通过在匹配项上实现迭代器并将其包装到Stream中解决了这个问题，但结果不是很易读。如何在不引入其他类的情况下创建正则表达式匹配流？

public class PatternCounter { static private class MatcherIterator implements Iterator { private final Matcher matcher; public MatcherIterator(Matcher matcher) { this.matcher = matcher; } public boolean hasNext() { return matcher.find(); } public String next() { return matcher.group(0); } } static public void main(String[] args) throws Throwable { Pattern pattern = Pattern.compile("[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\\.[a-zA-Z0-9-]+)"); new TreeMap(new BufferedReader(new InputStreamReader(System.in)) .lines().map(line -> { Matcher matcher = pattern.matcher(line); return StreamSupport.stream( Spliterators.spliteratorUnknownSize(new MatcherIterator(matcher), Spliterator.ORDERED), false); }).reduce(Stream.empty(), Stream::concat).collect(groupingBy(o -> o, counting())) ).forEach((k, v) -> { System.out.printf("%s\t%s\n",k,v); }); } }

好吧，在Java 8中，有Pattern.splitAsStream ，它将提供由分隔符模式拆分的项目流，但遗憾的是没有获取匹配流的支持方法。

如果您要实现这样的Stream ，我建议直接实现Spliterator ，而不是实现和包装Iterator 。您可能对Iterator更熟悉，但实现一个简单的Spliterator是直截了当的：

 final class MatchItr extends Spliterators.AbstractSpliterator { private final Matcher matcher; MatchItr(Matcher m) { super(m.regionEnd()-m.regionStart(), ORDERED|NONNULL); matcher=m; } public boolean tryAdvance(Consumer action) { if(!matcher.find()) return false; action.accept(matcher.group()); return true; } }

但是，您可以考虑使用直接循环覆盖forEachRemaining 。

如果我理解您的尝试正确，解决方案应该更像：

 Pattern pattern = Pattern.compile( "[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\\.[a-zA-Z0-9-]+)"); try(BufferedReader br=new BufferedReader(System.console().reader())) { br.lines() .flatMap(line -> StreamSupport.stream(new MatchItr(pattern.matcher(line)), false)) .collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting())) .forEach((k, v) -> System.out.printf("%s\t%s\n",k,v)); }

Java 9直接在Matcher上提供了一个方法Stream results() 。但是为了在流中找到匹配项， Scanner上有一个更方便的方法。有了这个，实现简化为

 try(Scanner s = new Scanner(System.console().reader())) { s.findAll(pattern) .collect(Collectors.groupingBy(MatchResult::group,TreeMap::new,Collectors.counting())) .forEach((k, v) -> System.out.printf("%s\t%s\n",k,v)); }

这个答案包含一个可以与Java 8一起使用的Scanner.findAll的后端口。

离开Holger的解决方案，我们可以通过让用户提供Function操作来支持任意Matcher操作（例如获取第n组）。我们还可以将Spliterator隐藏为实现细节，以便调用者可以直接使用Stream 。根据经验， StreamSupport应该由库代码而不是用户使用。

 public class MatcherStream { private MatcherStream() {} public static Stream find(Pattern pattern, CharSequence input) { return findMatches(pattern, input).map(MatchResult::group); } public static Stream findMatches( Pattern pattern, CharSequence input) { Matcher matcher = pattern.matcher(input); Spliterator spliterator = new Spliterators.AbstractSpliterator( Long.MAX_VALUE, Spliterator.ORDERED|Spliterator.NONNULL) { @Override public boolean tryAdvance(Consumer action) { if(!matcher.find()) return false; action.accept(matcher.toMatchResult()); return true; }}; return StreamSupport.stream(spliterator, false); } }

然后您可以这样使用它：

 MatcherStream.find(Pattern.compile("\\w+"), "foo bar baz").forEach(System.out::println);

或者为您的具体任务（再次从Holger借款）：

 try(BufferedReader br = new BufferedReader(System.console().reader())) { br.lines() .flatMap(line -> MatcherStream.find(pattern, line)) .collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting())) .forEach((k, v) -> System.out.printf("%s\t%s\n", k, v)); }

如果要使用findWithinHorizon方法将Scanner与正则表达式一起使用，还可以将正则表达式转换为字符串流。这里我们使用一个流构建器，它在传统的while循环中非常方便使用。

这是一个例子：

 private Stream extractRulesFrom(String text, Pattern pattern, int group) { Stream.Builder builder = Stream.builder(); try(Scanner scanner = new Scanner(text)) { while (scanner.findWithinHorizon(pattern, 0) != null) { builder.accept(scanner.match().group(group)); } } return builder.build(); }

如何创建正则表达式匹配流？

JavaFX 8默认消息图标

如何将字符从Oracle编码为XML？

是否值得混淆java Web应用程序？

如何从python / numpy调用java函数？

在Eclipse中安装远程Tomcat服务器

有没有办法在使用maven-jlink-plugin时添加maven依赖项？

java.lang.NoSuchFieldError：IBM_JAVA，用于Eclipse中的简单hbase Java客户端

Java – 如何存储应用程序中使用的密码？

在Java Swing中启用Transfersupport的stringFlavor

Apache Beam：无法找到gs的注册商