使用正则表达式解析日志

我正在寻找解析Varnish日志文件的解决方案。看起来像：

 178.232.38.87 - - [23/May/2012:14:01:05 +0200] "GET http://static.vg.no/iphone/js/front-min.js?20120509-1 HTTP/1.1" 200 2013 "http://touch.vg.no/" "Mozilla/5.0 (Linux; U; Android 2.3.3; en-no; HTC Nexus One Build/GRI40) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"

可以有以下区别：

%h %l %u %t "%r" %s %b "%{Referer}i" "%{User-agent}i"

但我仍然不知道该怎么做。 Simple String.split(" "); 不行。

我知道正则表达式有一般规则，但最合适的是java。

谢谢

我想出了一种方法，可以根据各个字段的可能/期望值来匹配各个字段来构建正则表达式。

  String rexa = "(\\d+(?:\\.\\d+){3})"; // an IP address String rexs = "(\\S+)"; // a single token (no spaces) String rexdt = "\\[([^\\]]+)\\]"; // something between [ and ] String rexstr = "\"([^\"]*?)\""; // a quoted string String rexi = "(\\d+)"; // unsigned integer String rex = String.join( " ", rexa, rexs, rexs, rexdt, rexstr, rexi, rexi, rexstr, rexstr ); Pattern pat = Pattern.compile( rex ); Matcher mat = pat.matcher( h ); if( mat.matches() ){ for( int ig = 1; ig <= mat.groupCount(); ig++ ){ System.out.println( mat.group( ig ) ); } }

当然，可以用雷克斯代替雷克斯或雷西。

使用正则表达式解析日志

圆满一双至3位有效数字

如何使用Eclipse Helios调试GlassFish 3？

RabbitMQ使用者是否可以配置为仅使用相同消息的已定义尝试次数

如何判断是否已使用BufferedReader读入空行？

在Windows 7上运行Eclipse JRE和JDK未找到

用于在括号之间提取文本的模式

用于层次结构树角色的Spring Security / Java EE解决方案

使用JSch执行命令

jackson没有逃脱JSON中的引用

使用Rhino而不是ScriptEngine在Java中运行Javascript代码