RegEx在HTML标记之间提取文本

我正在寻找一个正则表达式,它必须在不同类型的HTML标记之间提取文本。

例如:

Span 1 – O / p: Span 1

Span 2

– O / p: Span 2

HyperText – O / p: 超文本

我从这里发现了这个特殊的部分]*>(.*?)但是这个没有用。

您的注释显示您忽略了逃避正则表达式字符串中的反斜杠。

如果你想匹配小写字母,添加az到字符类或使用Pattern.CASE_INSENSITIVE (或添加(?i)到正则表达式的开头)

 "<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)" 

如果标记内容可能包含换行符,则使用Pattern.DOTALL或将(?s)添加到正则表达式的开头以打开dotall / singleline模式。

这应该适合您的需求:

 <([a-zA-Z]+).*?>(.*?) 

第一组包含标签名称,第二组包含中间值。

一种非常具体的方式:

 (||
)(.*)(
||)

但是,这只适用于这三个例子。 您需要使用HTML解析器。