RegEx在HTML标记之间提取文本

我正在寻找一个正则表达式，它必须在不同类型的HTML标记之间提取文本。

例如：

Span 1 – O / p： Span 1


Span 2

– O / p： Span 2

HyperText – O / p： 超文本

我从这里发现了这个特殊的部分]*>(.*?)但是这个没有用。

您的注释显示您忽略了逃避正则表达式字符串中的反斜杠。

如果你想匹配小写字母，添加az到字符类或使用Pattern.CASE_INSENSITIVE （或添加(?i)到正则表达式的开头）

 "<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)"

如果标记内容可能包含换行符，则使用Pattern.DOTALL或将(?s)添加到正则表达式的开头以打开dotall / singleline模式。

这应该适合您的需求：

 <([a-zA-Z]+).*?>(.*?)

第一组包含标签名称，第二组包含中间值。

一种非常具体的方式：

 (||)(.*)(||)

但是，这只适用于这三个例子。您需要使用HTML解析器。