RegEx在HTML标记之间提取文本
我正在寻找一个正则表达式,它必须在不同类型的HTML标记之间提取文本。
例如:
Span 1
– O / p: Span 1
Span 2
– O / p: Span 2
HyperText
– O / p: 超文本
我从这里发现了这个特殊的部分]*>(.*?)
但是这个没有用。
您的注释显示您忽略了逃避正则表达式字符串中的反斜杠。
如果你想匹配小写字母,添加az
到字符类或使用Pattern.CASE_INSENSITIVE
(或添加(?i)
到正则表达式的开头)
"<([A-Za-z][A-Za-z0-9]*)\\b[^>]*>(.*?)\\1>"
如果标记内容可能包含换行符,则使用Pattern.DOTALL
或将(?s)
添加到正则表达式的开头以打开dotall / singleline模式。
这应该适合您的需求:
<([a-zA-Z]+).*?>(.*?)\\1>
第一组包含标签名称,第二组包含中间值。