从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

或者，可以使用HtmlCleaner:

private CharSequence removeHtmlFrom(String html) {
    return new HtmlCleaner().clean(html).getText();
}

2014-02-17 20:19:48

其他回答

您可能希望在剥离HTML之前将<br/>和</p>标记替换为换行符，以防止它像Tim建议的那样变得难以识别。

我能想到的唯一方法是删除HTML标记，但在尖括号之间留下非HTML标记，将检查HTML标记列表。沿着这条线……

replaceAll("\\<[\s]*tag[^>]*>","")

然后html解码特殊字符，如&结果不应该被认为是消毒的。

2008-10-27 23:52:37

要获得格式化的纯html文本，您可以这样做:

String BR_ESCAPED = "&lt;br/&gt;";
Element el=Jsoup.parse(html).select("body");
el.select("br").append(BR_ESCAPED);
el.select("p").append(BR_ESCAPED+BR_ESCAPED);
el.select("h1").append(BR_ESCAPED+BR_ESCAPED);
el.select("h2").append(BR_ESCAPED+BR_ESCAPED);
el.select("h3").append(BR_ESCAPED+BR_ESCAPED);
el.select("h4").append(BR_ESCAPED+BR_ESCAPED);
el.select("h5").append(BR_ESCAPED+BR_ESCAPED);
String nodeValue=el.text();
nodeValue=nodeValue.replaceAll(BR_ESCAPED, "<br/>");
nodeValue=nodeValue.replaceAll("(\\s*<br[^>]*>){3,}", "<br/><br/>");

要获得格式化的纯文本，将<br/>更改\n，并更改最后一行:

nodeValue=nodeValue.replaceAll("(\\s*\n){3,}", "<br/><br/>");

2013-04-25 16:57:13

在Android上试试这个:

String result = Html.fromHtml(html).toString();

2015-05-04 04:29:30

我知道这是旧的，但我只是在一个项目，需要我过滤HTML，这工作得很好:

noHTMLString.replaceAll("\\&.*?\\;", "");

而不是这样:

html = html.replaceAll("&nbsp;","");
html = html.replaceAll("&amp;"."");

2011-06-07 14:13:22

简单地执行JSoup .parse(html).text()有两个潜在的问题(对于JSoup 1.7.3):

它从文本中删除换行符它转换文本<脚本>>到<脚本

如果您使用它来防止XSS，这有点烦人。下面是我在一个改进的解决方案中最好的尝试，使用JSoup和Apache StringEscapeUtils:

// breaks multi-level of escaping, preventing &amp;lt;script&amp;gt; to be rendered as <script>
String replace = input.replace("&amp;", "");
// decode any encoded html, preventing &lt;script&gt; to be rendered as <script>
String html = StringEscapeUtils.unescapeHtml(replace);
// remove all html tags, but maintain line breaks
String clean = Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
// decode html again to convert character entities back into text
return StringEscapeUtils.unescapeHtml(clean);

注意，最后一步是因为我需要将输出作为纯文本使用。如果您只需要HTML输出，那么您应该能够删除它。

下面是一堆测试用例(从输入到输出):

{"regular string", "regular string"},
{"<a href=\"link\">A link</a>", "A link"},
{"<script src=\"http://evil.url.com\"/>", ""},
{"&lt;script&gt;", ""},
{"&amp;lt;script&amp;gt;", "lt;scriptgt;"}, // best effort
{"\" ' > < \n \\ é å à ü and & preserved", "\" ' > < \n \\ é å à ü and & preserved"}

如果你有办法让它变得更好，请告诉我。

2014-05-13 04:12:35

从字符串中删除HTML标签

推荐文章

最新文章

标签