从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

如果你是为Android编写程序，你可以这样做……

androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY) .toString ()

2011-06-17 12:48:08

其他回答

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类就像

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

虽然这不是防弹代码，但当我在维基百科条目上运行它时，我也得到了风格信息。然而，我相信对于小/简单的工作，这将是有效的。

2010-08-06 18:23:34

使用Jericho也非常简单，并且可以保留一些格式(例如换行符和链接)。

    Source htmlSource = new Source(htmlText);
    Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
    Renderer htmlRend = new Renderer(htmlSeg);
    System.out.println(htmlRend.toString());

2011-08-05 21:11:49

这里是如何替换所有(HTML标签| HTML实体|空白的HTML内容)的另一个变体

content.replaceAll ("(<.*?>)|(&.*?;)|([ ]{ 2 ,})", "");其中content是一个字符串。

2018-06-20 07:36:44

你可以使用这个方法从字符串中删除HTML标签，

public static String stripHtmlTags(String html) {

    return html.replaceAll("<.*?>", "");

}

2021-03-01 15:44:46

有时html字符串来自xml，带有这样的&lt。在使用Jsoup时，我们需要解析它，然后清理它。

Document doc = Jsoup.parse(htmlstrl);
Whitelist wl = Whitelist.none();
String plain = Jsoup.clean(doc.text(), wl);

而仅使用Jsoup.parse(htmlstrl).text()不能删除标签。

2020-09-03 09:03:15

从字符串中删除HTML标签

推荐文章

最新文章

标签