从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

使用HTML解析器而不是正则表达式。这对于Jsoup来说非常简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持根据可定制的白名单删除HTML标记，如果您只想允许， 和，这是非常有用的。

参见:

RegEx匹配打开标记，但XHTML自包含标记除外主要的Java HTML解析器的优缺点是什么? JSP/Servlet web应用中的跨站防护

2010-06-30 13:24:48

其他回答

使用Html.fromHtml

HTML标签是

<a href=”…”> <b>,  <big>, <blockquote>, <br>, <cite>, <dfn>
<div align=”…”>,  <em>, <font size=”…” color=”…” face=”…”>
<h1>,  <h2>, <h3>, <h4>,  <h5>, <h6>
<i>, <p>, <small>
<strike>,  <strong>, <sub>, <sup>, <tt>, <u>

根据Android的官方文档，HTML中的任何标签都将显示为一个通用的替换字符串，你的程序可以通过并替换为真正的字符串。

超文本标记语言formHtml方法接受一个Html。TagHandler和Html。ImageGetter作为参数以及要解析的文本。

例子

String Str_Html=" <p>This is about me text that the user can put into their profile</p> ";

Then

Your_TextView_Obj.setText(Html.fromHtml(Str_Html).toString());

输出

这是关于我的文本，用户可以放入他们的个人资料

2015-11-23 12:11:20

另一种方法是使用com.google.gdata.util.common.html.HtmlToText类就像

MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));

虽然这不是防弹代码，但当我在维基百科条目上运行它时，我也得到了风格信息。然而，我相信对于小/简单的工作，这将是有效的。

2010-08-06 18:23:34

〇应该可以

使用这个

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

这

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

2017-06-30 11:42:51

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

我经常发现我只需要去掉注释和脚本元素。这已经为我可靠地工作了15年，可以很容易地扩展到处理HTML或XML中的任何元素名称:

// delete all comments
response = response.replaceAll("<!--[^>]*-->", "");
// delete all script elements
response = response.replaceAll("<(script|SCRIPT)[^+]*?>[^>]*?<(/script|SCRIPT)>", "");

2020-08-23 21:14:52

从字符串中删除HTML标签

推荐文章

最新文章

标签