从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

你可以简单地用多个replaceAll()方法像

String RemoveTag(String html){
   html = html.replaceAll("\\<.*?>","")
   html = html.replaceAll("&nbsp;","");
   html = html.replaceAll("&amp;"."");
   ----------
   ----------
   return html;
}

使用这个链接，你需要的最常见的替换: http://tunes.org/wiki/html_20special_20characters_20and_20symbols.html

这很简单，但很有效。我使用这个方法首先删除垃圾，但不是第一行，即replaceAll(“\<.*?>”，“”)，然后我使用特定的关键字搜索索引，然后使用.substring(开始，结束)方法去除不必要的东西。因为这更健壮，你可以在整个html页面中准确地指出你需要什么。

2010-11-17 01:44:07

其他回答

如果用户输入hey!， do you want display hey!或hey!?如果是第一个，转义小于号和html编码的&号(可选的还有引号)，就没问题了。对代码进行修改以实现第二个选项将是:

replaceAll("\\<[^>]*>","")

但是如果用户输入一些格式不正确的东西，比如<bhey!，就会遇到问题。

你也可以检查JTidy，它将解析“脏”html输入，并应该给你一种方法来删除标签，保留文本。

尝试剥离html的问题是浏览器具有非常宽松的解析器，比您能找到的任何库都要宽松，因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy)，您仍然需要确保对任何剩余的html特殊字符进行编码，以保证输出的安全。

2008-10-27 17:00:33

HTML转义真的很难做对-我绝对建议使用库代码来做这件事，因为它比你想象的要微妙得多。在Apache的StringEscapeUtils中有一个非常好的库，可以在Java中处理这个问题。

2008-10-27 17:03:56

〇应该可以

使用这个

  text.replaceAll('<.*?>' , " ") -> This will replace all the html tags with a space.

这

  text.replaceAll('&.*?;' , "")-> this will replace all the tags which starts with "&" and ends with ";" like &nbsp;, &amp;, &gt; etc.

2017-06-30 11:42:51

您可能希望在剥离HTML之前将 和标记替换为换行符，以防止它像Tim建议的那样变得难以识别。

我能想到的唯一方法是删除HTML标记，但在尖括号之间留下非HTML标记，将检查HTML标记列表。沿着这条线……

replaceAll("\\<[\s]*tag[^>]*>","")

然后html解码特殊字符，如&结果不应该被认为是消毒的。

2008-10-27 23:52:37

听起来好像您想从HTML转换为纯文本。如果是这样的话，请查看www.htmlparser.org。下面是一个示例，它从URL中找到的html文件中剥离所有标记。它使用org.htmlparser.beans.StringBean。

static public String getUrlContentsAsText(String url) {
    String content = "";
    StringBean stringBean = new StringBean();
    stringBean.setURL(url);
    content = stringBean.getStrings();
    return content;
}

2009-01-18 02:16:17

从字符串中删除HTML标签

推荐文章

最新文章

标签