是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会起作用,但有些东西像&将不能正确地转换,并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。
是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会起作用,但有些东西像&将不能正确地转换,并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。
当前回答
有时html字符串来自xml,带有这样的<。在使用Jsoup时,我们需要解析它,然后清理它。
Document doc = Jsoup.parse(htmlstrl);
Whitelist wl = Whitelist.none();
String plain = Jsoup.clean(doc.text(), wl);
而仅使用Jsoup.parse(htmlstrl).text()不能删除标签。
其他回答
另一种方法是使用com.google.gdata.util.common.html.HtmlToText类 就像
MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));
虽然这不是防弹代码,但当我在维基百科条目上运行它时,我也得到了风格信息。然而,我相信对于小/简单的工作,这将是有效的。
classeString.replaceAll("\\<(/?[^\\>]+)\\>", "\\ ").replaceAll("\\s+", " ").trim()
或者,可以使用HtmlCleaner:
private CharSequence removeHtmlFrom(String html) {
return new HtmlCleaner().clean(html).getText();
}
从字符串中删除HTML标签。在某个地方,我们需要解析一些字符串,这些字符串是由服务器端的Httpresponse等响应接收到的。
所以我们需要解析它。
在这里,我将展示如何从字符串中删除html标签。
// sample text with tags
string str = "<html><head>sdfkashf sdf</head><body>sdfasdf</body></html>";
// regex which match tags
System.Text.RegularExpressions.Regex rx = new System.Text.RegularExpressions.Regex("<[^>]*>");
// replace all matches with empty strin
str = rx.Replace(str, "");
//now str contains string without html tags
如果用户输入<b>hey!</b>, do you want display <b>hey!</b>或hey!?如果是第一个,转义小于号和html编码的&号(可选的还有引号),就没问题了。对代码进行修改以实现第二个选项将是:
replaceAll("\\<[^>]*>","")
但是如果用户输入一些格式不正确的东西,比如<bhey!</b>,就会遇到问题。
你也可以检查JTidy,它将解析“脏”html输入,并应该给你一种方法来删除标签,保留文本。
尝试剥离html的问题是浏览器具有非常宽松的解析器,比您能找到的任何库都要宽松,因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy),您仍然需要确保对任何剩余的html特殊字符进行编码,以保证输出的安全。