是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会起作用,但有些东西像&将不能正确地转换,并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。
是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式
replaceAll("\\<.*?>", "")
会起作用,但有些东西像&将不能正确地转换,并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。
当前回答
听起来好像您想从HTML转换为纯文本。 如果是这样的话,请查看www.htmlparser.org。下面是一个示例,它从URL中找到的html文件中剥离所有标记。 它使用org.htmlparser.beans.StringBean。
static public String getUrlContentsAsText(String url) {
String content = "";
StringBean stringBean = new StringBean();
stringBean.setURL(url);
content = stringBean.getStrings();
return content;
}
其他回答
或者,可以使用HtmlCleaner:
private CharSequence removeHtmlFrom(String html) {
return new HtmlCleaner().clean(html).getText();
}
另一种方法是使用com.google.gdata.util.common.html.HtmlToText类 就像
MyWriter.toConsole(HtmlToText.htmlToPlainText(htmlResponse));
虽然这不是防弹代码,但当我在维基百科条目上运行它时,我也得到了风格信息。然而,我相信对于小/简单的工作,这将是有效的。
使用Jericho也非常简单,并且可以保留一些格式(例如换行符和链接)。
Source htmlSource = new Source(htmlText);
Segment htmlSeg = new Segment(htmlSource, 0, htmlSource.length());
Renderer htmlRend = new Renderer(htmlSeg);
System.out.println(htmlRend.toString());
如果用户输入<b>hey!</b>, do you want display <b>hey!</b>或hey!?如果是第一个,转义小于号和html编码的&号(可选的还有引号),就没问题了。对代码进行修改以实现第二个选项将是:
replaceAll("\\<[^>]*>","")
但是如果用户输入一些格式不正确的东西,比如<bhey!</b>,就会遇到问题。
你也可以检查JTidy,它将解析“脏”html输入,并应该给你一种方法来删除标签,保留文本。
尝试剥离html的问题是浏览器具有非常宽松的解析器,比您能找到的任何库都要宽松,因此即使您尽力剥离所有标记(使用上面的替换方法、DOM库或JTidy),您仍然需要确保对任何剩余的html特殊字符进行编码,以保证输出的安全。
你可以使用这个方法从字符串中删除HTML标签,
public static String stripHtmlTags(String html) {
return html.replaceAll("<.*?>", "");
}