从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

试试javascript:

const strippedString = htmlString.replace(/(<([^>]+)>)/gi, "");
console.log(strippedString);

2020-09-10 14:36:16

其他回答

如果你是为Android编写程序，你可以这样做……

androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY) .toString ()

2011-06-17 12:48:08

我的5美分:

String[] temp = yourString.split("&amp;");
String tmp = "";
if (temp.length > 1) {

    for (int i = 0; i < temp.length; i++) {
        tmp += temp[i] + "&";
    }
    yourString = tmp.substring(0, tmp.length() - 1);
}

2011-08-09 14:40:15

这里是如何替换所有(HTML标签| HTML实体|空白的HTML内容)的另一个变体

content.replaceAll ("(<.*?>)|(&.*?;)|([ ]{ 2 ,})", "");其中content是一个字符串。

2018-06-20 07:36:44

试试javascript:

const strippedString = htmlString.replace(/(<([^>]+)>)/gi, "");
console.log(strippedString);

2020-09-10 14:36:16

使用HTML解析器而不是正则表达式。这对于Jsoup来说非常简单。

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoup还支持根据可定制的白名单删除HTML标记，如果您只想允许<b>， <i>和<u>，这是非常有用的。

参见:

RegEx匹配打开标记，但XHTML自包含标记除外主要的Java HTML解析器的优缺点是什么? JSP/Servlet web应用中的跨站防护

2010-06-30 13:24:48

从字符串中删除HTML标签

推荐文章

最新文章

标签