从字符串中删除HTML标签

是否有一个好方法从Java字符串中删除HTML ?一个简单的正则表达式

replaceAll("\\<.*?>", "")

会起作用，但有些东西像&将不能正确地转换，并且两个尖括号之间的非html将被删除(即。*?在正则表达式中将消失)。

当前回答

您可能希望在剥离HTML之前将<br/>和</p>标记替换为换行符，以防止它像Tim建议的那样变得难以识别。

我能想到的唯一方法是删除HTML标记，但在尖括号之间留下非HTML标记，将检查HTML标记列表。沿着这条线……

replaceAll("\\<[\s]*tag[^>]*>","")

然后html解码特殊字符，如&结果不应该被认为是消毒的。

2008-10-27 23:52:37

其他回答

你可以简单地使用Android默认的HTML过滤器

    public String htmlToStringFilter(String textToFilter){

    return Html.fromHtml(textToFilter).toString();

    }

上面的方法将为您的输入返回经过HTML过滤的字符串。

2019-03-29 08:37:20

如果你是为Android编写程序，你可以这样做……

androidx.core.text.HtmlCompat.fromHtml(指令,HtmlCompat.FROM_HTML_MODE_LEGACY) .toString ()

2011-06-17 12:48:08

你可以使用这个方法从字符串中删除HTML标签，

public static String stripHtmlTags(String html) {

    return html.replaceAll("<.*?>", "");

}

2021-03-01 15:44:46

这里有另一种方法:

public static String removeHTML(String input) {
    int i = 0;
    String[] str = input.split("");

    String s = "";
    boolean inTag = false;

    for (i = input.indexOf("<"); i < input.indexOf(">"); i++) {
        inTag = true;
    }
    if (!inTag) {
        for (i = 0; i < str.length; i++) {
            s = s + str[i];
        }
    }
    return s;
}

2011-10-16 11:37:58

我知道这个问题已经有一段时间没有被问到了，但我找到了另一个解决方案，这对我来说很有效:

Pattern REMOVE_TAGS = Pattern.compile("<.+?>");
    Source source= new Source(htmlAsString);
 Matcher m = REMOVE_TAGS.matcher(sourceStep.getTextExtractor().toString());
                        String clearedHtml= m.replaceAll("");

2020-05-25 11:14:50

从字符串中删除HTML标签

推荐文章

最新文章

标签