从文本JavaScript中删除HTML

有没有一种简单的方法可以在JavaScript中获取一个html字符串并去掉html？

当前回答

我想分享一下Shog9批准答案的编辑版本。

正如Mike Samuel在评论中指出的那样，该函数可以执行内联javascript代码。但Shog9说“让浏览器为你做……”是对的

所以…这里是我的编辑版本，使用DOMParser：

function strip(html){
   let doc = new DOMParser().parseFromString(html, 'text/html');
   return doc.body.textContent || "";
}

这里是测试内联javascript的代码：

strip("<img onerror='alert(\"could run arbitrary JS here\")' src=bogus>")

此外，它不会在解析时请求资源（如图像）

strip("Just text <img src='https://assets.rbl.ms/4155638/980x.jpg'>")

2017-11-06 15:46:44

其他回答

很多人已经回答了这个问题，但我认为分享我编写的函数可能会有用，该函数可以从字符串中删除HTML标记，但允许您包含一个不希望删除的标记数组。它很短，对我来说一直很好。

function removeTags(string, array){
  return array ? string.split("<").filter(function(val){ return f(array, val); }).map(function(val){ return f(array, val); }).join("") : string.split("<").map(function(d){ return d.split(">").pop(); }).join("");
  function f(array, value){
    return array.map(function(d){ return value.includes(d + ">"); }).indexOf(true) != -1 ? "<" + value : value.split(">")[1];
  }
}

var x = "<span><i>Hello</i> <b>world</b>!</span>";
console.log(removeTags(x)); // Hello world!
console.log(removeTags(x, ["span", "i"])); // <span><i>Hello</i> world!</span>

2017-01-27 06:55:53

https://developer.mozilla.org/en-US/docs/Web/API/Element/insertAdjacentHTML

var div = document.getElementsByTagName('div');
for (var i=0; i<div.length; i++) {
    div[i].insertAdjacentHTML('afterend', div[i].innerHTML);
    document.body.removeChild(div[i]);
}

2019-02-09 12:48:26

输入元素仅支持单行文本：

文本状态表示元素值的单行纯文本编辑控件。

function stripHtml(str) {
  var tmp = document.createElement('input');
  tmp.value = str;
  return tmp.value;
}

更新：这是预期的

function stripHtml(str) {
  // Remove some tags
  str = str.replace(/<[^>]+>/gim, '');

  // Remove BB code
  str = str.replace(/\[(\w+)[^\]]*](.*?)\[\/\1]/g, '$2 ');

  // Remove html and line breaks
  const div = document.createElement('div');
  div.innerHTML = str;

  const input = document.createElement('input');
  input.value = div.textContent || div.innerText || '';

  return input.value;
}

2017-06-14 14:32:08

这是一个解决@MikeSamuel安全问题的版本：

function strip(html)
{
   try {
       var doc = document.implementation.createDocument('http://www.w3.org/1999/xhtml', 'html', null);
       doc.documentElement.innerHTML = html;
       return doc.documentElement.textContent||doc.documentElement.innerText;
   } catch(e) {
       return "";
   }
}

注意，如果HTML标记不是有效的XML，它将返回一个空字符串（也就是，标记必须关闭，属性必须引用）。这并不理想，但确实避免了潜在的安全漏洞问题。

如果不需要有效的XML标记，可以尝试使用：

var doc = document.implementation.createHTMLDocument("");

但出于其他原因，这也不是一个完美的解决方案。

2012-07-12 20:38:21

我只需要去掉＜a＞标签，并用链接的文本替换它们。

这似乎很有效。

htmlContent= htmlContent.replace(/<a.*href="(.*?)">/g, '');
htmlContent= htmlContent.replace(/<\/a>/g, '');

2013-08-19 16:12:49

从文本JavaScript中删除HTML

推荐文章

最新文章

标签