在JavaScript中删除字符串中的重音/变音符

如何从字符串中删除重音字符? 特别是在IE6中，我有这样的东西:

accentsTidy = function(s){
    var r=s.toLowerCase();
    r = r.replace(new RegExp(/\s/g),"");
    r = r.replace(new RegExp(/[àáâãäå]/g),"a");
    r = r.replace(new RegExp(/æ/g),"ae");
    r = r.replace(new RegExp(/ç/g),"c");
    r = r.replace(new RegExp(/[èéêë]/g),"e");
    r = r.replace(new RegExp(/[ìíîï]/g),"i");
    r = r.replace(new RegExp(/ñ/g),"n");                
    r = r.replace(new RegExp(/[òóôõö]/g),"o");
    r = r.replace(new RegExp(/œ/g),"oe");
    r = r.replace(new RegExp(/[ùúûü]/g),"u");
    r = r.replace(new RegExp(/[ýÿ]/g),"y");
    r = r.replace(new RegExp(/\W/g),"");
    return r;
};

但是IE6让我很烦，它好像不喜欢我的正则表达式。

当前回答

使用ES2015/ES6 String.prototype.normalize()，

const str = "Crème Brulée"
str.normalize("NFD").replace(/[\u0300-\u036f]/g, "")
> "Creme Brulee"

注意:如果你想让\uFB01(fi)标准化(到fi)，请使用NFKD。

这里发生了两件事:

Unicode标准格式将组合的字形分解为简单字形的组合。Crème的è最后表示为e + +。使用正则表达式字符类来匹配U+0300→U+036F范围，现在可以很容易地全局消除变音符，Unicode标准将其方便地分组为组合变音符标记Unicode块。

从2021年开始，还可以使用Unicode属性转义:

str.normalize("NFD").replace(/\p{Diacritic}/gu, "")

有关性能测试，请参阅注释。

或者，如果你只是想排序

Intl。Collator有足够的支持~95%现在，polyfill也可以在这里，但我还没有测试它。

const c = new Intl.Collator();
["creme brulee", "crème brulée", "crame brulai", "crome brouillé",
"creme brulay", "creme brulfé", "creme bruléa"].sort(c.compare)
["crame brulai", "creme brulay", "creme bruléa", "creme brulee",
"crème brulée", "creme brulfé", "crome brouillé"]


["creme brulee", "crème brulée", "crame brulai", "crome brouillé"].sort((a,b) => a>b)
["crame brulai", "creme brulee", "crome brouillé", "crème brulée"]

2016-05-29 15:06:27

其他回答

我发现所有这些都有点笨拙，而且我不太擅长正则表达式，所以这里有一个更简单的版本。将它翻译成你最喜欢的服务器端语言是很容易的，假设字符串已经在Unicode中:

// String containing replacement characters for stripping accents 
var stripstring = 
    'AAAAAAACEEEEIIII'+
    'DNOOOOO.OUUUUY..'+
    'aaaaaaaceeeeiiii'+
    'dnooooo.ouuuuy.y'+
    'AaAaAaCcCcCcCcDd'+
    'DdEeEeEeEeEeGgGg'+
    'GgGgHhHhIiIiIiIi'+
    'IiIiJjKkkLlLlLlL'+
    'lJlNnNnNnnNnOoOo'+
    'OoOoRrRrRrSsSsSs'+
    'SsTtTtTtUuUuUuUu'+
    'UuUuWwYyYZzZzZz.';

function stripaccents(str){
    var answer='';
    for(var i=0;i<str.length;i++){
        var ch=str[i];
        var chindex=ch.charCodeAt(0)-192;   // Index of character code in the strip string
        if(chindex>=0 && chindex<stripstring.length){
            // Character is within our table, so we can strip the accent...
            var outch=stripstring.charAt(chindex);
            // ...unless it was shown as a '.'
            if(outch!='.')ch=outch;
        }
        answer+=ch;
    }
    return answer;
}

2011-03-01 16:48:04

你可以用多种方式创建正则表达式。使用新的regexp -构造函数:

var re = new RegExp("[a-z]", "ig") //(string pattern, string modifiers)

或者使用正则表达式文字表示法:

var re = /[a-z]/ig; // /pattern/modifiers

你把两者混在一起了。

2009-06-13 16:06:04

有很多这样的方法，但我认为这个方法简单且足够好:

 function remove_accents(strAccents) {
    var strAccents = strAccents.split('');
    var strAccentsOut = new Array();
    var strAccentsLen = strAccents.length;
    var accents =    "ÀÁÂÃÄÅàáâãäåÒÓÔÕÕÖØòóôõöøÈÉÊËèéêëÇçðÐÌÍÎÏìíîïÙÚÛÜùúûüÑñŠšŸÿýŽž";
    var accentsOut = "AAAAAAaaaaaaOOOOOOOooooooEEEEeeeeCcdDIIIIiiiiUUUUuuuuNnSsYyyZz";
    for (var y = 0; y < strAccentsLen; y++) {
        if (accents.indexOf(strAccents[y]) != -1) {
            strAccentsOut[y] = accentsOut.substr(accents.indexOf(strAccents[y]), 1);
        } else
            strAccentsOut[y] = strAccents[y];
    }
    strAccentsOut = strAccentsOut.join('');

    return strAccentsOut;
}

如果你还想删除特殊字符，并转换下划线中的空格和连字符，请执行以下操作:

string = remove_accents(string);
string = string.replace(/[^a-z0-9\s]/gi, '').replace(/[-\s]/g, '_');

2018-04-08 13:13:35

您可以使用Lodash库中的_.deburr()方法。

它可以作为一个独立的NPM包lodash.deburr，也可以作为lodash包的一部分。

const myStringWithAccent = 'Mon café est plein de caféïne';
const myStringWithoutAccent = _.deburr( myStringWithAccent, );

结果就是:“我的咖啡里装满了咖啡因”

2017-07-12 09:14:37

标准化变音符是非常有用的

    const { normalize } = require('normalize-diacritics');
     
    /** Assuming top-level await is enabled... */
    await normalize('söme stüff with áccènts'); // 'some stuff with accents'

2020-10-13 16:32:25

在JavaScript中删除字符串中的重音/变音符

推荐文章

最新文章

标签