如何从。net中的字符串中删除变音符(重音)?

我试图转换一些字符串，在法国加拿大，基本上，我想能够拿出法国重音标记在字母，同时保持字母。(例如，将é转换为e，那么crème brûlée就会变成creme brulee)

实现这一目标的最佳方法是什么?

当前回答

在这里弹出这个库，如果您还没有考虑过的话。看起来有一个完整的单元测试。

https://github.com/thomasgalliker/Diacritics.NET

2017-05-21 21:10:25

其他回答

这就是我如何在所有的。net程序中替换变音符字符为非变音符字符

C#:

//Transforms the culture of a letter to its equivalent representation in the 0-127 ascii table, such as the letter 'é' is substituted by an 'e'
public string RemoveDiacritics(string s)
{
    string normalizedString = null;
    StringBuilder stringBuilder = new StringBuilder();
    normalizedString = s.Normalize(NormalizationForm.FormD);
    int i = 0;
    char c = '\0';

    for (i = 0; i <= normalizedString.Length - 1; i++)
    {
        c = normalizedString[i];
        if (CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
        {
            stringBuilder.Append(c);
        }
    }

    return stringBuilder.ToString().ToLower();
}

VB .NET:

'Transforms the culture of a letter to its equivalent representation in the 0-127 ascii table, such as the letter "é" is substituted by an "e"'
Public Function RemoveDiacritics(ByVal s As String) As String
    Dim normalizedString As String
    Dim stringBuilder As New StringBuilder
    normalizedString = s.Normalize(NormalizationForm.FormD)
    Dim i As Integer
    Dim c As Char

    For i = 0 To normalizedString.Length - 1
        c = normalizedString(i)
        If CharUnicodeInfo.GetUnicodeCategory(c) <> UnicodeCategory.NonSpacingMark Then
            stringBuilder.Append(c)
        End If
    Next
    Return stringBuilder.ToString().ToLower()
End Function

2013-08-01 18:55:31

与接受的答案相同，但更快，使用Span而不是StringBuilder。需要。net Core 3.1或更新的。net。

static string RemoveDiacritics(string text) 
{
    ReadOnlySpan<char> normalizedString = text.Normalize(NormalizationForm.FormD);
    int i = 0;
    Span<char> span = text.Length < 1000
        ? stackalloc char[text.Length]
        : new char[text.Length];

    foreach (char c in normalizedString)
    {
        if (CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
            span[i++] = c;
    }

    return new string(span).Normalize(NormalizationForm.FormC);
}

此外，这是可扩展的额外字符替换，如抛光Ł。

span[i++] = c switch
{
    'Ł' => 'L',
    'ł' => 'l',
    _ => c
};

一个小提示:堆栈分配stackalloc比堆分配new要快得多，它为垃圾收集器减少了工作。1000是一个阈值，以避免在堆栈上分配大结构，这可能会导致StackOverflowException。虽然1000是一个相当安全的值，但在大多数情况下10000甚至100000也可以(100k在堆栈上分配最多200kB，而默认堆栈大小为1mb)。然而10万对我来说有点危险。

2021-04-21 06:09:41

我没有使用过这种方法，但是Michael Kaplan在他的博客文章(有一个令人困惑的标题)中描述了一种方法，谈论剥离变音符:剥离是一项有趣的工作(又名剥离) 论无意义的意义，即一切 Mn字符是非空格的，但是有些更非间距比其他人)

static string RemoveDiacritics(string text) 
{
    var normalizedString = text.Normalize(NormalizationForm.FormD);
    var stringBuilder = new StringBuilder(capacity: normalizedString.Length);

    for (int i = 0; i < normalizedString.Length; i++)
    {
        char c = normalizedString[i];
        var unicodeCategory = CharUnicodeInfo.GetUnicodeCategory(c);
        if (unicodeCategory != UnicodeCategory.NonSpacingMark)
        {
            stringBuilder.Append(c);
        }
    }

    return stringBuilder
        .ToString()
        .Normalize(NormalizationForm.FormC);
}

请注意，这是他之前帖子的后续:剥离变音符....

该方法使用String。Normalize将输入字符串分割为组成符号(基本上是将“基本”字符与变音符符分开)，然后扫描结果并仅保留基本字符。这只是有点复杂，但实际上你看到的是一个复杂的问题。

当然，如果你限制自己使用法语，你可能会使用@David Dibben推荐的如何在c++ std::string中删除重音和波浪号的简单基于表的方法。

2008-10-30 02:29:01

你可以从MMLib中使用字符串扩展。扩展nuget包:

using MMLib.RapidPrototyping.Generators;
public void ExtensionsExample()
{
  string target = "aácčeéií";
  Assert.AreEqual("aacceeii", target.RemoveDiacritics());
}

Nuget页面:https://www.nuget.org/packages/MMLib.Extensions/ Codeplex项目网站https://mmlib.codeplex.com/

2013-12-30 10:25:13

这段代码对我很有用:

var updatedText = text.Normalize(NormalizationForm.FormD)
     .Where(c => CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
     .ToArray();

但是，请不要对名字这样做。这不仅是对名字中有变音或口音的人的侮辱，在某些情况下也可能是危险的错误(见下文)。除了去掉重音，还有其他的写法。

此外，这是错误和危险的，例如，如果用户必须如实提供护照上的名字。

例如，我的名字写着Zuberbühler，在我护照的机读部分，你会发现祖伯布勒。去掉变音后，名字将与两个部分都不匹配。这可能会给用户带来问题。

您应该禁止在名字的输入表单中使用变音/重音，以便用户可以正确地书写没有变音或重音的名字。

例如，如果申请ESTA的web服务(https://www.application-esta.co.uk/special-characters-and)使用上述代码，而不是正确地转换变音，ESTA申请要么会被拒绝，要么旅行者在进入美国时将与美国边境控制出现问题。

另一个例子是机票。假设您有一个机票预订web应用程序，用户提供带有重音的名字，您的实现只是删除重音，然后使用航空公司的web服务预订机票!您的客户可能不被允许登机，因为姓名与他/她护照的任何部分不匹配。

2020-09-03 17:45:14

如何从。net中的字符串中删除变音符(重音)?

推荐文章

最新文章

标签