代码之家 › 专栏 › 技术社区 › GeReV

.NET的string.normalize是做什么的?

string .net

GeReV · 技术社区 · 15 年前

这个 MSDN article on String.Normalize 简单地说:

返回二进制表示形式为特定Unicode规范化形式的新字符串。

有时也指“Unicode规范化形式C”。

我只是想知道,这是什么意思?这种功能在现实生活中是如何发挥作用的?

4 回复 | 直到 7 年前

Oded 15 年前

它确保可以比较Unicode字符串是否相等(即使它们使用不同的Unicode编码)。

来自Unicode标准 Annex #15 :

本质上,Unicode规范化算法将所有组合标记按指定的顺序放置,并使用分解和组合规则将每个字符串转换为Unicode规范化形式之一。然后对转换后的字符串进行二进制比较,确定等价性。

Hans Keï¬ing 7 年前

形式C和形式D的一个区别是如何表示带重音的字母:形式C使用带重音代码点的单个字母,而形式D将其分为字母和重音。

例如,“_”可以是代码点224(“带抑音符的拉丁文小写字母A”),或代码点97(“拉丁文小写字母A”),后跟代码点786(“组合抑音符”)。

一个副作用是这使得很容易创建一个“删除重音”方法成为可能。

    public static string RemoveAccents(string input)
    {
        return new string(
            input
            .Normalize(System.Text.NormalizationForm.FormD)
            .ToCharArray()
            .Where(c => CharUnicodeInfo.GetUnicodeCategory(c) != UnicodeCategory.NonSpacingMark)
            .ToArray());
        // the normalization to FormD splits accented letters in accents+letters
        // the rest removes those accents (and other non-spacing characters)
    }