在我们的应用程序中,我们从不同的来源接收文本文件(.txt, .csv等)。读取时,这些文件有时包含垃圾,因为这些文件是在不同的/未知的代码页中创建的。

是否有一种方法(自动)检测文本文件的代码页?

detectEncodingFromByteOrderMarks,在StreamReader构造函数上,适用于UTF8和其他unicode标记的文件,但我正在寻找一种方法来检测代码页,如ibm850, windows1252。


谢谢你的回答,这就是我所做的。

我们收到的文件来自最终用户,他们没有关于代码页的线索。接收者也是最终用户,到目前为止,这是他们对代码页的了解:代码页存在,并且令人讨厌。

解决方案:

在记事本中打开收到的文件,查看一段乱码的文本。如果有人叫François之类的,凭你的智商你就能猜出来。 我已经创建了一个小应用程序,用户可以使用它打开文件,并输入用户知道它将出现在文件中的文本,当使用正确的代码页时。 遍历所有代码页,并显示包含用户提供的文本的解决方案的代码页。 如果多个代码页同时弹出,请用户指定更多文本。


当前回答

我实际上是在寻找一种通用的,而不是编程的方法来检测文件编码,但我还没有找到。 通过测试不同的编码,我发现我的文本是UTF-7。

我第一次做的是 StreamReader文件= file . opentext (fullfilename);

我不得不把它改成: StreamReader文件=新的StreamReader(fullfilename, System.Text.Encoding.UTF7);

OpenText假设它是UTF-8。

你也可以像这样创建StreamReader new StreamReader(fullfilename, true),第二个参数意味着它应该尝试从文件的byteordermark中检测编码,但这在我的例子中不起作用。

其他回答

通过输入cpanm Text::Unaccent::PurePerl,这会生成一个build.log文件,在一些应用程序中显示为中文,在其他应用程序中显示为英文。cpanm是初始文本,一个合理的尝试,如果你足够幸运,在语言中有空格,是通过统计测试来比较单词的分布频率

您无法检测到代码页

这显然是错误的。每个web浏览器都有某种通用字符集检测器来处理没有任何编码指示的页面。Firefox就有一个。您可以下载代码并查看它是如何执行的。请在这里查看一些文档。基本上,这是一种启发式,但效果非常好。

给定合理数量的文本,甚至可以检测语言。

这是我刚刚用谷歌发现的另一个:

10年(!)已经过去了,我仍然没有看到MS的好的、非gpl的解决方案:IMultiLanguage2 API。

前面提到的大多数库都是基于Mozilla的UDE的——浏览器已经解决了类似的问题,这似乎是合理的。我不知道chrome的解决方案是什么,但自从IE 5.0 MS发布了他们的解决方案,它是:

没有gpl之类的许可问题, 可能是永远的支持和维护 给出丰富的输出-所有编码/编码页的有效候选以及置信度分数, 非常容易使用(它是一个单一的函数调用)。

它是一个原生COM调用,但这里有Carsten Zeumer的一些非常好的工作,它处理了。net使用中的互操作混乱。周围还有一些其他的图书馆,但总的来说,这个图书馆没有得到应有的关注。

我在Python中做过类似的事情。基本上,您需要来自各种编码的大量示例数据,这些数据由一个滑动的两字节窗口分解并存储在字典(散列)中,以提供编码列表值的字节对为键值。

给定这个字典(哈希),你把你的输入文本:

如果它以任何BOM字符开头('\xfe\xff'用于UTF-16-BE, '\xff\xfe'用于UTF-16-LE, '\xef\xbb\xbf'用于UTF-8等),我将其视为建议 如果不是,那么取足够大的文本样本,取样本的所有字节对,并选择从字典中建议的最不常见的编码。

如果您还采样了不以任何BOM开头的UTF编码文本,那么第二步将涵盖从第一步中遗漏的文本。

到目前为止,它对我来说是有效的(示例数据和后续输入数据是各种语言的字幕),错误率正在降低。

你有没有尝试过c#移植到Mozilla通用字符集检测器

例子来自http://code.google.com/p/ude/

public static void Main(String[] args)
{
    string filename = args[0];
    using (FileStream fs = File.OpenRead(filename)) {
        Ude.CharsetDetector cdet = new Ude.CharsetDetector();
        cdet.Feed(fs);
        cdet.DataEnd();
        if (cdet.Charset != null) {
            Console.WriteLine("Charset: {0}, confidence: {1}", 
                 cdet.Charset, cdet.Confidence);
        } else {
            Console.WriteLine("Detection failed.");
        }
    }
}