我如何确定文件编码在OS X?

我试图在TextMate中输入一些UTF-8字符到LaTeX文件(它说它的默认编码是UTF-8)，但LaTeX似乎不理解它们。

运行cat my_file.tex可以在Terminal中正确显示字符。运行ls -al会显示一些我以前从未见过的东西:文件列表旁边的“@”:

-rw-r--r--@  1 me      users      2021 Feb 11 18:05 my_file.tex

(并且，是的，我在LaTeX中使用\usepackage[utf8]{inputenc}。)

我找到了iconv，但这似乎不能告诉我编码是什么-它只会转换一旦我弄清楚。

当前回答

Synalyze它!允许比较ICU库提供的所有编码中的文本或字节。使用该功能，您通常会立即看到哪个代码页对您的数据有意义。

其他回答

只使用:

file -I <filename>

就是这样。

你用的是哪种乳胶?当我使用teTeX时，我必须手动下载unicode包，并将其添加到我的.tex文件中:

% UTF-8 stuff
\usepackage[notipa]{ucs}
\usepackage[utf8x]{inputenc}
\usepackage[T1]{fontenc}

现在，我已经从TeXlive 2008包切换到XeTeX(这里)，它甚至更简单:

% UTF-8 stuff
\usepackage{fontspec}
\usepackage{xunicode}

至于检测文件的编码，您可以使用file(1)(但它相当有限)，但就像其他人所说的那样，这很困难。

检查编码的强制方法可能只是在十六进制编辑器或类似工具中检查文件。(或编写程序检查)查看文件中的二进制数据。UTF-8格式相当容易识别。所有ASCII字符都是单字节，值低于128 (0x80) 多字节序列遵循wiki文章中显示的模式

如果您能找到一种更简单的方法来让程序为您验证编码，这显然是一种捷径，但如果所有其他方法都失败了，那么这个方法就可以了。

Synalyze它!允许比较ICU库提供的所有编码中的文本或字节。使用该功能，您通常会立即看到哪个代码页对您的数据有意义。

在终端中输入文件myfile.tex有时可以使用一系列算法和神奇数字告诉您文件的编码和类型。它相当有用，但不要依赖它提供具体或可靠的信息。

可以定位的。字符串文件(在本地化的Mac OS X应用程序中找到)通常报告为utf - 16c源文件。

推荐文章