如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

如果谈论的是XML文件(ISO-8859-1)，其中的XML声明指定了编码:<??> . xml version="1.0" encoding="ISO-8859-1" 因此，您可以使用正则表达式(例如，使用Perl)来检查每个文件是否有这样的规范。

更多信息可以在这里找到:如何确定文本文件编码。

2012-01-27 14:31:38

其他回答

这不是一件万无一失的事情。一种可能是检查文件中的每个字符，以确保它不包含0x00 - 0x1f或0x7f -0x9f范围内的任何字符，但正如我所说，这可能适用于任何数量的文件，包括至少一个ISO 8859的其他变体。

另一种可能是在文件中以所有支持的语言查找特定的单词，看看是否能找到它们。

因此，例如，在ISO 8859-1支持的所有语言中，找到与英语“and”、“but”、“to”、“of”等等价的单词，并查看它们是否在文件中大量出现。

我说的不是直译，比如:

English   French
-------   ------
of        de, du
and       et
the       le, la, les

尽管这是可能的。我说的是目标语言中的常用词(据我所知，冰岛语中没有“和”这个词——你可能得用他们的词来表示“鱼”[抱歉，这有点老套]。我没有任何冒犯的意思，只是说明一个观点)。

2009-04-30 05:45:24

更多信息可以在这里找到:如何确定文本文件编码。

2012-01-27 14:31:38

真的很难确定它是否是ISO 8859-1。如果你有一个只有7位字符的文本，也可能是ISO 8859-1，但你不知道。如果你有8位字符，那么上区域字符也存在于顺序编码中。因此，你必须使用字典来更好地猜测它是哪个单词，并从中确定它必须是哪个字母。最后，如果您检测到它可能是UTF-8，那么您可以确定它不是ISO 8859-1。

编码是最难做的事情之一，因为你永远不知道是否没有任何东西告诉你。

2009-04-30 07:13:47

在Python中，你可以使用chardet模块。

2011-07-18 14:55:14

下面是一个在Mac OS X上使用file -I和iconv的示例脚本。

对于你的问题，你需要使用mv而不是iconv:

#!/bin/bash
# 2016-02-08
# check encoding and convert files
for f in *.java
do
  encoding=`file -I $f | cut -f 2 -d";" | cut -f 2 -d=`
  case $encoding in
    iso-8859-1)
    iconv -f iso8859-1 -t utf-8 $f > $f.utf8
    mv $f.utf8 $f
    ;;
  esac
done

2016-02-08 16:53:37

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签