如何通过Linux上的脚本找到文件的编码?

我需要找到放在一个目录中的所有文件的编码。有没有办法找到所使用的编码?

file命令不能做到这一点。

我感兴趣的编码是ISO 8859-1。如果是其他编码，我想将文件移动到另一个目录。

当前回答

file -bi <file name>

如果你喜欢对一堆文件这样做

for f in `find | egrep -v Eliminate`; do echo "$f" ' -- ' `file -bi "$f"` ; done

2012-07-27 05:39:06

其他回答

在Python中，你可以使用chardet模块。

2011-07-18 14:55:14

您可以使用file命令提取单个文件的编码。我有一个sample.html文件:

$ file sample.html

HTML: HTML文档，UTF-8 Unicode文本，有很长的行

$ file -b sample.html

HTML文档，UTF-8 Unicode文本，有很长的行

$ file -bi sample.html

短信/ html;charset = utf-8

$ file -bi sample.html  | awk -F'=' '{print $2 }'

utf - 8

2018-04-05 17:08:21

真的很难确定它是否是ISO 8859-1。如果你有一个只有7位字符的文本，也可能是ISO 8859-1，但你不知道。如果你有8位字符，那么上区域字符也存在于顺序编码中。因此，你必须使用字典来更好地猜测它是哪个单词，并从中确定它必须是哪个字母。最后，如果您检测到它可能是UTF-8，那么您可以确定它不是ISO 8859-1。

编码是最难做的事情之一，因为你永远不知道是否没有任何东西告诉你。

2009-04-30 07:13:47

下面是一个在Mac OS X上使用file -I和iconv的示例脚本。

对于你的问题，你需要使用mv而不是iconv:

#!/bin/bash
# 2016-02-08
# check encoding and convert files
for f in *.java
do
  encoding=`file -I $f | cut -f 2 -d";" | cut -f 2 -d=`
  case $encoding in
    iso-8859-1)
    iconv -f iso8859-1 -t utf-8 $f > $f.utf8
    mv $f.utf8 $f
    ;;
  esac
done

2016-02-08 16:53:37

uchardet -从Mozilla移植的编码检测器库。

用法:

~> uchardet file.java
UTF-8

各种Linux发行版(Debian、Ubuntu、openSUSE、Pacman等)都提供二进制文件。

2015-12-29 00:38:15

如何通过Linux上的脚本找到文件的编码?

推荐文章

最新文章

标签