检测编码并使所有内容都为UTF-8

我从各种RSS订阅中阅读大量文本，并将它们插入到我的数据库中。

当然，在提要中使用了几种不同的字符编码，例如UTF-8和ISO 8859-1。

不幸的是，文本的编码有时会有问题。例子:

“Fußball”中的“ß”在我的数据库中应该是这样的:“ÂŸ”。如果是“ÂŸ”，则显示正确。有时，“Fußball”中的“ß”在我的数据库中看起来像这样:“ÃƒÂŸ”。当然，这样就会显示错误。在其他情况下，“ß”被保存为“ß”-因此没有任何变化。然后它也会被错误地显示。

我怎么做才能避免情况2和3?

我如何使所有的编码相同，最好是UTF-8?什么时候我必须使用utf8_encode()，什么时候我必须使用utf8_decode()(很清楚的效果是什么，但什么时候我必须使用函数?)，什么时候我必须对输入什么都不做?

如何让所有编码都相同呢?也许使用函数mb_detect_encoding()?我能写一个函数吗?所以我的问题是:

如何找出文本使用的编码? 我如何将其转换为UTF-8 -无论旧的编码是什么?

这样的函数可行吗?

function correct_encoding($text) {
    $current_encoding = mb_detect_encoding($text, 'auto');
    $text = iconv($current_encoding, 'UTF-8', $text);
    return $text;
}

我已经测试过了，但是不行。有什么问题吗?

当前回答

我一直在寻找编码的解决方案，这个页面可能是多年搜索的结论!我测试了你提到的一些建议，以下是我的笔记:

这是我的测试字符串:

这是一个“wròng wrìtten”字符串bùt I nèed到pù‘sòme’的特殊 Chàrs看thèm, convertèd看fùnctìon!!&就是这样!

我执行INSERT操作将该字符串保存在数据库中的字段中，该字段设置为utf8_general_ci

我的页面的字符集是UTF-8。

如果我像这样做一个INSERT，在我的数据库中，我有一些字符可能来自火星…

所以我需要把它们转换成一些“理智的”UTF-8。我尝试utf8_encode()，但仍然外星人字符入侵我的数据库…

所以我尝试使用函数forceeutf8张贴在数字8，但在数据库中保存的字符串看起来像这样:

这是一个“wrÃ²ng wrÃ tten”的字符串bÃ¹t I nÃ¨ed to pÃ¹'sÃ²me'特殊 ChÃ rs看thÃ¨m, convertÃ¨d由fÃ¹nctÃ on!!&就是这样!

所以在这个页面上收集更多的信息，并将它们与其他页面上的其他信息合并，我用这个解决方案解决了我的问题:

$finallyIDidIt = mb_convert_encoding(
  $string,
  mysql_client_encoding($resourceID),
  mb_detect_encoding($string)
);

现在在我的数据库中，我有了编码正确的字符串。

注意:

唯一需要注意的是mysql_client_encoding函数! 您需要连接到数据库，因为这个函数需要一个资源ID作为参数。

但是，我只是在插入之前重新编码，所以对我来说这不是问题。

2011-12-01 00:15:08

其他回答

我知道这是一个老问题，但我认为一个有用的答案不会有坏处。我在桌面应用程序、SQLite和GET/POST变量之间的编码有问题。有些会使用UTF-8，有些会使用ASCII，当涉及到外国字符时，基本上所有事情都会搞砸。

这是我的解决方案。在处理之前，它会在每个页面加载时擦除GET/POST/REQUEST(我省略了cookie，但如果需要可以添加它们)。它在标题中工作得很好。如果PHP不能自动检测到源编码，它将抛出警告，因此这些警告将被@'s抑制。

//Convert everything in our vars to UTF-8 for playing nice with the database...
//Use some auto detection here to help us not double-encode...
//Suppress possible warnings with @'s for when encoding cannot be detected
try
{
    $process = array(&$_GET, &$_POST, &$_REQUEST);
    while (list($key, $val) = each($process)) {
        foreach ($val as $k => $v) {
            unset($process[$key][$k]);
            if (is_array($v)) {
                $process[$key][@mb_convert_encoding($k,'UTF-8','auto')] = $v;
                $process[] = &$process[$key][@mb_convert_encoding($k,'UTF-8','auto')];
            } else {
                $process[$key][@mb_convert_encoding($k,'UTF-8','auto')] = @mb_convert_encoding($v,'UTF-8','auto');
            }
        }
    }
    unset($process);
}
catch(Exception $ex){}

2010-05-23 05:52:59

整理完PHP脚本后，不要忘记告诉MySQL你要传递的字符集和你想要接收的字符集。

例如:设置为UTF-8

在Latin 1 I/O会话中将UTF-8数据传递给Latin 1表会导致这些讨厌的鸟脚。我每隔一天就会在OsCommerce商店看到这个。后面和第四个似乎是对的。但是phpMyAdmin会显示真相。通过告诉MySQL你正在传递什么字符集，它将为你处理MySQL数据的转换。

如何恢复现有的乱码MySQL数据是另一个问题。：）

2012-01-18 19:31:55

ÂŸ是Mojibake for ß。在你的数据库中，你可能有以下十六进制值之一(使用SELECT hex (col)…)来找出):

DF如果列是"latin1"， C39F如果列是utf8—OR—它是latin1，但是“双编码” C383C5B8如果被双编码为utf8列

你不应该在PHP中使用任何编码/解码函数;相反，您应该正确地设置数据库和到数据库的连接。

如果涉及MySQL，请参阅:UTF-8字符的问题;我看到的不是我储存的

2016-08-19 18:46:58

不带auto的Try

那就是:

mb_detect_encoding($text)

而不是:

mb_detect_encoding($text, 'auto')

更多信息可以在这里找到:mb_detect_encoding

2017-07-22 08:55:34

if(!mb_check_encoding($str)){
    $str = iconv("windows-1251", "UTF-8", $str);
}

这对我很有帮助

2022-12-16 05:15:18

检测编码并使所有内容都为UTF-8

推荐文章

最新文章

标签