如何使用正则表达式验证电子邮件地址？

多年来，我慢慢地开发了一个正则表达式，它可以正确验证大多数电子邮件地址，假设它们不使用IP地址作为服务器部分。

我在几个PHP程序中使用它，而且大多数时候都可以使用。然而，不时有人与我联系，他们对使用它的网站有问题，我最终不得不做出一些调整（最近我意识到我不允许四个字符的TLD）。

你有或见过验证电子邮件的最佳正则表达式是什么？

我见过几种使用函数的解决方案，这些函数使用了几个较短的表达式，但我宁愿在简单函数中使用一个长的复杂表达式，而不是在更复杂的函数中使用几个短表达式。

当前回答

RFC 5322标准：

允许点原子本地部分、引号字符串本地部分、过时（混合点原子和引号字符串）本地部分、域名域、（IPv4、IPv6和IPv4映射的IPv6地址）域文本域和（嵌套）CFWS。

'/^(?!(?>(?1)"?(?>\\\[ -~]|[^"])"?(?1)){255,})(?!(?>(?1)"?(?>\\\[ -~]|[^"])"?(?1)){65,}@)((?>(?>(?>((?>(?>(?>\x0D\x0A)?[\t ])+|(?>[\t ]*\x0D\x0A)?[\t ]+)?)(\((?>(?2)(?>[\x01-\x08\x0B\x0C\x0E-\'*-\[\]-\x7F]|\\\[\x00-\x7F]|(?3)))*(?2)\)))+(?2))|(?2))?)([!#-\'*+\/-9=?^-~-]+|"(?>(?2)(?>[\x01-\x08\x0B\x0C\x0E-!#-\[\]-\x7F]|\\\[\x00-\x7F]))*(?2)")(?>(?1)\.(?1)(?4))*(?1)@(?!(?1)[a-z0-9-]{64,})(?1)(?>([a-z0-9](?>[a-z0-9-]*[a-z0-9])?)(?>(?1)\.(?!(?1)[a-z0-9-]{64,})(?1)(?5)){0,126}|\[(?:(?>IPv6:(?>([a-f0-9]{1,4})(?>:(?6)){7}|(?!(?:.*[a-f0-9][:\]]){8,})((?6)(?>:(?6)){0,6})?::(?7)?))|(?>(?>IPv6:(?>(?6)(?>:(?6)){5}:|(?!(?:.*[a-f0-9]:){6,})(?8)?::(?>((?6)(?>:(?6)){0,4}):)?))?(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])(?>\.(?9)){3}))\])(?1)$/isD'

RFC 5321标准：

允许点原子本地部分、引号字符串本地部分、域名域和（IPv4、IPv6和IPv4映射的IPv6地址）域文本域。

'/^(?!(?>"?(?>\\\[ -~]|[^"])"?){255,})(?!"?(?>\\\[ -~]|[^"]){65,}"?@)(?>([!#-\'*+\/-9=?^-~-]+)(?>\.(?1))*|"(?>[ !#-\[\]-~]|\\\[ -~])*")@(?!.*[^.]{64,})(?>([a-z0-9](?>[a-z0-9-]*[a-z0-9])?)(?>\.(?2)){0,126}|\[(?:(?>IPv6:(?>([a-f0-9]{1,4})(?>:(?3)){7}|(?!(?:.*[a-f0-9][:\]]){8,})((?3)(?>:(?3)){0,6})?::(?4)?))|(?>(?>IPv6:(?>(?3)(?>:(?3)){5}:|(?!(?:.*[a-f0-9]:){6,})(?5)?::(?>((?3)(?>:(?3)){0,4}):)?))?(25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9]?[0-9])(?>\.(?6)){3}))\])$/iD'

基本：

允许点原子本地部分和域名域（需要至少两个域名标签，TLD限制为2-6个字母字符）。

"/^(?!.{255,})(?!.{65,}@)([!#-'*+\/-9=?^-~-]+)(?>\.(?1))*@(?!.*[^.]{64,})(?>[a-z0-9](?>[a-z0-9-]*[a-z0-9])?\.){1,126}[a-z]{2,6}$/iD"

2009-11-20 16:05:42

其他回答

为了使用JavaScript验证电子邮件地址，使用此功能更方便和高效（根据W3Schools）：

function validateEmail()
{
    var x = document.f.email.value;
    var atpos = x.indexOf("@");
    var dotpos = x.lastIndexOf(".");
    if (atpos < 1 || dotpos < atpos+2 || dotpos+2 >= x.length)
    {
        alert("Not a valid e-mail address");
        return false;
    }
}

我用它，它很完美。

2013-06-21 20:57:26

我不相信bortzmeyer所说的“语法（RFC 5322中指定的）太复杂了”（无法用正则表达式处理）。

这是语法（来自3.4.1。添加规范规范）：

addr-spec       =   local-part "@" domain
local-part      =   dot-atom / quoted-string / obs-local-part
domain          =   dot-atom / domain-literal / obs-domain
domain-literal  =   [CFWS] "[" *([FWS] dtext) [FWS] "]" [CFWS]
dtext           =   %d33-90 /          ; Printable US-ASCII
                    %d94-126 /         ;  characters not including
                    obs-dtext          ;  "[", "]", or "\"

假设点原子、带引号的字符串、obs局部部分、obs域本身是正则语言，这是一个非常简单的语法。只需将addr-spec产品中的本地部分和域替换为它们各自的产品，您就拥有了一种可直接转换为正则表达式的正则语言。

2009-08-25 16:19:28

我从不麻烦用自己的正则表达式创建，因为很可能其他人已经提出了更好的版本。我总是使用regexlib来找到一个我喜欢的。

2008-10-14 14:23:11

Cal Henderson（Flickr）写了一篇名为《用PHP解析电子邮件地址》的文章，并展示了如何正确解析符合RFC（2）822的电子邮件地址。

您还可以获得PHP、Python和Ruby的源代码，这是CreativeCommons许可的。

2008-10-14 16:35:44

奇怪的是，您“不能”使用4个字符的TLD。您禁止人们使用.info和.name，以及长度限制stop、travel和.museum，但是的，它们比2个字符的TLD和3个字符的TLC更常见。

你也应该允许大写字母。电子邮件系统将规范本地部分和域部分。

对于域部分的正则表达式，域名不能以'-'开头，也不能以'-'结尾。Dash只能介于两者之间。

如果您使用PEAR库，请查看他们的邮件功能（我忘记了确切的名称/库）。您可以通过调用一个函数来验证电子邮件地址，它根据RFC 822中的定义验证电子邮件地址。

2008-11-06 04:48:18