如何实现一个好的脏话过滤器?

我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下，这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API，用一些参数简单地说“是的，这是干净的”或“不，这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人，比如$$、azz或a55?

如果您为PHP提供了解决方案，则会有加分。：）

编辑:回答简单地说，避免程序问题:

我认为，当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时，这种过滤器是有一席之地的。如果他们可以搜索“阴茎”，那么他们可能会得到很多照片，是的。如果我们不想要照片，那么阻止这个词作为搜索词是一个很好的把关者，尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏，然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。：）

当前回答

我的结论是，为了创建一个好的脏话过滤器，我们需要三个主要组件，或者至少这是我要做的。他们是:

过滤器:一个针对黑名单、字典或类似的东西进行验证的后台服务。不允许匿名账户报告滥用

奖金，它将以某种方式奖励那些贡献准确的滥用记者和惩罚罪犯，例如暂停他们的帐户。

其他回答

我同意hanclininto在讨论中发表的文章。我通常使用正则表达式来匹配输入文本。这是徒劳的努力，就像你最初提到的那样，你必须明确地在你的“阻止”列表中解释网络上流行的每一种写作技巧。

另一方面，当其他人在讨论审查的道德问题时，我必须同意在网络上有某种形式是必要的。有些人只是喜欢发表粗俗的文章，因为它可以立即冒犯到很多人，而且作者完全不需要思考。

谢谢你的建议。

HanClinto规则!

看看CDYNE的亵渎过滤器Web服务

测试网址

我不知道有什么好的库可以做到这一点，但无论你做什么，都要确保你在让东西通过的方向上犯了错误。我曾经遇到过不允许我使用“mpassell”作为用户名的系统，因为它包含“ass”作为子字符串。这是一种疏远用户的好方法!

不喜欢。这只会导致问题。我个人有一次使用脏话过滤器的经历是，有一次我在IRC频道上提到我“要去汉考克的桥上呆几个小时”或类似的事情，就被踢/禁止进入。

我的结论是，为了创建一个好的脏话过滤器，我们需要三个主要组件，或者至少这是我要做的。他们是:

过滤器:一个针对黑名单、字典或类似的东西进行验证的后台服务。不允许匿名账户报告滥用

奖金，它将以某种方式奖励那些贡献准确的滥用记者和惩罚罪犯，例如暂停他们的帐户。

推荐文章