如何实现一个好的脏话过滤器?

我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下，这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API，用一些参数简单地说“是的，这是干净的”或“不，这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人，比如$$、azz或a55?

如果您为PHP提供了解决方案，则会有加分。：）

编辑:回答简单地说，避免程序问题:

我认为，当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时，这种过滤器是有一席之地的。如果他们可以搜索“阴茎”，那么他们可能会得到很多照片，是的。如果我们不想要照片，那么阻止这个词作为搜索词是一个很好的把关者，尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏，然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。：）

当前回答

防止攻击性用户输入的唯一方法是阻止所有用户输入。

如果你坚持允许用户输入，并且需要审核，那么就加入人工审核员。

2008-11-07 20:42:39

其他回答

我不知道有什么好的库可以做到这一点，但无论你做什么，都要确保你在让东西通过的方向上犯了错误。我曾经遇到过不允许我使用“mpassell”作为用户名的系统，因为它包含“ass”作为子字符串。这是一种疏远用户的好方法!

2008-11-07 20:26:00

坦率地说，我会让他们把“欺骗系统”的字眼去掉，取而代之的是禁止他们，这只是我的想法。但它也使编程更简单。

我要做的是实现一个正则表达式过滤器，像这样:/[\s]dooby (doo?)[\s]/ I，或者这个单词在其他单词上有前缀，/[\s]doob(er|ed|est)[\s]/。这将阻止过滤单词，如assuaged，这是完全有效的，但也需要其他变体的知识，并更新实际的过滤器，如果你学习了一个新的。显然，这些都是例子，但你必须自己决定如何做。

我不会把我知道的所有单词都打出来，尤其是当我并不想知道它们的时候。

2008-11-07 20:25:28

我同意这个主题的徒劳，但如果你必须有一个过滤器，看看宁泽涛的黄杨木:

Boxwood是一个PHP扩展，用于快速替换一段文本中的多个单词。支持区分大小写和不区分大小写的匹配。它要求它所操作的文本被编码为UTF-8。

更多细节请参见这篇博客文章:

快速多字符串替换PHP

使用Boxwood，你可以让你的搜索词列表想多长就多长——搜索和替换算法不会因为单词列表上有更多的单词而变慢。它的工作原理是建立一个包含所有搜索词的三元组，然后只扫描你的主题文本一次，遍历三元组中的元素，并将它们与文本中的字符进行比较。它支持US-ASCII和UTF-8，区分大小写或不敏感的匹配，并具有一些以英语为中心的单词边界检查逻辑。

2010-09-30 09:01:18

我用12种语言背诵了2200个坏词:恩，ar, cs, da, de, eo, es, fa, fi, fr, hi, hu, ja, ko, nl, pl, pl, ru, tlh, zh。

MySQL转储，JSON, XML或CSV选项可用。

https://github.com/turalus/openDB

我建议你执行这个SQL到你的数据库，并检查每次当用户输入一些东西。

2017-03-03 08:22:10

我的结论是，为了创建一个好的脏话过滤器，我们需要三个主要组件，或者至少这是我要做的。他们是:

过滤器:一个针对黑名单、字典或类似的东西进行验证的后台服务。不允许匿名账户报告滥用

奖金，它将以某种方式奖励那些贡献准确的滥用记者和惩罚罪犯，例如暂停他们的帐户。

2012-10-12 02:51:31

如何实现一个好的脏话过滤器?

推荐文章

最新文章

标签