我们中的许多人都需要处理用户输入、搜索查询以及输入文本可能包含亵渎或不受欢迎的语言的情况。通常情况下,这需要过滤掉。

在哪里可以找到各种语言和方言的粗口?

源代码中是否有包含好的列表的api ?或者可能是一个API,用一些参数简单地说“是的,这是干净的”或“不,这是脏的”?

有什么好方法可以捕捉那些试图欺骗系统的人,比如$$、azz或a55?

如果您为PHP提供了解决方案,则会有加分。:)

编辑:回答简单地说,避免程序问题:

我认为,当用户可以使用公共图像搜索来查找添加到敏感社区池的图片时,这种过滤器是有一席之地的。如果他们可以搜索“阴茎”,那么他们可能会得到很多照片,是的。如果我们不想要照片,那么阻止这个词作为搜索词是一个很好的把关者,尽管不可否认这不是一个万无一失的方法。真正的问题是首先获得单词列表。

我指的是一种方法来判断单个令牌是否脏,然后简单地禁止它。我不会费心去阻止那种完全滑稽的“长脖子长颈鹿”的说法。你在那里什么也做不了。:)


当前回答

关于“欺骗系统”子问题,您可以在进行搜索之前通过规范化“坏词”列表和用户输入的文本来处理它。例如,使用一系列正则表达式(如果PHP有,可以使用tr)将[z$5]转换为“s”,[4@]转换为“a”,等等,然后将规范化的“坏词”列表与规范化的文本进行比较。请注意,规范化可能会导致额外的假阳性,尽管目前我想不出任何实际情况。

更大的挑战是想出一种方法,让人们在引用“笔比剑更强大”的同时屏蔽“pen is”。

其他回答

我用12种语言背诵了2200个坏词:恩,ar, cs, da, de, eo, es, fa, fi, fr, hi, hu, ja, ko, nl, pl, pl, ru, tlh, zh。

MySQL转储,JSON, XML或CSV选项可用。

https://github.com/turalus/openDB

我建议你执行这个SQL到你的数据库,并检查每次当用户输入一些东西。

注意本地化问题:在一种语言中是脏话的词在另一种语言中可能是完全正常的词。

目前的一个例子是:ebay使用字典的方法从反馈中过滤“坏词”。如果你试图输入德语翻译的“this was a perfect transaction”(“das war eine perfekte Transaktion”),ebay将会因为用词不当而拒绝反馈。

为什么?因为“was”的德语单词是“war”,而“war”在ebay的“坏词”词典中。

所以要注意本土化问题。

我同意hanclininto在讨论中发表的文章。我通常使用正则表达式来匹配输入文本。这是徒劳的努力,就像你最初提到的那样,你必须明确地在你的“阻止”列表中解释网络上流行的每一种写作技巧。

另一方面,当其他人在讨论审查的道德问题时,我必须同意在网络上有某种形式是必要的。有些人只是喜欢发表粗俗的文章,因为它可以立即冒犯到很多人,而且作者完全不需要思考。

谢谢你的建议。

HanClinto规则!

关于“欺骗系统”子问题,您可以在进行搜索之前通过规范化“坏词”列表和用户输入的文本来处理它。例如,使用一系列正则表达式(如果PHP有,可以使用tr)将[z$5]转换为“s”,[4@]转换为“a”,等等,然后将规范化的“坏词”列表与规范化的文本进行比较。请注意,规范化可能会导致额外的假阳性,尽管目前我想不出任何实际情况。

更大的挑战是想出一种方法,让人们在引用“笔比剑更强大”的同时屏蔽“pen is”。

防止攻击性用户输入的唯一方法是阻止所有用户输入。

如果你坚持允许用户输入,并且需要审核,那么就加入人工审核员。