计算趋势主题或标签的最佳方法是什么?

许多网站提供一些统计数据，如“过去24小时内最热门的话题”。例如，Topix.com在其“新闻趋势”部分显示了这一点。在那里，你可以看到被提及次数增长最快的话题。

我也想为一个主题计算这样的“嗡嗡声”。我怎么能这样做呢?算法应该对热点较少的话题进行加权。通常(几乎)没有人提及的话题应该是最热门的话题。

谷歌提供“热门趋势”，topix.com显示“热门话题”，fav.or.it显示“关键字趋势”——所有这些服务都有一个共同点:他们只向你展示当前异常热门的即将到来的趋势。

像“布兰妮·斯皮尔斯”、“天气”或“帕丽斯·希尔顿”这样的词不会出现在这些榜单中，因为它们总是热门且频繁。这篇文章称之为“小甜甜布兰妮问题”。

我的问题是:如何编写算法或使用现有算法来解决这个问题?有一个在过去24小时内搜索的关键字列表，算法应该向您显示10个(例如)最热门的关键字。

我知道，在上面的文章中，提到了某种算法。我试着在PHP中编码，但我不认为它会工作。它只是找到了大多数人，不是吗?

我希望你能帮助我(代码示例将是伟大的)。

当前回答

我认为你需要注意的关键词是“不正常”。为了确定什么时候“不正常”，你必须知道什么是正常的。也就是说，您将需要历史数据，可以对其求平均值以找出特定查询的正常速率。您可能希望从平均计算中排除不正常的日子，但这同样需要有足够的数据，这样您就知道应该排除哪些日子。

在此基础上，你必须设置一个阈值(我确信这需要实验)，如果有东西超出了阈值，比如搜索量比正常情况多50%，你就可以认为这是一个“趋势”。或者，如果你想像你提到的那样找到“最流行的X”，你只需要根据它们与正常比率的距离(百分比)来排序。

例如，假设你的历史数据告诉你，布兰妮·斯皮尔斯(Britney Spears)通常获得10万次搜索，帕丽斯·希尔顿(Paris Hilton)通常获得5万次搜索。如果有一天她们的搜索量都比平时多了1万次，那么你应该认为帕里斯比布兰妮更“热”，因为她的搜索量比平时多了20%，而布兰妮的搜索量只增加了10%。

天啊，我真不敢相信我刚刚写了一段比较布兰妮·斯皮尔斯和帕丽斯·希尔顿的“性感”的段落。你对我做了什么?

2009-05-05 18:49:02

其他回答

如果你只是看推文或状态信息来获取你的主题，你会遇到很多噪音。即使你删除了所有的停止词。获得更好的主题候选子集的一种方法是只关注共享URL的推文/消息，并从这些网页的标题中获得关键字。并且确保你也应用了POS标记来获得名词+名词短语。

网页的标题通常更具有描述性，包含描述页面内容的单词。此外，分享网页通常与分享突发新闻相关(例如，如果像迈克尔·杰克逊这样的名人去世了，你会有很多人分享关于他去世的文章)。

我做过实验，只从标题中选取热门关键词，然后在所有状态信息中计算这些关键词的总数，它们确实消除了很多干扰。如果你这样做，你不需要一个复杂的算法，只是做一个简单的关键字频率排序，你已经完成了一半。

2013-08-14 01:39:17

天啊，我真不敢相信我刚刚写了一段比较布兰妮·斯皮尔斯和帕丽斯·希尔顿的“性感”的段落。你对我做了什么?

2009-05-05 18:49:02

也许一个简单的话题频率梯度就能起作用——大的正梯度=快速增长的受欢迎程度。

最简单的方法是将每天的搜索次数归位，这样你就有了

searches = [ 10, 7, 14, 8, 9, 12, 55, 104, 100 ]

然后看看它每天有多少变化:

hot_factor = [ b-a for a, b in zip(searches[:-1], searches[1:]) ]
# hot_factor is [ -3, 7, -6, 1, 3, 43, 49, -4 ]

只要应用某种阈值，那么那些增加了> 50的日子就被认为是“热”的。如果你愿意，你也可以让它变得更复杂。不是绝对差异，而是相对差异，所以从100到150被认为是热的，但从1000到1050不是。或者是考虑到不止一天的趋势的更复杂的梯度。

2009-04-24 20:41:56

我想知道在这种情况下是否有可能使用常规的物理加速度公式?

v2-v1/t or dv/dt

我们可以认为v1是每小时的初始点赞/投票/评论数，v2是过去24小时内每小时的当前“速度”?

这更像是一个问题，而不是一个答案，但似乎它可能会起作用。任何加速最快的内容都将成为热门话题……

我相信这并不能解决布兰妮的问题:-)

2013-05-27 04:48:28

I had worked on a project, where my aim was finding Trending Topics from Live Twitter Stream and also doing sentimental analysis on the trending topics (finding if Trending Topic positively/negatively talked about). I've used Storm for handling twitter stream. I've published my report as a blog: http://sayrohan.blogspot.com/2013/06/finding-trending-topics-and-trending.html I've used Total Count and Z-Score for the ranking. The approach that I've used is bit generic, and in the discussion section, I've mentioned that how we can extend the system for non-Twitter Application. Hope the information helps.

2013-06-06 03:52:16

计算趋势主题或标签的最佳方法是什么?

推荐文章

最新文章

标签