有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

+分类: 给你一些新的数据,你必须为它们设置新的标签。

例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。

+集群: 你得到了一组历史交易记录,记录了谁买了什么。

通过使用聚类技术,您可以区分客户的细分。

其他回答

聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群 算法对一个未标记的数据集Z进行操作,并在其上生成一个分区。

对于类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能根据观察到的特定特征正确猜测的。

如果你问过任何数据挖掘或机器学习的人这个问题,他们会使用术语监督学习和无监督学习来解释聚类和分类之间的区别。首先让我解释一下有监督和无监督这两个关键词。

Supervised learning: suppose you have a basket and it is filled with some fresh fruits and your task is to arrange the same type fruits at one place. suppose the fruits are apple,banana,cherry, and grape. so you already know from your previous work that, the shape of each and every fruit so it is easy to arrange the same type of fruits at one place. here your previous work is called as trained data in data mining. so you already learn the things from your trained data, This is because of you have a response variable which says you that if some fruit have so and so features it is grape, like that for each and every fruit.

这种类型的数据将从经过训练的数据中获得。 这种类型的学习被称为监督学习。 这种类型的解决问题属于分类。 所以你已经学会了这些东西,所以你可以自信地工作。

无监督: 假设你有一个篮子,里面装满了一些新鲜的水果,你的任务是把相同类型的水果摆放在一个地方。

这一次你对这些水果一无所知,你是第一次看到这些水果,所以你会如何安排相同类型的水果。

你首先要做的是拿起这个水果然后选择这个水果的任何物理特性。假设你取了颜色。

然后你会根据颜色来排列它们,然后这些组会是这样的。 红色组:苹果和樱桃水果。 绿色组:香蕉和葡萄。 那么现在你将用另一个物理字符作为大小,所以现在群是这样的。 红色和大尺寸:苹果。 红色,体积小,樱桃果状。 绿色,大个头:香蕉。 绿色,体积小,葡萄型。 工作完成了,大团圆结局。

这里你之前什么都没学,意味着没有训练数据和响应变量。 这种类型的学习被称为无监督学习。 聚类属于无监督学习。

分类和聚类之间的主要区别是: 分类是借助类标签对数据进行分类的过程。另一方面,聚类类似于分类,但没有预定义的类标签。 分类与监督学习相适应。与此相反,聚类也被称为无监督学习。 分类方法提供训练样本,聚类方法不提供训练数据。

希望这对你有所帮助!

摘自《驯象人在行动》一书,我认为它很好地解释了两者的区别:

分类算法与聚类算法(如k-means算法)相关,但仍有很大不同。 分类算法是监督学习的一种形式,与无监督学习相反,无监督学习发生在聚类算法中。 监督学习算法是一种给出包含目标变量期望值的例子。无监督算法不会得到想要的答案,而是必须自己找到一些合理的答案。

分类一行:

将数据分类为预定义的类别

用于集群的一行代码:

将数据分组到一组类别中

关键的区别:

分类是获取数据并将其放入预定义的类别中,而在聚类中,您想将数据分组到的类别集是事先不知道的。

结论:

Classification assigns the category to 1 new item, based on already labeled items while Clustering takes a bunch of unlabeled items and divide them into the categories In Classification, the categories\groups to be divided are known beforehand while in Clustering, the categories\groups to be divided are unknown beforehand In Classification, there are 2 phases – Training phase and then the test phase while in Clustering, there is only 1 phase – dividing of training data in clusters Classification is Supervised Learning while Clustering is Unsupervised Learning

我写了一篇关于同一主题的长文章,你可以在这里找到:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/