有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子以理解主旨。


当前回答

分类 —预测类别标签 -根据训练集和类标签属性中的值(类标签)对数据进行分类(构造模型) —使用该模型对新数据进行分类

集群:数据对象的集合 —同一集群内彼此相似 —与其他集群中的对象不同

其他回答

聚类的目的是在数据中找到组。“集群”是一个直观的概念,确实如此 没有严格的数学定义。一个集群的成员应该是 彼此相似,而与其他集群的成员不同。一个集群 算法对一个未标记的数据集Z进行操作,并在其上生成一个分区。

对于类和类标签, 类包含相似的对象,而来自不同类的对象 是不同的。有些类具有明确的含义,在最简单的情况下 相互排斥。例如,在签名验证中,签名为任意一种 真的或伪造的。真正的阶级是两者之一,不管我们可能不是 能根据观察到的特定特征正确猜测的。

分类一行:

将数据分类为预定义的类别

用于集群的一行代码:

将数据分组到一组类别中

关键的区别:

分类是获取数据并将其放入预定义的类别中,而在聚类中,您想将数据分组到的类别集是事先不知道的。

结论:

Classification assigns the category to 1 new item, based on already labeled items while Clustering takes a bunch of unlabeled items and divide them into the categories In Classification, the categories\groups to be divided are known beforehand while in Clustering, the categories\groups to be divided are unknown beforehand In Classification, there are 2 phases – Training phase and then the test phase while in Clustering, there is only 1 phase – dividing of training data in clusters Classification is Supervised Learning while Clustering is Unsupervised Learning

我写了一篇关于同一主题的长文章,你可以在这里找到:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/

+分类: 给你一些新的数据,你必须为它们设置新的标签。

例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。

+集群: 你得到了一组历史交易记录,记录了谁买了什么。

通过使用聚类技术,您可以区分客户的细分。

我认为分类是将数据集中的记录分类为预定义的类,甚至是在运行中定义类。我认为这是任何有价值的数据挖掘的先决条件,我喜欢把它看作无监督学习,即在挖掘数据和分类作为一个很好的起点时,一个人不知道他/她在寻找什么

另一端的聚类属于监督学习,即一个人知道要寻找什么参数,它们之间的相关性以及关键水平。我认为这需要对统计学和数学有所了解

我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。监督学习和无监督学习之间的区别可以在这里找到。