有人能解释一下数据挖掘中分类和聚类的区别吗?
如果可以,请给出两者的例子以理解主旨。
有人能解释一下数据挖掘中分类和聚类的区别吗?
如果可以,请给出两者的例子以理解主旨。
当前回答
机器学习或AI在很大程度上是通过它执行/完成的任务来感知的。
在我看来,通过在任务的概念上思考聚类和分类,可以真正帮助理解两者之间的区别。
聚类是对事物进行分组,分类是给事物贴上标签。
让我们假设你在一个派对大厅里,所有的男人都穿着西装,女人都穿着长袍。
现在,你问你的朋友几个问题:
你好,你能帮我分组吗?
你的朋友可能给出的答案有:
1:他可以根据性别分组,男性或女性
2:他可以根据人的衣服来分组,一个穿西装,一个穿长袍
他可以根据头发的颜色把人分类
他可以把人按年龄分组,等等。
你的朋友有很多方法可以完成这个任务。
当然,你可以通过提供额外的信息来影响他的决策过程,比如:
你能帮我把这些人按性别(或年龄,或头发颜色或衣服等)分组吗?
Q2:
在第二季度之前,你需要做一些准备工作。
你必须教导或通知你的朋友,这样他才能做出明智的决定。假设你对你的朋友说:
留长头发的人是女人。 留短发的人是男人。
Q2。现在,你指着一个长头发的人问你的朋友:这是一个男人还是一个女人?
你能想到的唯一答案是:女人。
当然,聚会上也可以有长发的男人和短发的女人。但是,根据你提供给你朋友的知识,答案是正确的。你可以通过教你的朋友如何区分这两者来进一步改进这个过程。
在上面的例子中,
Q1表示集群完成的任务。
在聚类中,你向算法(你的朋友)提供数据(人),并要求它对数据进行分组。
现在,由算法来决定什么是分组的最佳方式?(性别、肤色或年龄组别)。
同样,你可以通过提供额外的输入来影响算法的决策。
Q2表示分类完成的任务。
在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他学习哪些数据对应哪个标签(男性或女性)。然后,您将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,预测就越准。
在Q2或Classification中的Pre-work只是训练你的模型,这样它就可以学习如何区分。在聚类或Q1中,这个前期工作是分组的一部分。
希望这能帮助到一些人。
谢谢
其他回答
+分类: 给你一些新的数据,你必须为它们设置新的标签。
例如,一家公司希望对其潜在客户进行分类。当一个新客户来的时候,他们必须确定这个客户是否会购买他们的产品。
+集群: 你得到了一组历史交易记录,记录了谁买了什么。
通过使用聚类技术,您可以区分客户的细分。
分类:在离散输出中预测结果=>映射输入变量到离散类别
常用用例:
电子邮件分类:垃圾邮件或非垃圾邮件 制裁贷款给客户:是的,如果他有能力支付制裁贷款金额的EMI。不行就不行 癌症肿瘤细胞鉴定:是关键还是非关键? 推文的情感分析:推文是积极的、消极的还是中性的 新闻分类:将新闻分类为预定义的类-政治,体育,健康等
聚类:是对一组对象进行分组,使同一组(称为聚类)中的对象彼此之间(在某种意义上)比其他组(聚类)中的对象更相似。
常用用例:
营销:发现客户细分市场的营销目的 生物学:植物和动物的不同种类的分类 图书馆:根据主题和信息对不同的书籍进行聚类 保险:了解客户、他们的政策并识别欺诈行为 城市规划:将房屋分组,并根据其地理位置和其他因素研究其价值。 地震研究:确定危险区 推荐系统:
引用:
Geeksforgeeks
数据有志者
3叶节点
There are two definitions in data mining "Supervised" and "Unsupervised". When someone tells the computer, algorithm, code, ... that this thing is like an apple and that thing is like an orange, this is supervised learning and using supervised learning (like tags for each sample in a data set) for classifying the data, you'll get classification. But on the other hand if you let the computer find out what is what and differentiate between features of the given data set, in fact learning unsupervised, for classifying the data set this would be called clustering. In this case data that are fed to the algorithm don't have tags and the algorithm should find out different classes.
我是一个数据挖掘的新手,但正如我的课本所说,分类应该是监督学习,而聚类应该是非监督学习。监督学习和无监督学习之间的区别可以在这里找到。