我想计算两个列表之间的余弦相似度,比如说,列表1是dataSetI,列表2是dataSetII。
假设dataSetI是[3,45,7,2],dataSetII是[2,54,13,15]。列表的长度总是相等的。我想将余弦相似度报告为0到1之间的数。
dataSetI = [3, 45, 7, 2]
dataSetII = [2, 54, 13, 15]
def cosine_similarity(list1, list2):
# How to?
pass
print(cosine_similarity(dataSetI, dataSetII))
你应该试试SciPy。它有一堆有用的科学例程,例如,“用于数值计算积分、求解微分方程、优化和稀疏矩阵的例程。”它使用超高速优化的NumPy进行数字处理。请参见此处安装。
注意,space .distance.cos计算距离,而不是相似度。所以,你必须用1减去这个值才能得到相似度。
from scipy import spatial
dataSetI = [3, 45, 7, 2]
dataSetII = [2, 54, 13, 15]
result = 1 - spatial.distance.cosine(dataSetI, dataSetII)
你可以在Python中使用简单的函数来实现:
def get_cosine(text1, text2):
vec1 = text1
vec2 = text2
intersection = set(vec1.keys()) & set(vec2.keys())
numerator = sum([vec1[x] * vec2[x] for x in intersection])
sum1 = sum([vec1[x]**2 for x in vec1.keys()])
sum2 = sum([vec2[x]**2 for x in vec2.keys()])
denominator = math.sqrt(sum1) * math.sqrt(sum2)
if not denominator:
return 0.0
else:
return round(float(numerator) / denominator, 3)
dataSet1 = [3, 45, 7, 2]
dataSet2 = [2, 54, 13, 15]
get_cosine(dataSet1, dataSet2)
如果你碰巧已经在使用PyTorch,你应该使用他们的cosessimilarity实现。
假设有两个n维的numpy。ndarray, v1和v2,即它们的形状都是(n,)。以下是如何获得它们的余弦相似度:
import torch
import torch.nn as nn
cos = nn.CosineSimilarity()
cos(torch.tensor([v1]), torch.tensor([v2])).item()
或者假设有两个numpy。ndarray w1和w2,它们的形状都是(m, n)。下面给你一个余弦相似度列表,每个都是w1中的一行和w2中的相应行之间的余弦相似度:
cos(torch.tensor(w1), torch.tensor(w2)).tolist()
不使用任何导入
math.sqrt (x)
可以用
x * * 5
如果不使用numpy.dot(),您必须使用列表理解创建自己的dot函数:
def dot(A,B):
return (sum(a*b for a,b in zip(A,B)))
然后它只是一个应用余弦相似度公式的简单问题:
def cosine_similarity(a,b):
return dot(a,b) / ( (dot(a,a) **.5) * (dot(b,b) ** .5) )