Bootstrap

NLP学习笔记「第三章」Clustering(聚类)

Measure vector space distance

在高维空间里,一个文档向量的每一个维度代表了这个文档某个方面的语义属性,他可以通过一个词汇表里的词对这个文档的重要性来表达,比如说,一个运动类的文档,那么运动相关的词汇出现比重比较大的可能性比较高,我们通过文档向量在空间的相对位置,就可以直观的得到文档之间的语义相似度,在几何运算中,有两类常用的距离计算方式

  • Euclidean distence(欧氏距离):两个向量直接的直线距离长短,或两个向量的差的长度。
unstructed texts and NLP structures
vector space distance
semantic similarities
  • Cosine distance(夹角距离):它衡量的是两个向量之间的夹角的大小

从计算的角度讲:
x ⃗ = ⟨ x 1 , x 2 , . . . , x n ⟩      y ⃗ = ⟨ y 1 , y 2 , . . . , y n ⟩ \vec x=\big \langle x_1,x_2,...,x_n\big \rangle\ \ \ \ \vec y=\big \langle y_1, y_2,...,y_n\big \rangle x =x1,x2,...,xn    y =y1,y2,...,yn

Euclidean distence(欧氏距离)

向量(各个维度的差)坐标差的平方求和再开根号得到
d i s e u ( x ⃗ , y ⃗ ) = ( x 1 − y 1 ) 2 + ( x 2 − y 2 ) 2 + . . . + ( x n − y n ) 2

;