Bootstrap

python中文相似度_计算图像相似度——《Python也可以》之一

以本文就直接使用,没有再作降维处理了。

6 def make_regalur_image(img, size = (256, 256)):

7 return img.resize(size).convert('RGB')

转化为规则图像之后,可以调用 img.histogram() 方法获得直方图数据,如上文两图的直方图如下:

得到规则图像之后,图像的相似度计算就转化为直方图的距离计算了,本文依照如下公式进行直方图相似度的定量度量:

Sim(G,S)=,其中G,S为直方图,N 为颜色空间样点数

转换为相应的 Python 代码如下:

19 def hist_similar(lh, rh):

20 assert len(lh) == len(rh)

21 return sum(1 - (0 if l == r else float(abs(l - r))/max(l, r)) for l, r in zip(lh, rh))/len(lh)

22

23 def calc_similar(li, ri):

24 return hist_similar(li.histogram(), ri.histogram())

短短十行代码不到就完成了图片相似度的计算,再加上从硬盘读取图像的函数和测试代码,也不过二十行上下:

28 def calc_similar_by_path(lf, rf):

29 li, ri = make_regalur_image(Image.open(lf)), make_regalur_image(Image.open(rf))

30 return calc_similar(li, ri)

31

32 if __name__ == '__main__':

33 path = r'test/TEST%d/%d.JPG'

34 for i in xrange(1, 7):

35 print 'test_case_%d: %.3f%%'%(i, calc_similar_by_path('test/TEST%d/%d.JPG'%(i, 1), 'test/TEST%d/%d.JPG'%(i, 2))*100)

那么这样做的效果到底怎么样呢?且来看看测试结果(测试用例和代码请猛击这里下载):

test_case_1: 63.322%

test_case_2: 66.950%

test_case_3: 51.990%

test_case_4: 70.401%

test_case_5: 32.755%

test_case_6: 42.203%

结合我们肉眼对测试用例的观察,这个程序工作得还算可以。不过 test_case_4 就暴露了直方图的缺点:它只是图像中颜色的全局分布的描述,无法描述颜色的局部分布和色彩所处的位置。test_case_4 的规则图如下:

可以看到它们的色彩局部分布有相当大的不同,但事实上它们的全局直方图相当相似:

虽然从直方图来看两图是极其相似的,但上述算法计算出相似度为70.4%的结果肯定是不可接受的。那么,怎么样才能克服直方图的缺点呢?答案是把规则图像分块,再对相应的小块进行相似度计算,最后根据各小块的平均相似度来反映整个图片的相似度。在实验中,我们把规则图像分为 4x4 块,每块的分辨率为 64x64:

分割图像的代码为:

9 def split_image(img, part_size = (64, 64)):

10 w, h = img.size

11 pw, ph = part_size

12

13 assert w % pw == h % ph == 0

14

15 return [img.crop((i, j, i+pw, j+ph)).copy() /

16 for i in xrange(0, w, pw) /

17 for j in xrange(0, h, ph)]

相应地,把计算相似图的函数calc_similar()修改为:

23 def calc_similar(li, ri):

24 # return hist_similar(li.histogram(), ri.histogram())

25 return sum(hist_similar(l.histogram(), r.histogram()) for l, r in zip(split_image(li), split_image(ri))) / 16.0

进行这样的改进后,算法已经能够在一

;