文章目录
实例匹配中的分布式并行处理
在前面的分析中,可以看到影响实例匹配性能的一个瓶颈是对匹配的计算。随着多线程处理器和分布式计算平台的普及,通过多线程和分布式并发的方法也可以有效提高实例匹配的处理效率。胡伟和瞿裕忠等研究者较早采用了分布式方法来处理大规模的实例匹配,在典型的匹配过程中,大量的匹配时间消耗在虚拟文档构造、获取邻居的信息、计算相似度等过程中,通过借助MapReduce方法,将这些耗时的处理过程变为并行的处理,有效提高了实例匹配的效率。对于分块的方法,分块过程和分块后的匹配计算都是实例匹配的性能瓶颈,这些过程都同样可以解决分布式计算进行并行处理。总体而言,分布式并行处理的方法是通过借助硬件计算资源来提升实例匹配的性能,性能的提升和投入的硬件成本是线性正比的。
开源工具实践
实体关系发现框架LIMES,LIMES是由德国莱比锡大学计算机科学研究所开发的Web of Data的链接发现框架,遵循cc-by协议。LIMES基于度量空间的特征实现了用于大规模链接发现的高效方法,可以通过配置文件以及图形用户界面轻松配置,LIMES也可以作为独立工具下载,用于执行链接发现或作为Java库。本实践的相关工具、实验数据及操作说明由OpenKG提供,地址为http:/openkg.cn。
开源工具的技术架构,LMES的核心是通过利用度量空间的