分享如何使用 Elasticsearch 和 LangChain 进行文档相似度搜索。这种方法非常适合需要在大规模文档库中快速查找与特定查询语句相关的内容的场景。通过一个关于2023年环法自行车赛冠军温格高(Jonas Vingegaard)的案例来演示这一过程。
项目背景
假设我们拥有一系列关于温格高在2023年环法自行车赛中表现的文本数据。这些文本数据来源于不同的媒体,如新闻、评论、社交媒体等。我们的目标是将这些文档存储在 Elasticsearch 中,并使用 LangChain 提供的工具进行相似度搜索,以便快速检索相关内容。
主要步骤
1. 初始化 Elasticsearch 客户端和索引
首先,我们需要初始化一个 Elasticsearch 客户端,并确保在存储文档之前,删除可能存在的旧索引,并创建一个新的空索引。
# 导入所需的包和模块
from elasticsearch import Elasticsearch
from langchain_elasticsearch import ElasticsearchStore
from langchain_community.embeddings import HuggingFaceEmbeddings
# 初始化Elasticsearch客户端
es_client = Elasticsearch("http://localhost:9200")
# 指定索引名称
index_name = "langchain-demo"
# 重新创建索引(如果存在则删除并重新创建)
if es_client.indices.exists(index=index_name):
es_client.indices.delete(index=index_name)
es_client.indices.create(index=index_name)
print(f"索引 '{
index_name}' 已重新创建。")
通过上述代码,我们确保每次运行时,Elasticsearch 中的 langchain-demo
索引都是干净的,从而避免了旧数据的干扰。
2. 创建文档并添加到 Elasticsearch 中
接下来,我们创建一些与温格高相关的文档,并将它们添加到 Elasticsearch 索引中。
from uuid import uuid4
from langchain_core.documents import Document
# 创建一些示例文档
documents = [
Document(page_content="温格高在2023年环法自行车赛中表现出色,最终获得了冠军。", metadata={