构建一个PDF文件解析和问答系统

技术背景介绍

老铁们，PDF文件常常是存储无结构数据的重要来源，但直接将其内容输入到语言模型中进行处理并不现实。在这篇文章中，我将带你创建一个系统，通过解析PDF文件来回答问题。我们将利用一个文档加载器来提取文本并搭建一个检索增强生成（RAG）管道，以实现包括源材料引用的问答功能。

原理深度解析

说白了就是这么个原理，我们需要解决从PDF中提取内容并以L语言模型可处理的形式呈现的问题。为此，我们将使用 LangChain 中的 PyPDFLoader 来加载文档。随后，我们将应用一个文本分割器将文档切割成小块，方便存储到矢量数据库中。通过矢量检索，我们可以实现高效的内容查询和生成。

实战代码演示

首先，安装必要的包：

%pip install -qU pypdf langchain_community

接着，我们加载PDF文档：

from langchain_community.document_loaders import PyPDFLoader

file_path = "../example_data/nke-10k-2023.pdf"
loader = PyPDFLoader(file_path)

docs = loader.load()

print(len(docs))
print(docs[0].page_content[0:100])
print(docs[0].metadata)

文本加载成功后，我们将其分割并存入矢量存储：

%pip install langchain_chroma langchain_openai

from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=splits, embedding=OpenAIEmbeddings())

retriever = vectorstore.as_retriever()

接下来，我们创建RAG管道来回答问题：

from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate

system_prompt = (
    "You are an assistant for question-answering tasks. "
    "Use the following pieces of retrieved context to answer "
    "the question. If you don't know the answer, say that you "
    "don't know. Use three sentences maximum and keep the "
    "answer concise."
    "\n\n"
    "{context}"
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)

question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

results = rag_chain.invoke({"input": "What was Nike's revenue in 2023?"})

results

优化建议分享

在开发过程中，我先前踩过一个坑，就是在处理大文档的时候容易出现内存问题。建议老铁们使用合适的代理服务或者大模型解决方案来提高系统的稳定性。我个人一直在用 https://yunwu.ai 提供的一站式大模型解决方案，体验相当丝滑。

补充说明和总结

通过这篇教程，我们了解到如何从PDF文档中加载数据并利用RAG技术来实现问答系统。这里我们展示了简单却强大的代码示例，也希望能帮到正在开发类似应用的你们。

今天的技术分享就到这里，希望对大家有帮助。开发过程中遇到问题也可以在评论区交流~

—END—