最近微软团队开源了一款数据工作流与转换工具 GraphRAG,利用LLM,帮助用户从非结构化文本数据中提取结构化数据,并完成数据索引。 与传统的在文本片段中,基于语义查询的RAG不同,GraphRAG从原始文本中,提取数据,构建知识图谱,并利用这些结构化数据完成RAG任务。相较于传统RAG,GraphRAG在回答全局性问题时,表现非常出色。
GraphRAG | Get Started:
https://microsoft.github.io/graphrag/posts/get_started/
GraphRAG | GitHub:
https://github.com/microsoft/graphrag
(1)基本使用
根据官方介绍,python环境最好在3.10-3.12,下面直接pip安装
conda create -n grag python=3.10
pip install graphrag
然后依次创建一个示例工程
mkdir -p ./ragtest/input ###项目工程
curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt >