项目介绍
项目地址
23年9月份刚开源这个项目,大半年过去了,star数终于破1000啦,决定在知乎更新一下内容,看看内容变化,知乎有上当时项目介绍的链接:追光者:Text-to-SQL小白入门(六)Awesome-Text2SQL项目介绍
项目首页
-
截止2024.5.1日,项目已经有1014个star, 80个fork, 7个海内外贡献者,欢迎大家围观参与、使用!
如果项目对您有帮助的话,也可以star支持一下,您的支持就是我们更新最大的动力!
项目理念
这个项目是DB-GPT开源社区的子项目,支持中英文两种语言,主要收集了针对大型语言模型和Text2SQL等的精选教程和资源,希望能够共同学习、共同推动Text2SQL领域进步!
同时,考虑到Text2SQL和其他领域的相似性,未来也会更新Text2DSL、 Text2API、 Text2Vis 等内容,欢迎各位伙伴一起贡献合作!
项目内容
主要内容有:
-
贡献说明
-
数据集排行榜
-
介绍
-
综述
-
经典Text2SQL模型
-
火热的开源LLM
-
微调方法
-
数据集
-
评价指标
-
Python第三方库
-
实践项目
榜单
这里收集了知名的WikiSQL、Spider、Bird数据集榜单的top10相关数据,持续更新中!
值得注意的是:spider1.0 数据集在2024.2.5日也停止更新了,等待spider 2.0 数据问世。
简介
这里主要介绍了Text2SQL的概念
-
Text-to-SQL(或者Text2SQL),顾名思义就是把文本转化为SQL语言,更学术一点的定义是:把数据库领域下的自然语言(Natural Language,NL)问题,转化为在关系型数据库中可以执行的结构化询语言(Structured Query Language,SQL),因此Text-to-SQL也可以被简写为NL2SQL。
-
输入:自然语言问题,比如“查询表t_user的相关信息,结果按id降序排序,只保留前10个数据”
-
输出:SQL,比如“SELECT * FROM t_user ORDER BY id DESC LIMIT 10”
图片来源于DB-GPT项目
综述
这里罗列了一些Text2SQL领域的综述文章
-
(2023-International Conference on Very Large Data Bases,VLDB,CCF-A)A survey on deep learning approaches for text-to-SQL [paper]
-
(2022-IEEE Transactions on Knowledge and Data Engineering,TKDE,CCF-A) A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [paper]
-
(2022-International Conference on Computational Linguistics,COLOING,CCF-B) Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect [paper]
-
(2022-arXiv)Deep Learning Driven Natural Languages Text to SQL Query Conversion: A Survey [paper]
经典模型
这里主要介绍了Text2SQL领域的经典模型,最近的工作都以LLM+Text2SQL为主,附上了使用的数据集和论文代码链接。
-
(2023-arXiv, None)MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [paper] [code]
-
(2023-arXiv, None)DBCᴏᴘɪʟᴏᴛ: Scaling Natural Language Querying to Massive Databases [paper] [code]
-
(2023-arXiv, None) Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [paper] [code]
-
(2023-AAAI 2023, CCF-A) RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL[paper] [code]