文章目录
1 传统分块的问题
在RAG模型的构建里,文本分块是打头阵且超关键的环节。
(1)就拿常见的递归字符分割来说,它操作简单,按照固定的token长度一刀切。但这也带来了大麻烦,一个完整的主题常常被拆得七零八落,分到不同文本块中,上下文连贯不起来,就像拼图被打乱了顺序,根本没法看。
(2)还有语义分割法,听起来好像聪明点,它根据句子间语义变化来分割。但遇到文档话题频繁切换时,还是会 “翻车”,把相关内容分到不同块,信息又断了。
举个例子:“小明介绍了Transformer 架构… (中间插入 5 段其他内容)… 最后他强调,Transformer的核心是自注意力机制。” 用传统方法处理,要么把这两句话拆到不同区块,要么被中间内容干扰,导致语义断裂。
(3)但要是人工分块,我们肯定会把它们归到 “模型原理” 这一组。这种跨越文本距离的关联性问题,正是Agentic Chunking(自主分块)要解决的。
2 Agentic Chunking的工作原理
Agentic Chunking的核心思想是让大语言模型(LLM)主动评估每一句话,并将其