深度学习-139-RAG技术之Agentic Chunking分块技术的工作原理及简单实现 - 悦读

深度学习-139-RAG技术之Agentic Chunking分块技术的工作原理及简单实现

文章目录

1 传统分块的问题
2 Agentic Chunking的工作原理
3 Agentic Chunking怎么实现
4 参考附录

1 传统分块的问题

在RAG模型的构建里，文本分块是打头阵且超关键的环节。

(1)就拿常见的递归字符分割来说，它操作简单，按照固定的token长度一刀切。但这也带来了大麻烦，一个完整的主题常常被拆得七零八落，分到不同文本块中，上下文连贯不起来，就像拼图被打乱了顺序，根本没法看。

(2)还有语义分割法，听起来好像聪明点，它根据句子间语义变化来分割。但遇到文档话题频繁切换时，还是会 “翻车”，把相关内容分到不同块，信息又断了。

举个例子：“小明介绍了Transformer 架构… （中间插入 5 段其他内容）… 最后他强调，Transformer的核心是自注意力机制。” 用传统方法处理，要么把这两句话拆到不同区块，要么被中间内容干扰，导致语义断裂。

(3)但要是人工分块，我们肯定会把它们归到 “模型原理” 这一组。这种跨越文本距离的关联性问题，正是Agentic Chunking(自主分块)要解决的。

2 Agentic Chunking的工作原理

Agentic Chunking的核心思想是让大语言模型（LLM）主动评估每一句话，并将其

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

3个月极限毕业JAVA学习的心路历程（第3天）

同步、异步无障碍:Python异步装饰器指南

SQL-Oracle存储过程-循环A表，向B表插入数据

STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—CH376数据手册分析（中上） | 零基础入门STM32第七十三步

SpringBoot面试准备第一天

微信小程序之二手闲置交易市场小程序源码+论文+答辩PPT

全站首发！2024最新大模型LLM学习路线图来了！

2024年大数据最新【Hive】（九）Hive 窗口函数总结_9 ^hivekdw4vp^(2)

Cesium开发实战-创建你的第一个Cesium地球

P2742 【模板】二维凸包 / [USACO5.1]圈奶牛Fencing the Cows

;