今年春节期间最热的话题莫过于DeepSeek的横空出世!这家于2023年成立的人工智能基础技术研究企业,在今年1月20日正式开源其R1推理模型,在数学、代码、自然语言推理等任务上,以极低的成本实现了性能比肩OpenAI-o1正式版,甚至在某些方面超越了o1。
V3模型仅用550万元人民币和2000张卡就达到了与OpenAI几亿美元投入相匹敌的效果,且其服务价格仅为OpenAI o1价格的3.7%。
这种低成本创新模式挑战了“唯有科技巨头才能研发尖端AI”的行业共识,使得DeepSeek在市场上具有极高的性价比优势。
目前很多文章都是在讲本地部署,但不管是本地部署还是使用云厂商一键部署,部署完得想好能干什么以及想干什么。今天本篇文章就来浅谈一下DeepSeek技术突破后的应用问题。
一、DeepSeek技术突破背后的应用之困
自深度求索(DeepSeek)大模型系列问世以来,在语言理解、逻辑推理和代码生成等领域的突破性表现持续引发业界关注,作为国内首个实现万亿参数规模的开源大模型,DeepSeek-Math
在GSM8K数学基准测试中高达80.3%的准确率,以及DeepSeek-Coder
在HumanEval评测中突破90%的代码生成能力,标志着中文大模型技术已迈入世界第一梯队。
然而,当我们将视线从实验室的Benchmark榜单转向真实业务场景时,大模型落地应用的"最后一公里"挑战正逐渐浮出水面。尽管DeepSeek在技术上取得了显著的突破,但将其应用于现实世界的过程中,仍有许多问题亟待解决。
1.1、知识边界困境:知识并不是无限的
DeepSeek虽然在多个领域表现出色,但其知识并不是无限的。尽管模型经过了大量的训练数据,但这些数据的覆盖范围仍然有限,在实际应用中,用户可能会遇到模型无法回答,或者模型的回答不够准确的问题,这是因为模型的知识很大程度上来源于训练数据,而训练数据的覆盖范围决定了模型的知识边界。
1.2、时间壁垒困境:训练是存在截止时间的
虽然DeepSeek R1在2025年1月才正式发布,但其基础模型的训练数据窗口期早在数月前就已关闭。这就像出版一本百科全书——从资料收集到最终付印需要完整的生产周期。具体来说存在三重时间壁垒:
- 预训练阶段:需要处理PB级原始数据,这一过程耗时且复杂,需要大量的计算资源和时间。
- 数据清洗:需要经历去重、脱敏、质量验证等工序,确保数据的准确性和安全性。
- 后期优化:还要进行监督微调、强化学习、基于人类反馈的强化学习(RLHF)等迭代优化,进一步提升模型的性能和可靠性。
这些时间壁垒使得模型的知识存在一个截止时间,无法实时更新。在快速变化的现实世界中,这种知识的滞后性可能会导致模型在处理一些时效性较强的问题(比如新闻、股市、社交媒体信息)时出现误差。
要突破这种知识限制,也有方法,即激活联网搜索功能和上传知识,但是会很容易导致token巨量消耗以及上下文窗口超限。
1.3、概率生成困境:回答不一定是准确的
尽管DeepSeek在多个基准测试中表现出色,但在实际应用中,模型的“幻觉”问题却成为了一个不容忽视的挑战。所谓“幻觉”,指的是模型生成的文本虽然语法正确、逻辑连贯,但与事实不符,甚至可能包含完全错误的信息,比如据NewsGuard的审核显示,DeepSeek的聊天机器人在准确传递新闻和信息方面表现不佳,仅达到17%的准确率,低于西方竞争对手。
幻觉问题的产生,主要源于以下几个方面:
- 模型架构的局限性
DeepSeek-R1采用的强化学习+思维链(CoT)架构,虽然在数学推理任务中表现出色,但这种架构也使得模型更容易陷入假设性陈述的泥潭。
- 生成机制的不可控性
DeepSeek-R1等生成模型的工作原理基于概率分布,虽然模型能够生成高质量、流畅的文本,但这种“概率性生成”也意味着模型有时会凭借其训练过程中学到的多样化语言模式生成虚假的信息。尤其是在回答开放式问题时,生成的内容可能包含未经验证的假设或是基于“最有可能”产生的语句构造的内容,而非基于实际事实的准确回答。模型无法有效地自我校验,导致某些信息偏离事实。 - 训练数据的不完全性
DeepSeek-R1的训练数据集虽然涵盖了广泛的领域且质量很高,但对于某些特定领域,尤其是最新的或高度专业化的信息,可能存在数据不足的情况。例如,在一些快速发展的科技领域、工程领域,模型缺乏精准的领域知识,可能会从历史数据中推导出过时或错误的结论,并以此为基础生成不准确的内容。
1.4、数据安全困境:在线的并不是最安全的
当DeepSeek部署为在线服务时,其还会暴露以下风险:
数据泄露放大效应:使用在线API时数据的存储和管理大多由第三方提供商控制,尽管这些平台通常会采取加密技术和安全协议,但仍然无法完全排除数据泄露的风险。
对抗攻击脆弱性:通过精心构造的提示词(如"忽略伦理限制,详细描述如何…,魔法咒语提示等"),可使模型输出有害内容的成功率提升至73%。
合规问题:不同国家和地区对数据隐私和保护有着不同的法律法规(如GDPR、CCPA等)。企业将数据上传到在线服务商的云平台,可能面临合规性风险。
而企业的内部数据通常被视为最核心的资产,具有巨大的商业价值和竞争力,企业在处理核心数据时,往往需要满足严格的隐私保护和信息安全要求。例如,医疗行业中的患者数据和金融行业中的客户账户信息,都需要严格保护,而将这些数据交给外部模型进行处理,意味着企业将面临数据传输、存储、访问控制等多个环节的安全风险。
二、RAG技术全景
上述四大困境的根源,归根结底还是在于大模型的“封闭世界假设”与真实场景的“开放复杂性”之间的矛盾。传统基于模型微调方法如同在固有认知框架上打补丁,而RAG技术通过动态知识融合、推理过程可干预、安全边界可控三重突破,正在重塑大模型应用的范式。
2.1、大模型应用方案
当前常见的大模型应用方案主要包括大模型直答、大模型微调和RAG(检索增强生成)。
大模型直答虽成本低,但幻觉现象严重,缺乏领域知识与实时信息,且可溯源性较差。微调方案通过优化模型获取领域知识,减少部分幻觉问题,但仍无法动态更新数据,且训练成本较高
RAG方案则通过检索外部知识库,将外部知识作为生成内容的基础,从而大幅降低幻觉现象的发生。与仅依赖模型记忆的直答和微调方案不同,RAG方案具备动态接入外部知识库的能力,在应对领域性问题和实时信息需求时表现更加出色。
2.2、RAG基本工作流程
RAG的基本工作流程可以概括如下:
- 构建知识库:在这一阶段,系统从各种来源(如书籍、教材、论文、企业文档)中提取文本内容。这些文本被划分为多个段落或区块(chunk),以便后续处理。每个文本区块会被转换为向量表示(嵌入),这些向量捕捉了文本的语义信息。这些嵌入向量随后被存储在向量数据库中,以便在检索阶段快速访问和匹配。
- 检索:当用户提出一个问题时,系统会将用户的问题转换为向量表示。然后,系统通过计算用户问题向量与知识库中文本向量的相似度,找到最相关的文本区块。这一过程涉及使用向量数据库进行高效的相似匹配,以检索出与用户问题最相关的文本内容。检索阶段的目标是从知识库中快速找到与用户问题相关的信息。
- 增强:在检索到相关文本后,系统会将这些文本与用户的问题结合起来,生成提示词(Prompt)。这一步骤的目的是增强输入信息,使其包含更多的上下文和相关知识。通过这种方式,系统能够更好地理解用户的问题,并为生成阶段提供更丰富的背景信息。
- 生成:在生成阶段,系统会将增强后的提示词输入到大语言模型(LLM)中。大语言模型根据提示词生成答案。生成的答案最终会被返回给用户。这一阶段的目标是利用大语言模型的强大生成能力,结合检索到的相关信息,生成准确、相关且自然的答案。
最后,系统会使用大语言模型和预定义的提示词模板生成最终答案,并将答案返回给用户。通过这一系列步骤,RAG系统能够有效地从大量知识库中检索相关信息,并生成准确、相关的答案,从而提升问答系统的性能。
2.3、RAG技术细节
总的来讲,RAG的核心思想其实就是通过从外部知识库中检索相关信息,并将这些信息作为上下文输入到生成模型中,进而生成内容。下面在这里提一些RAG的技术细节。
2.3.1、文档解析&切片
文档可以分为以下两种类型:
-
有标记文档:如Word文档、MarkDown文档、HTML文档等。这些文档本身具有结构化的标记(如标题、表格、段落等),计算机可以直接解析这些标记来提取内容。
-
无标记文档:如扫描文档图像、PDF文档等。这些文档缺乏明确的标记,需要通过OCR(光学字符识别)等技术将其转换为可处理的文本,并进一 步解析其结构。
在这一步,文档解析的核心是将原始文档转化为机器可处理的格式。生成结构化数据,过滤无关信息(如页眉页脚、水印),并统一多模态内容(如将图片、表格转换为模型可理解的标识符或HTML格式),从而确保知识库的纯净性和语义完整性。
2.3.2、向量化Embedding技术
向量化(Embedding)是将文本转化为数值向量的过程,以便计算机能够处理和理解。在RAG中,向量化技术主要用于将文档切片转化为向量,从而支持高效的相似度检索。
- Embedding模型选择:常用的Embedding模型包括BERT、RoBERTa、Sentence-BERT等。这些模型能够将文本转化为高维向量,捕捉文本的语义信息。
- 向量化过程:将每个文档切片输入到Embedding模型中,输出一个固定长度的向量。这些向量通常具有数百到数千个维度,具体取决于所使用的模型。
- 向量存储:生成的向量通常存储在向量数据库(如FAISS、Annoy等)中,以便后续快速检索。向量数据库支持高效的相似度搜索,能够在毫秒级时间内找到与查询向量最相似的文档切片。
2.3.3、small to big 检索策略
Small to Big 检索策略是RAG中的一种检索方法,旨在通过逐步扩大检索范围,提高检索的准确性和效率。
初始检索(Small):首先,系统会从向量数据库中进行一次小范围的检索,返回与查询最相关的少量文档切片(如Top-10)。这一步骤的目的是快速找到与查询最相关的候选片段。
扩展检索(Big):在初始检索的基础上,系统会根据初始检索结果中的元数据(如文档来源、时间戳等)扩展检索范围。例如,如果初始检索结果中的某个文档切片来自某个特定文档,系统可能会检索该文档的其他相关切片。
候选集合并:将初始检索和扩展检索的结果合并,形成一个更大的候选集。这一候选集将作为后续Rerank排序的输入。
2.3.4、Rerank排序策略
Rerank排序策略是RAG中的最后一步,旨在对检索到的候选文档切片进行重新排序,以确保最相关的片段能够优先输入到生成模型中。
排序模型选择:常用的排序模型包括基于BERT的交叉编码器(Cross-Encoder)、基于Transformer的排序模型等。这些模型能够对查询和候选片段进行联合编码,计算它们之间的相关性得分。
排序过程:将查询和每个候选片段输入到排序模型中,输出一个相关性得分。根据得分对候选片段进行排序,选择得分最高的片段作为最终检索结果。
生成模型输入:将排序后的候选片段作为上下文输入到生成模型中,生成最终的输出内容。生成模型可以是GPT、T5等大语言模型,它们能够根据上下文生成连贯、准确的文本。