Bootstrap

关于自然语言处理(一)

在研究者们追求人工智能实现的路径上,有三种不同的智能层次:

  • 运算智能:让计算机拥有快速计算和记忆存储能力。

硬件加速器:例如 GPU(图形处理单元)、TPU(张量处理单元)、ASICs(应用特定集成电路)等。

并行计算:多核处理器、分布式系统、超线程技术等。

高效算法:如 FFT(快速傅里叶变换)、Strassen算法(快速矩阵乘法)等。

内存和存储技术:如 SSD、RAM、以及新型存储技术如 3D XPoint。

  • 感知智能:让计算机系统具备感知外部环境的能力。

计算机视觉:包括以卷积神经网络(CNN)和图像处理在内的一系列内容,应用于图像识别、目标检测、图像分割等。

语音识别:技术包括递归神经网络(RNN)、长短时记忆网络(LSTM)、声谱图等。

触觉技术:例如电容触摸屏、压力感应器等。

其它传感器技术:如雷达、激光雷达(LiDAR)、红外线传感器、摄像头、麦克风、气味检测传感器等。

  • 认知智能:让计算机系统具备类似于人类认知和思维能力的能力。

自然语言处理:如 RNN、transformer、BERT、GPT架构、语义分析、情感分析等。

增强学习:技术包括 Q-learning、Deep Q Networks (DQN)、蒙特卡洛树搜索(MCTS)等。

知识图谱:结合大量数据,构建对象之间的关系,支持更复杂的查询和推理。

逻辑推理和符号计算:如专家系统、规则引擎、SAT solvers 等。

模拟人类思维的框架和算法:例如认知架构(如 SOAR 和 ACT-R)。

无论是图灵测试的设计方式,还是GPT爆火引发的AI浪潮都说明——在人工智能发展的过程当中,深度学习学者们、甚至整个人类社会都无意识地达成了一种高度的共识:认知智能是智能的终极体现,人机同频的交流是智能被实现的象征,无论一个人工智能算法有多强大的能力。只要它不能普适性地理解人类、不能让人类理解、不能与人类顺畅交流,它终归是无法融入人类和商业社会的(残酷的是,一个真人也是一样)。人工智能的终极评判标准,就是人机同频交流。

在“人机同频交流”的大目标下,自然语言处理这一领域的关键性不言而喻。人类90%的信息获取与交流都依赖于语言,人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。因此,计算机想要具备“看人类所看,想人类所想,与人类同频”的能力,就必须理解人类所使用的自然语言,而自然语言处理(Natural Langurage Process)正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。豪不夸张的说,人工智能能否真正“智能”,很大程度上都依赖于自然语言处理领域的发展。也正因如此,在当今的机器学习世界,自然语言处理有着极其重要的学术和工业地位

持续繁荣的学术界

在过去10年中,计算机视觉技术逐渐成熟、对抗式技术停滞不前,深度学习领域的重大发展和成就都离不开自然语言技术的推动——从Word2Vec、LSTM到Transformer结构,再到BERT、GPT-3和GPT-4等模型,人工智能的每次出圈都离不开NLP,图灵奖得主、深度学习之父Geoffrey Hinton甚至直言“深度学习的下一个大的进展应该是让神经网络真正理解文字的含义”,人人都在关注NLP领域的发展。

在过去5年中,NLP经典会议ACL和NAACL中被接受论文数量和比率都逐年增高,得益于语言与其他信息承载形式可以很好的结合,计算机视觉领域、强化学习、对抗式学习、自动驾驶等领域也都受到NLP的影响、纷纷出现借鉴NLP架构的精彩论文——能够在图像领域大杀四方的非卷积架构ViT(Vision Transformer)就是最典型的代表,而23年3月,谷歌大脑发表论文《LEAST-TO-MOST PROMPTING》,验证了大模型+恰当的提示工程可在自动驾驶领域的高难导航数据集SCAN上达到99%的预测精度,而在这之前SCAN数据集上的平均预测精度大约只有50%左右;同时,在2023年3月发布的"机器学习/深度学习领域年度百佳论文"列表中,专注NLP或需要NLP技术支持的论文占据了榜单的2/3,涉及生成式语言模型技术、预训练技术、大语言模型技术、语音技术、图文模型技术等各个方向,NLP无愧于人工智能研究的王者领域。

大模型引发行业剧变

随着对NLP的研究不断深入,我们见证了NLP在过去几十年中的巨大进展和突破。从早期的规则驱动方法到统计模型的兴起,再到如今神经网络和深度学习的崛起,NLP领域一直在不断演变和创新。这些发展为我们理解、分析和处理人类语言提供了强大的工具和框架,也为我们未来指出一条明路,让我们一起来看看NLP现在处于什么样的发展阶段,我们应该如何把握住时代的红利、规避时代风险。

从2011年第三次人工智能革命开启,自然语言处理领域已经经历了三大发展阶段:

  1. 探索阶段:2011~2015(前Transformer时代)

在AlphaGo和卷积网络掀起第三次人工智能革命之前,NLP领域主要依赖人工规则和知识库构建非常精细的“规则类语言模型”,当人工智能浪潮来临后,NLP转向使用统计学模型、深度学习模型和大规模语料库。在这个阶段,NLP领域的重要目标是“研发语言模型、找出能够处理语言数据的算法”。因此在这个阶段,NLP领域学者们一直在尝试一些重要的技术和算法,如隐马尔可夫模型(HMM)、条件随机场(CRF)和支持向量机(SVM)。同时,这个阶段也见证了循环神经网络RNN和长短期记忆网络LSTM等神经网络模型的出现和发展。

  1. 提升阶段:2015~2020(Transformer时代)

RNN和LSTM是非常有效的语言模型,但是和在视觉领域大放光彩的卷积网络比起来,RNN对语言的处理能力只能达到“小规模数据上勉强够用”的程度。2015年谷歌将自注意力机制发扬光大、提出了Transformer架构,在未来的几年中,基于transformer的BERT、GPT等语言模型相继诞生,因此这个阶段NLP领域的重要目标是“大幅提升语言模型在自然语言理解和生成方面的能力”。这是自然语言处理理论发展最辉煌的时代之一。此外,这个阶段中语言模型已经能够很好地完成NLP领域方面的各个任务,因此工业界也实现了不少语言模型的应用,比如搜索引擎、推荐系统、自动翻译、智能助手等。

  1. 应用阶段:2020-至今(大模型时代)

2020年秋天、GPT3.0所写的小软文在社交媒体上爆火,这个总参数量超出1750亿、每运行1s就要消耗100w美元的大语言模型(Large Language Models,LLMs)为NLP领域开启了一个全新的阶段。在这一阶段,大规模预训练模型的出现改变了NLP的研究和应用方式,它充分利用了大规模未标注数据的信息,使得模型具备了更强的语言理解能力和泛化能力。基于预训练+微调模式诞生的大模型在许多NLP任务上取得了前所未有好成绩,在模型精度、模型泛化能力、复杂任务处理能力方面都展示出了难以超越的高水准,这吸引了大量资本的注意、同时也催生了NLP领域全新的发展方向与研究方向。现阶段NLP领域的核心目标主要集中在模型研发&成本降低&模型技术变现三大方向上:

  1. 如何研发、训练自己的大模型?

虽然GPT系列大模型的原理并未开源,但GPT的成功无疑为“如何提升语言模型表现”指出了一条明路。在GPT的启发下,海内外各大科技企业正在研发基于BERT、基于GPT或基于Transformer其他组合方式的大模型,国内一线大模型ChatGLM系列就是基于BERT和GPT的融合理念开发的中文大模型。同时,大模型研发和训练技术、如生物反馈式强化学习(RLFH)、近端策略优化(PPO)、奖励权重策略(Reward-based Weighting)、DeepSpeed训练引擎等发展迅速,势不可挡。虽然现在已不是NLP理论发展的高峰,但毫无疑问,大模型算法研发与训练依然是NLP最前沿的研究方向之一。

  1. 如何降低大模型应用门槛与应用成本?

大模型吞吃大量语料、训练成本极高,要将大模型应用到具体商业场景、还需进一步研究和训练。因此降低大模型应用成本的预训练、微调、大规模语料库构建等技术正蓬勃发展!自2020年以来已诞生十余种可行的微调方法和自动语料生成方法,如有监督微调(SFT)、低阶自适应微调方法LoRA、提示词前缀微调方法Prefix Tuning、轻量级Prefix微调Prompt Tuning、百倍效率提升的微调方法P-Tuning V2、以及自适应预算分配微调方法AdaLoRA等。这些方法催生了GPT4.0和大量语言方面落地应用,已经大大改变了NLP的研究和应用格局。

  1. 如何化技术为产品,实现大语言模型的商业应用?

大语言模型在变现方面有两大优势:首先,大语言模型的性能十分强大、足以很好地支持各类NLP方面服务;其次,大语言模型使用自然语言与消费者交互,可以大幅降低新产品的使用门槛,还可以与图像、语音等领域强势联动、形成多模态的产品。基于这两点变现优势,自动翻译、智能助手、文本分析、情感分析等经典NLP任务都有了实用且价格低廉的APP产品,人们在日常生活工作中更是有无限的机会接触到各类基于大模型技术的NLP应用,家庭物联网、语音指令等技术更是已经走入千家万户,一些谐星的领域,如AI算命、AI佛祖、AI心理咨询师等也相继诞生……

同时,随着大模型应用门槛和使用门槛都逐步降低,大量的大模型产品不断涌现——ChatGPT、跨语言代码编译工具Cursor、Github官方代码编写工具CopilotX、一键生成PPT内容的Gamma AI,office全家桶中配置的Copilot、Photoshop中配置的fill features,广泛生成图像的MidJourney和Stable Diffusion……这些应用不仅改变了商业的运营方式,也极大地影响了人们的生活和工作。同时,大模型APP研发范式LangChain也受到了大规模追捧,LangChain正在逐步构建基于大模型研发变现产品的行业规范,很快整个人工智能领域都将迎来大规模变现的时代。

如果你还想挖掘更多宝藏内容,请关注公众号“智界元枢”。

;