要说今年科技圈最火爆的明星,非以chatGPT为起点的一系列基于大模型的AIGC类产品莫属,曾经的区块链元宇宙虚拟现实这些小甜甜们一夜之间似乎就落伍了。其根本原因可能在于这次的AI技术升级(也许叫AI革命更合适)从诞生起就更接地气,极低的门槛让普通人也能够体验到实实在在的科技进步并产生了自发的传播效应,减少了科普的成本。
其实大模型是一个统称,目前大家接触最多的应用是基于LLM(大语言模型)的自然语言理解与生成式AI应用,也是众多厂商扎堆涌入的赛道。其在C端的应用模式比较清晰,一种是直接使用大模型对话应用;另一种是嵌入到桌面软件内作为效率工具,比如办公、创作、编程类工具中。而大模型在ToB领域应用的落地,尚处于探索与酝酿阶段。本文将简单探讨下大语言模型在B端应用的几种常见的思路与模式。
大语言模型在ToB应用的挑战
大模型虽然聪明,但也绝非无所不知。我们接触到的最多的通用模型,比如文心一言,chatGPT等,在自然语言理解、内容创作、上下文对话等方面确实有了质的提升,但在面向B端应用时,则有一些水土不服:
-
模型的时效性限制。通用大模型是一个“活在过去”机器人,原因是因为千亿级参数的通用大模型训练是一项成本极高且费时费力的工作,所以它默认无法回答实时性高的问题。而在企业的实际应用场景中,往往需要结合实时信息来输出,比如最新的客户反馈、最新的产品更新、最新的网络舆论,甚至简单到今天的天气和航班。比如
-
容易产生事实性错误。大模型的推理高度依赖于训练语料,虽然它会“创作”,但也无法凭空生成,只能是基于已有训练信息的推理预测。如果在某个领域的训练预料不足,就会产生事实性错误,胡说八道的含量急剧上升。这对于有着较高准确性要求的企业应用场景来说,很多时候无法接受,甚至是致命的。就像你可以忍受大模型写一首很蹩脚的诗,但不会忍受大模型告诉你1+1=3一样。比如错误百出的计算:
-
深度行业与私域知识的缺乏。通用大模型就向一个啥都懂一点的记忆能力和逻辑能力惊人的好学生,但他不是一个领域专家。对于一些知识集中度和复杂度高的细分行业,比如金融、税务、法律,其知识储备是远远不够的。更不用说了解企业自身的私域知识。就比如你无法让chatGPT来帮你介绍贵公司的最新产品或者解答最新的售后服务政策。
此外,大模型在企业应用时还面临着数据安全与监管等方面的严峻问题。
大模型之ToB落地模式:简单的直接调用
最野蛮直接的模式,即把自身的企业应用直接接入大模型平台,通过模型服务商开放的接口(API),结合企业的实际应用进行集成。由于大模型存在的天然缺陷和不足,这种应用模式通常只能适用对于数据安全性要求较低、对绝对的准确性、实时性要求较低的场景。比如语言翻译、文本内容创作的一些场景,或者作为一些其他AI应用的辅助。两个简单的例子:
例一:利用大模型生成智能客服系统的训练语料。传统的企业智能客服解决方案中,通常需要大量的问答素材来作为深度学习的样本,以前需要靠人工采集和标注。而大模型出现后,你可以让大模型帮你扩写出大量的相似问法。
例二:在一个企业内训平台中,需要根据培训课件来制作考题,用来评估学习效
果。那么你可以利用大模型来帮助你生成这些考题。你给他输入一个课件,他给你输出一系列考题。
可以看到,直接利用大模型输出在企业应用中也并非完全无法胜任,虽然场景会大大受限,但只要发动你智慧的脑细胞,还是大有可为的。
大模型之ToB落地模式:垂直行业大模型
在垂直领域构建专属的行业大模型,让大模型拥有在这个领域的专业能力,也是一种很容易想象的应用模式。这种需求通常来自于有着较高的知识复杂度和密集性的行业,这些行业的知识通常是通用大模型比较短缺的,直接的大模型输出往往会错误百出,不太具有实际应用价值。就比如你很难用大模型去查询到一个非常准确专业的法律条文或者医学研究的专业建议。垂直的行业大模型通常仍然会保持通用模型的理解和推理能力,但又增加了大量行业和领域内知识的“投喂”,从而在输出时的准确性得以大大提高,也就具有了一定的实用价值。
当然,在技术要求层面,相对于通用大模型,行业大模型通常不需要有极大的通用型,但是对专业性与准确性要求更高,对迭代的周期要求更高,几万张显卡训练几周甚至几月的周期是不可想象的。
技术实现上,构建垂直行业的大模型也可以分为全新训练独立大模型与微调已有的大模型两种模式。无论哪种模式,都有着较高的技术要求,要训练出较为理想状态的行业模型,需要对自然语言处理、预训练语言模型、微调技术等有一定的了解与积累。此外,别忘了模型训练还有一个最重要的角色,就是数据。海量数据的清洗整理也提高了自训练大模型的门槛,当然现在也可以利用一个已有的大模型来整理数据,帮助训练另一个大模型。(没错,机器人也可以互相成就)
当前已经有较多的企业和科研机构在通过不同的方式开展领域私有模型的研究与构建,比如某教育机构宣布的MathGPT,彭博社的bloombergGPT,开源社区也可以看到类似医学领域GPT、LawGPT、TaxGPT这样的前期项目雏形,期待在未来看到更多更专业的行业大模型。
大模型之ToB落地模式:企业私享大模型
需要注意的是,上文所说的行业大语言模型,并非指的是企业的私享大模型。它仍然是共享的,只是在某个细分领域表现的更加专业。那么,有很多企业对共享大模型的数据安全性存在较多顾虑,或者有着严苛的数据安全监管要求的,应该如何拥抱大模型呢?
一种可行的方式是部署开源的大语言模型(可以是通用的,也可以是垂直行业大模型),或者通过微调技术,增加企业私有语料的训练之后部署在企业内部使用。开源的通用大语言模型目前选择很多,不管是国外的羊驼、小羊驼,还是国内的chatGLM,chatMOSS,都有轻量级的开源版本,用在企业内部微调成更适合内部企业应用的私有模型,未必不是一种选择。
当然,即使你站在前人的肩膀上,也并不意味着很小的工作量,事实上,在测试过程中我们就会发现,微调一个大语言模型,即使只是参数量较低的版本,如果想让他按照你的期望工作,其付出的代价也可能会远超出你的预估。数据搜集、整理、输入、训练、调参、优化、测试,整个过程的反复也是一个费时费力费钱的工作。因此,微调甚至直接训练一个成功的开源大语言模型在内部使用,可能更适合有相当技术能力的大型超大型企业。
不过,随着大模型产业链的完善与成熟,一定会出现更专业的分工,会出现专业的大模型调试与集成公司(笔者刚遇到了一个把开源绘图模型部署并调优成一体机卖给设计公司的案例,对方含泪减少两位设计人员),那么所谓的专业问题也自然会有专业的人来完成。
大模型之ToB落地模式:连接私域知识与数据
基于这样一个显而易见的事实:在企业内部,通常存在较多的、私有的事实性知识,这些知识数据量较大,通常用在自身的专有场景。有较强的时效性、更新较为频繁、存储形式较为多样、安全性要求较高。比如:
呼叫中心的本地知识库、交互语音、客户在线咨询记录等
企业内大量非结构化存储的文件,宣传材料、使用手册、培训视频等
企业内部CRM应用的数据库中的客户数据
对这一类数据,并不太适合去训练或者微调一个专有的大模型。主要的原因是,专有大模型的训练成本过高,且在时效性上无法满足这些企业内部数据快速迭代更新的要求。
当前一种可行的方案,也是正在得到很多开源项目验证的方案是结合本地私有知识与大模型,并在他们之间架设一个桥梁或者叫“链接器”,使得他们能够进行完美协作的方案。当然,这里的“私有知识”是广义上的知识,可以是企业内部的各种模态的文档,也可以是企业的数据库,甚至可以直接是企业的一个应用。
我们用一个简单的例子,并用尽量通俗的表达方式来说明这种方案:
假设你的公司想实现一个智能客服,在线解答客户的售前售后的产品咨询。在传统的方案中,无论是模糊搜索匹配,还是依赖于机器学习的意图识别,效果很难如意,其核心问题通常是,传统方案中自然语言的语义理解是一大难点。那么,既然大模型在自然语言的处理与理解能力上实现了飞跃,那么我们就可以结合本地客服知识库与大模型的能力来优化实现。
我们用简单易懂的语言来描述如下的协作过程:
一
链接器把本地的私有知识(比如最新的XPhone宣传介绍与详细参数文档)处理后加载到自己的临时“知识区”
二
链接器根据用户的自然语言输入(比如:我想了解下XPhone14的摄像头是多少像素的?),从自己的“知识区”中根据语义检索出相关的知识片段和上下文知识(比如:企业文档中iphone14的参数介绍部分)
三
链接器把用户的输入和知识片段交给大语言模型,大模型现学现用,然后给出推理的结果(XPhone14的摄像头是x像素的,相对于XPhone13有x%的提升哦)
整个过程说白了就是:大模型你再聪明也无法通晓所有,但是你有超强的学习理解和推理能力。所以,为了避免你不懂装懂,胡说八道,我临时教给你一段知识,你好好理解后再回答我的问题。” 当然,这里忽略了大量的技术细节描述(比如这里私域知识的处理加载、语义搜索就是个技术活)。
最后说一下这里的“链接器”,其实是一个应用开发框架,目前最火的非LangChain莫属。简单的说,LangChain就是专为将大语言模型(LLM)与自有的知识库或其他应用系统相集成而设计,以增强大语言模型的能力,并降低其不可预测性。除了构建基于本地知识的自然语言对话应用外,LangChain还可在更多的场景给大模型增加一双应用腾飞的“翅膀”。
结束语
我们尽可能用通俗易懂的方式探究了大语言模型在ToB端应用的几种落地模式。整体来说,大模型应用在B端应用的落地,还面临着诸多挑战,包括数据监管与安全、事实性错误、模型的时效性、私域知识对接、训练的复杂度与成本等问题。因此,大模型如何在B端实现真正的价值落地与领域适配,仍然需要多方面的协同努力,也需要更加专注的进行技术研究与论证,拒绝夸夸其谈与急功近利。也期待未来有更多的国产大模型在企业应用中得以生根发芽,成长壮大!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】