AIGC生成式人工智能
什么是生成式AI,什么是AIGC?今天我们来详细的认识一下:
生成式人工智能AIGC(Artificial Intelligence Generated Content)是人工智能1.0时代进入2.0时代的重要标志。
GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。
从计算智能、感知智能再到认知智能的进阶发展来看,AIGC已经为人类社会打开了认知智能的大门。通过单个大规模数据的学习训练,令AI具备了多个不同领域的知识,只需要对模型进行适当的调整修正,就能完成真实场景的任务。
AIGC对于人类社会、人工智能的意义是里程碑式的。短期来看AIGC改变了基础的生产力工具,中期来看会改变社会的生产关系,长期来看促使整个社会生产力发生质的突破,在这样的生产力工具、生产关系、生产力变革中,生产要素——数据价值被极度放大。
AIGC把数据要素提到时代核心资源的位置,在一定程度上加快了整个社会的数字化转型进程。
概念与定义
生成式人工智能——AIGC(Artificial Intelligence Generated Content),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
麦肯锡的定义:生成式人工智能旨在通过以一种接近人类行为,(与人类)进行交互式协作。 [1]
Gartner的定义:生成式人工智能是一种颠覆性的技术,它可以生成以前依赖于人类的工件,在没有人类经验和思维过程偏见的情况下提供创新的结果。 [2]
BCG的定义:生成式AI是一种突破性的人工智能形式,它使用对抗网络(GANs)的深度学习技术来创建新颖的内容。 [3]
TE智库的定义:生成式人工智能,将彻底改变人机交互的关系,并创造新的产能输出结构。它将在第四维度实现与人的思维同调,类似移动设备以人类外器官形态存在,AIGC将以外脑的形式存在于人类认知中。 [4]
南京大学数据智能与交叉创新实验室:为伴随着网络形态演化和人工智能技术变革产生的一种新的生成式网络信息内容。 [5]
信通院的定义:AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。 [6]
产生背景
1950年,艾伦•图灵(Alan Turing)在其论文《计算机器与智能(Computing Machinery and Intelligence )》13中提出了著名的“图灵测试”,给出了判定机器是否具有“智能”的试验方法,即机器是否能够模仿人类的思维方式来“生成”内容继而与人交互。 [7]
某种程度上来说,人工智能从那时起就被寄予了用于内容创造的期许。经过半个多世纪的发展,随着数据快速积累、算力性能提升和算法效力增强,今天的人工智能不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作。 [6]
2018年,人工智能生成的画作在佳士得拍卖行以43.25万美元成交,成为世界上首个出售的人工智能艺术品,引发各界关注。随着人工智能越来越多地被应用于内容创作,人工智能生成内容 (Arificial Intelligence Generated Content,简称AIGC)的概念悄然兴起。 [6]
发展历程
人工智能的发展历史大致可以被划分为5个阶段。(1950~1974)人工智能概念的出现;(1974~1980)神经网络遇冷,研究经费减少;(1980~1987)专家系统流行并商用;(1987~1993)专家系统溃败,研究经费大减;(1993~至今)深度学习理论和工程突破。
使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:
早期萌芽阶段:1950-1990
受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。
沉积积累阶段:1990-2010
AIGC从实验性向实用性逐渐转变,深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
快速发展阶段:2010-至今
深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域:2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。2021年2月,OpenAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。2022年,扩散模型Diffusion Model逐渐替代GAN。
特征
AIGC是建立在多模态之上的人工智能技术,即单个模型可以同时理解语言、图像、视频、音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述、结合语义语境生成图片等。
现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。
文本生成
文本生成(AI Text Generation),人工智能文本生成是使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型,以生成在风格、语气和内容上与输入数据相似的新文本。 [8]
图像生成
图像生成(AI Image Generation),人工智能(AI)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的,也可以传达特定的主题或信息。 [9]
语音生成
语音生成(AI Audio Generation),AIGC的音频生成技术可以分为两类,分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音,主要用于机器人和语音播报任务。到目前为止,文本转语音任务已经相对成熟,语音质量已达到自然标准,未来将向更具情感的语音合成和小样本语音学习方向发展;语音克隆以给定的目标语音作为输入,然后将输入语音或文本转换为目标说话人的语音。此类任务用于智能配音等类似场景,合成特定说话人的语音。 [10]
视频生成
视频生成(AI Video Generation),AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成,视频的每一帧都在帧级别进行处理,然后利用 AI 算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及,AIGC可能会继续革新视频内容的创建和营销方式。 [10]
AIGC产业结构
AI产业链主要由基础层、技术层、应用层三大层构成。其中基础层侧重于基础支撑平台的搭建,包含传感器、AI芯片、数据服务和计算平台;技术层侧重核心技术的研发,主要包括算法模型、基础框架、通用技术;应用层注重产业应用发展主要包含行业解决方案服务、硬件产品和软件产品。
调研归纳发现,国内AIGC产业链结构主要由基础大模型、行业/场景中模型、业务/领域小模型,AI基础设施、AIGC配套服务五部分构成,并且已经形成了丰富的产业链。
基础大模型
通过大量无标签或通用公开数据集,在数百万或数十亿参数量下,训练的深度神经网络模型。这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。大模型需要占用大量的计算资源、存储空间、时间和电力等资源来保证它的训练和部署。 [4]
行业与场景中模型
基于行业/场景专有数据,在较小参数量下训练的深度神经网络模型。面向特定场景和行业,该模型运行速度更快,也更加轻便。 [4]
代表供应商类型:行业头部数字化供应商、AI厂商、行业巨头、基础大模型厂商、数据服务供应商。
业务与领域小模型
基于少量、特定领域或企业独有数据,在小规模参数下训练的深度神经网络模型。适用于解决一些简单的、小规模的问题,可以在低功耗设备上运行,具有更快的推理速度。 [4]
代表供应商类型:垂直领域数字化服务供应商(包含SaaS服务供应商)、行业巨头、AI厂商、基础大模型厂商。
AI基础设施
为模型厂商提供算力、算法、数据服务三大套件支持,包括服务器、芯片、数据湖、数据分析能力。 [4]
AIGC配套服务
围绕大模型,提供建模工具、安全服务、内容检测、基础平台等服务。
AIGC产业链上游主要提供AI技术及基础设施,包括数据供给方、数据分析及标注、创造者生态层、相关算法等。中游主要针对文字、图像、视频等垂直赛道,提供数据开发及管理工具,包括内容设计、运营增效、数据梳理等服务。下游包括内容终端市场、内容服务及分发平台、各类数字素材以及智能设备,AIGC内容检测等。 [4]
AIGC关键技术能力
实现AIGC更加智能化、实用化的三大要素是:数据、算力、算法。
数据
AIGC人有我优的核心基础,包括存储(集中式数据库、分布式数据库、云原生数据库、向量数据库)、来源(用户数据、公开域数据、私有域数据)、形态(结构化数据、非结构化数据)、处理(筛选、标注、处理、增强…)
算力
为AIGC提供基础算力的平台,包括半导体(CPU、GPU、DPU、TPU、NPU)、服务器、大模型算力集群、基于IaaS搭建分布式训练环境、自建数据中心部署。 [4]
算法
通过模型设计、模型训练、模型推理、模型部署步骤,完成从机器学习平台、模型训练平台到自动建模平台的构建,实现对实际业务的支撑与覆盖。 [4]
AIGC商业应用领域
国外AIGC的商业化从基础大模型开始,包括以ChatGPT、Midjourney为代表的典型应用是基于基础大模型的调用,孵化而来。
国内正好相反,由于国内市场极度丰富的业务场景,高度离散的供给侧服务,导致当前的AIGC商业化先从业务/领域小模型开始。基础大模型尚处于快速迭代升级的阶段,同时也开始关注具体的业务场景。而行业/场景中模型市场相对更加滞后,但这一市场在中国特色市场下,将会是未来基础大模型和领域小模型都会积极跨界的领域。
目前国内的AIGC技术与应用,供需两侧主要集中在营销、办公、客服、人力资源、基础作业等领域,并且这种技术所带来的赋能与价值已经初步得到验证。根据TE智库《企业AIGC商业落地应用研究报告》显示,33%企业在营销场景、31.9%的企业在在线客服领域、27.1%的企业在数字办公场景下、23.3%的企业在信息化与安全场景下迫切期望AIGC的加强和支持。 [4]
》
营销场景
营销场景是目前AIGC渗透最快,也是应用最成熟的场景。AIGC主要在营销动作中的内容生产、策略生成方面极大加强了数字营销的能力。
例如市场认知阶段的核心价值是创意参考,可赋能环节包括:广告策略、品牌传播、市场分析、CEM、SEO、DSP、SSP,通过生成广告创意与投放优化参考,包括广告设计、广告内容、投放渠道策略和投放分析,从而提高广告效果和投放效率。 [4]
数字办公场景
数字办公场景也是目前AIGC渗透较快的场景之一,主要体现在对个体的办公效率提升。在文本内容生成、代码生成、流程设计和规范等方面表现出一定的提示和优化。
例如流程管理模块的核心价值是规范建议,可赋能环节包括:流程规范设计、流程路径设计、流程控制设计、流程优化,在一个新项目启动时,可以根据项目需求和历史经验自动生成流程规范建议,包括各阶段的任务分配、时间节点等。 [4]
在线客服场景
在线客服是AIGC音频生成最近距离的场景之一,声音合成、语义理解在智能化策略下,生成具有明确目的性的对话内容。
例如全渠道接入模块的核心价值在于个性化模块,可赋能的环节:富文本沟通、自动主动对话、访客信息展现,生成个性化回复模板,更好地提供针对性服务,从而提升客户满意度。 [4]
人力资源
AIGC对人力资源服务的加成,是目前在企业经营管理体系中进展较快的领域。使人力资源管理体系的效率大幅提升的同时,在一定程度上也改变了传统人力三支柱的传统管理模型。
例如招聘模块的核心价值在于简历推荐,可赋能的环节:筛选、面试筛选、笔试测评,以筛选简历阶段为例,可以分析各个候选人的简历,生成匹配结果报告,并根据公司需求智能推荐合适的候选人。大幅提高筛选准确性和效率,减少人力资源部门的工作负担。 [4]
基础作业
AIGC在基础作业场景中的表现十分突出,在设计、电子签名、合同管理、法律服务等环节表现出很强的智能化以及可替代性。
- 例如在平面设计领域:
设计构思模块的核心价值在于创意辅助,可赋能的环节:设计对接、沟通设计思路,当企业开始设计时,可以根据客户需求,自动转化设计对接,同时辅助设计不同风格方案生成,提升设计师的创意水平。
- 在合同管理、电签等领域:
核心价值在于合同草稿生成、内容自动审核、合同完整性确认,可赋能的环节:合同制作、业务部门内部审核、审核确认、财务审核、法务审核、审核确认、领导审核、审核确认、最终审核,存档,能够根据企业需求和行业标准,自动识别关键信息并生成合同草稿,提高合同起草质量,节省企业起草合同所需时间;自动分析合同内容,为业务部门审核合同提供有效建议,提高审核效率,降低合同执行潜在风险;可以基于已完成的合同审核意见及修改意见,确保合同完成,生成最终合同文档。 [4]
AIGC落地方式与路径
目前企业/机构端在使用相关的AIGC能力时,主要有五种方式:直接使用、Prompt、LoRA、Finetune、Train。 [4]
直接使用
顾名思义,直接使用基础大模型厂商发布的产品服务,通过接口调用方式嵌入自身业务或系统当中。
Prompt
通过提示工程,通过微调少量参数,引导预训练语言模型做特定下游任务。利用文本对话方式操控语言大模型,引导生成结果。
LoRA
仅训练低秩矩阵(low rank matrics),使用时将LoRA模型的参数注入基础大模型,在不修改大模型的前提下,改变模型的生成风格。所需的训练资源比训练基础大模型要小很多,非常适合社区使用者和个人开发者。
FineTune
Finetune是应用或利用迁移学习的一种方式。对基础大模型进行微调,以适应特定任务。
当数据集相似,但数据量又很少的情况下,微调省去大量计算资源和计算时间,提高了计算效率,甚至提高准确率。具体来说,微调是一个过程,它采用已经针对一项给定任务训练过的模型,然后调整或微调模型以使其执行第二个类似任务。 [11]
Train
调用数据、算力、算法从头训练大模型,从头开始训练大模型。除非特殊领域和特定要求,一般商业公司不会从头开始训练基础大模型。 [4]
AIGC商业模式
目前AIGC主要的商业模式为MaaS(Model as a service),MaaS是一种云与大模型深度绑定后的新商业模式,以云为基础、模型为中心,提供众多预训练基础模型,只需针对具体场景作调整优化,就能够快速投入使用。 [4]
MaaS与云计算各层的商业结合,将会引发企业市场一场新的商业模式变革。
图片来源:TE智库《企业AIGC商业落地应用研究报告》
MaaS由三部分组成,包括基础层、中间核心层和底层扩展层。基础层涵盖了用户的身份信息,如用户姓名和职业等基本信息;中间核心层描述了重要的用户特征,如用户兴趣、偏好、目标等;底层扩展层包含带有用户特征的个性化知识,包括通过语义关系分析和推理得到的用户兴趣、偏好和个性化的模型网络。
这个平台可作为独立的服务平台,插入到云计算中,具体位置在PaaS层和SaaS层之间。因此在商业模式上可以是MaaS+IaaS、MaaS+PaaS、MaaS+SaaS。
MaaS+IaaS
MaaS开发人员设计的所有MaaS配置文件模板都存储在IaaS层中,也就是说用IaaS层的数据库喂给MaaS。这意味着MaaS的质量也取决于IaaS层数据库的质量,其中包括关系型数据库、NewSQL、数据仓库和数据湖等对数据的处理。
MaaS+PaaS
MaaS主要针对PaaS的构建和开发模式产生巨大影响,缩短PaaS的开发周期。原来PaaS层的服务主要依赖与在某一领域的专业深耕,垂直化PaaS的价值得以放大。而MaaS的介入,在理论上使得通用PaaS服务成为可能,并且PaaS服务对象直接赋能最终B端客户,不再局限交付团队。
MaaS+SaaS
这是目前AIGC与企业业务结合最具想象力的商业模式,SaaS+MaaS能为每个终端用户,输出针对自己业务的个性化服务。
客户可以直接将需求传递给系统,它会自动调用功能、展示结果。区别在于,通过MaaS平台搭建出的SaaS软件会展现出更个性化的工具,其效果可能要好过PaaS+SaaS的模式。最后,SaaS的订阅模式也会因此发生改变。
收费模式
数据调研发现,中国企业用户在AIGC的付费模式期望方面开始出现明确的方向。对MaaS的收费模式主要分为三类:订阅收费、按内容产出量收费、定制模型开发收费。 [4]
图片来源:TE智库《企业AIGC商业落地应用研究报告》
AIGC供给侧能力评估模型
判断一个组织或机构在AIGC时代的商业化潜能,可以从四个维度加以验证:团队、创新、市场、生态。 [4]
- 团队——结构与战力(Team-Structure& ability)
- 创新——资源与保障(Innovate-Resources& security)
- 市场——机会与密度(Market-Opportunity& density)
- 生态——连接与协作(Ecological -Cooperation& collaboration)
AIGC发展存在的问题
法律法规完善程度低
目前AIGC相关的法律法规不完善是主要问题,想要实现对AIGC技术的有效发挥,必须对其相关的法律法规进行完善。就当前的AIGC技术在目前的应用来看,其缺乏完善的安全性标准,没有明确AIGC技术服务、内容传播与技术应用各相关方面的法律和社会责任。其次,缺乏完善的AIGC技术相关立法,与分级分类的监管手段,AIGC技术的安全性难以得到保障。
数据要素问题突出
在AIGC技术的使用中,没有明确划分公有数据和专有数据的使用界限,使基础大模型训练的数据合规性、安全性、权属产生问题。例如,专有数据的泄露可能会导致用户数据安全的问题,同时数据要素也很难有效的发挥出自己的价值。
技术保密性问题
技术保密性是AIGC的首要问题。比如,在与AIGC交互的过程中,企业的专有资源被泄露等。如果技术保密性不足就可能严重影响到信息资源的所有者。
完善措施
法律准入
随着AIGC技术的不断发展,AI应用的领域日益广泛,为了更好地规范市场发展,建议逐步完善保障AIGC良性发展的法律法规体系,建立法律准入体系。开展针对AIGC模型市场准入方面的法律法规研究,从而明确AIGC技术服务、内容传播与技术应用各相关方面的法律和社会责任。同时,鼓励立法研究的多方参与、监管手段的分级分类、行业治理的公私合作。
数据服务产业链纳入统一管理体系
数据是AIGC发展的三大根基之一,加强数据要素安全,是AI技术安全落地的基础。首先,可以加强各级单位对于数据要素的治理,分级分层建立数据要素安全标准,如网络安全等级保护、数据分类分级管理、合规管理体系的搭建以及安全事件的防范等方面建立完善的解决方案。
技术标准统一和完善
技术是AIGC发展的核心,加强技术的独立可控是AIGC发展的重要手段。可以在基础大模型阶段开始实施技术标准、业务标准的制定,从起步阶段完善产业链体系的标准化。
同时加强数据归集、算力统筹、算法开源等平台和基础能力建设等;同时优化AIGC技术的发展环境,通过技术创新、理念创新,进一步适应新的发展环境,提高技术的应用价值,是未来AIGC技术的发展重点。
多年来一直专注于科学计算服务器,入围政采平台,H100、A100、H800、A800、RTX6000 Ada,单台双路192核心服务器等。
机器学习:一切通过优化方法挖掘数据中规律的学科。
深度学习:一切运用了神经网络作为参数结构进行优化的机器学习算法。
监督学习、无监督学习和强化学习分别是机器学习中三个重要的课题。
强化学习:不仅能利用现有数据,还可以通过对环境的探索获得新数据,并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索,而探索是为了获取数据进行更好的学习。
可以学习和模拟人类的人工智能通常是由深度学习+强化学习实现的。 在算法方面,人工智能最重要的算法仍是神经网络。
```python
class BertPooler(nn.Module):
def __init__(self, config):
super().__init__()
self.dense = nn.Linear(config.hidden_size, config.hidden_size)
self.activation = nn.Tanh()
def forward(self, hidden_states):
# We "pool" the model by simply taking the hidden state corresponding
# to the first token.
first_token_tensor = hidden_states[:, 0]
pooled_output = self.dense(first_token_tensor)
pooled_output = self.activation(pooled_output)
return pooled_output
from transformers.models.bert.configuration_bert import *
import torch
config = BertConfig.from_pretrained("bert-base-uncased")
bert_pooler = BertPooler(config=config)
print("input to bert pooler size: {}".format(config.hidden_size))
batch_size = 1
seq_len = 2
hidden_size = 768
x = torch.rand(batch_size, seq_len, hidden_size)
y = bert_pooler(x)
print(y.size())
```