“我是一键生成的批判者,过度相信一键生成会导致市场拥挤、平庸内容泛滥。”
“再有五到十年,我们就能够看到AI生成的电视剧和电影。”
“过去,人们研究人工智能的目的是希望利用智能机器完全取代人的工作,现在人工智能里一个很重要的方向是人和AI的互动。我觉得人工智能不只是自动化的技术问题,还是得以人为主体用好工具,通过人机协作成就更好的未来。”
为什么AI的一键生成不能让人得到令人满意的结果?
7月6日,混沌AI应用探索营授课老师、特赞创始人&CEO、同济大学设计人工智能实验室主任、教授及博士生导师范凌,与探索营同学一同探索艺术和科技之间的联结,思考我们应当如何在互联网时代通过人机协作进行内容创作,以叙事驱动发展,打造更加美好的未来。
原文:混沌AI应用探索营,致力于结合AI先锋老师、行业实践案例、AI应用实操,帮助企业管理者实现企业AI+。授课老师 | 特赞创始人&CEO 范凌
01. 创意是可计算的
我从小在美术学院长大,个人使命是想把科技带入艺术。我有两份全职工作,一份是特赞的CEO,一份是大学老师,八年前我开始在同济大学里做设计人工智能实验室。
我的实验室和公司有一个共同的价值观就是要多动手做事情(to build and create)。内容的工具、工具背后的技术、技术的迭代和泛化,我们能做且需要做的事情很多。我们想解决的其实是创意的可计算问题。古希腊哲学家芝诺曾说过:“人的知识就好比一个圆圈,圆圈里面是已知的,圆圈外面是未知的。你知道得越多,圆圈也就越大,你不知道的也就越多。”获取知识不是一场零和游戏,生成创意也是如此。AI生成的创意越多,人的创意也会越多,这是一个双向共生的关系。
大概九年前,我看到了关于可计算创意越来越多的可能性,于是创办了这家公司。受益于时代,我们公司有机会一路发展,从做最基础的模型到现在开始寻找智能模型的应用。
我们在实验室主要干了三件比较根本的事情。一是从各个维度把内容或创意翻译给机器,二是做了一大堆算法,三是做人机协作的各个场景。最近我们实验室在做关于空间生成、设置和应用的尝试,可能还需要两三年的时间才能有商业用途,但从开发到投入使用的时间越来越短了。在AI领域,摩尔定律也同样适用,可能每12个月到18个月生成内容的速度和质量就会提升一倍。也许再有五到十年,我们就能够看到AI生成的电视剧和电影。
知识不是预设出来的,在实验室里我们的知识是学来的,在企业里我们的知识是通过和To C行业如鞋服、零售、新能源等合作获得的。合作企业向我们提问,我们再尝试用人工智能辅助工作的方式帮助他们解决问题。过去,人们研究人工智能的目的是希望利用智能机器完全取代人的工作,现在人工智能里一个很重要的方向是人和AI的互动。我觉得人工智能不只是自动化的技术问题,还是得以人为主体用好工具,通过人机协作成就更好的未来。
02. 为什么故事很重要?
《人类简史》中有一个很有意思的观点,作者认为是叙事驱动了人类的发展,一代又一代的人通过不停地讲故事传递信仰和价值观,让我们相信人类能够改变这个世界。不仅是社会学和人类学领域有这一观点,其他学科也有类似的看法。
我很喜欢的一个量子物理学家戴维·多伊奇写了一本书叫做《无穷的开始》,他认为知识进步的根源在于不断地寻找对于现实世界更加科学的解释。牛顿对世界运转作出了比前人更好的解释,爱因斯坦也作出了更好的诠释。当然很多解释之间可能都是相互矛盾的,关于世界的看法讫无定论,但科学的发展是一个在寻找更好的趋势。
诺贝尔经济学奖获得者罗伯特·希勒在《叙事经济学》中指出,经济波动会受到叙事的影响。为什么我们相信比特币是有价值的?为什么不同品牌的咖啡价格差异如此之大?这些都是叙事和解释带来的结果。
叙事和解释以内容为载体,内容无处不在,我们上课学到的、手机看到的、对话听到的、旅游经历的,都属于内容的范畴。内容的传播方式也因人们交互形式的变化而有所变化。从面对面的口述交换内容,到通过广播、电视接收内容,再到通过书籍、互联网主动搜索内容,现如今内容可以通过网络精准推送给我们。
此外,内容的生产形式也在适应不断变化的市场需求。PGC(Professional Generated Content)是指专业生成内容,最早电视广告都是由专业的内容创作者或团队生成的,但我们无法识别这类广告的实际效果。互联网的出现使得追溯广告效果成为可能,社交媒体中开始出现内容本身即是广告的现象,各种运营性内容应运而生。未来品质型内容和运营性内容会慢慢成为主力,电视广告等效果型内容则逐渐变少。
为什么品牌和企业现在如此关注内容?因为消费者与商品的接触方式有所改变。过去线下消费比较多,我们跑到商店里看到商品不错就买下来。据一个商学院老师做的非正式统计,现在85%的消费决策都是由线上内容驱动的,内容起到了连接消费者和商品的作用。而全世界的GDP中大概有60%左右是消费驱动的,虽然中国是生产大国,消费只占39%左右,但是这中间还有很大的发展市场。
03. 内容创作:原来一个团队做的事,现在只需要一个人就能完成
AIGC的发展带来了很多机会,大家很容易想到内容的一键生成。但我是一键生成的批判者,过度使用一键生成会导致市场拥挤、平庸内容泛滥。人类在创造过程中会有一些独特的化学反应和灵感,这些是不可替代的。鉴于AI确实具有较强的理解力,我认为机会是倒过来的,我们应该通过AI更好地理解和运用内容来实现创新。
过去,用户就是我们的资产,现在各种数据、模型等内容也会成为我们的资产。通过梳理内容生产的链条,我们可以清晰地看到内容是如何给企业创造商业价值的,并用AI加上内容资产搭建企业的知识库,通过数字化的手段,实现内容的生产、流通和优化的全链路发展。其实现在我们能看到越来越多有这项技术的公司,但有能力做好的公司却并不多,所以我们不仅要思考如何生成内容,更要思考如何高效利用内容。
举个例子。我们的合作客户,有一个国际化的商超每周要上新大概一千个商品。他们不想直接拍摄每个商品,而是想把商品放在白色的背景中,清晰地展现商品的特点。
我们尝试用AI来解决这个问题,针对企业提供的所有商品的数据建立起一个数据库,包括商品的文字说明和视觉信息,再自动匹配商品的应用场景。我们也会分析很多拍得好的商品图,针对不同商品所属的品类去提升商品的吸引度,做一些模型层面的调优,以解决光影、配色方面出现的问题。最后,我们再用无边界跨度的编辑器批量处理多个商品信息,省去点开关上这一千个商品界面的时间。原来一个团队做的事,现在只需要一个人就能完成。
我们也重新考虑了和AI的互动形式。因为AI的可控性较低,但生成能力强,所以与其AI生成完美的单个结果,不如利用其低成本批量生成的优势,从生成的100张图中挑选出最满意的一张。以前客户的定制化需求很高,导致每张图的成本很高。现在我们的做法是给用户提供一个取之不尽的素材库,客户可以随时取用。
另外,商品详情页上的文字描述也可以由机器生成。过去需要一群很有经验的专业团队来撰写高质量描述,现在根据企业产品描述库里的信息,就可以自动生成这些描述,还能支持多语言的生成。在这些过程中,我们可以看到机器的运算成本越来越高,而人的服务成本越来越低。
视频是现在更为重要的内容形式,如何用AI为客户生成短视频内容?第一步是搜索此类商品近期比较火的短视频内容。第二步是对这些视频内容进行解析,进行重点标记处理,总结用户关注的重点和利益点。第三步要对企业已有素材进行重新整理和切分。第四步是将自己的素材、买来的素材和需要再去拍摄的素材制作成视频。
视频内容生成中也有一些困难点,比如近期做得好的视频内容面向的客户群体不同,男女老少可能没有一个共识,就要面临标签选择的问题。产品拍摄可能会有100种不同的拍法,如果我们做一个产品想要选定某个卖点,那么从一开始准备拍摄原材料的时候就会有所侧重。
在专业性较强的场景下,我们还可以通过AI梳理生成知识性的内容。举个例子,如果现在有一个包工头要找我们买钻头,我们就可以让AI扩散出一百多种卖钻头的场景,比如包工头是做桥梁建设的,需要什么性能上的特征,考虑什么样的价格区间,然后生成一大堆有效的产品包和营销课,编撰出来几套不同风格的售卖话术,帮助销售统一进行培训。
前面提到我们用AI做图文内容、视频内容、知识性内容,但实际上绝大多数还是人的创造。在国内环境下,整个内容创作流程中百分之七八十的工作可以实现自动化,剩下的百分之二三十需要人工操作。在海外场景中,几乎可实现百分之百的自动化。但绝大多数情况下,AI生成的内容无法实现用独特性来吸引人,只能把30分的东西提升到70分。在过去九年里,我们积累了大概10万创作者的资源库,汇集了各类作品、创作个人和团队,很多较高的需求还是需要人来满足。
我觉得内容创作应该是去中心化的,否则我们所有人的审美都是一样的了。创意应该是多元化,资源应该是流动的,同时也要实现服务的标准化和内容的结构化。以举办一个虚拟发布会为例,我们可以通过全国案例串联的方式即时了解到举办这一活动的具体流程以及每个环节所需的资源,如何获取、预算如何安排,同时也可以利用AI创造出更多创意上的可能性,并从创意库中迅速调取。最终人还是决定这些可变项的决策者,包括选取什么样的风格、如何拆解话题。每一步创意选择的方向都是由人来驱动的。
过去我们每招一个员工,大概需要三个月的时间才能让其业务水平达到60分。现在通过这种人机协作的方式一个礼拜就可以做到。还有一点好处是,AI的参与确保了流程和资源选择的全局化,提高了员工平均服务水平。
我们刚才讨论的都是一些基础的场景,这些商机依赖于比较成熟的技术,AI使用成本相对较低,且实际效果也比较不错,所以得到了广泛应用。但是还有很多场景是有了积累才有机会,积累到机会之间的难点是研发。一方面GPT发展非常快,我们看到了各种各样的可能性,做PPT的可能性、做语音的可能性、做图文的可能性,另一方面它输出的精确性还是很低,难以得到商用的要求。
基于这些,我觉得我们要解决具体怎么做的问题,大家需要投入大量的时间和人力资源建立自己的数据和经验库,一些企业在数字化的道路上已经做了五年。我觉得AI时代越是逼近,大家越没有时间去积累经验,做好基础性工作以拉开和别人的差距。对于做生意而言,积累是永恒的关键。我们要找到洼地,并耐心在洼地筑好地基。
04. 结语
最后,为大家总结几点结论:
第一,一键生成不会得到满意的结果。一键生成只能提供一个同质化的答案,只有耐心地进行数据积累和深度理解,才能生产个性化、高质量的答案。
第二,garbage in, garbage out。(谚语,意为:输入的是垃圾,输出的只能是垃圾。)每个企业都可以平等地使用AI,而真正用得好的企业一定是使用了高质量内容素材数据的。
第三,没有积累就没有壁垒,长期的积累是打造企业优势的关键。企业不能因为新技术的出现而忽视了流程的积累和数据的积累,没有积累就没有专才,我们做文字就要有语义的积累,做图片就要有场景的积累,做视频就要有素材的资源。
第四,不要只考虑内容,还要考虑内容场景。大模型通用性强,但专业性不足;小模型专业性好,但风险性高。企业必须明确其使用AI的目标和场景,再根据具体的商业问题进行模型的选择。
第五,90%的场景都不需要训练模型,只有10%的场景需要微调和模型训练。我们合作了很多企业场景,真正自己去构建模型的公司是非常少的,绝大多数的场景都可以通过把提示词工程做的更好,找准场景解决问题。