Bootstrap

大厂必争之地!AI搜索产品万字长文分析

多年以前,百度、谷歌等就在开始做智能搜索,但彼时的智能搜索只是对搜索结果的简单整理归纳,效果并不如人意。当前AI爆火,在AI的加持下,搜索会不会更强大一些呢?其实并不是,至少当前AI搜索的使用方式,并不理想。比如说,正文作者分享的这些案例。

img

本文会从一个360AI搜索的负面案例切入,讨论三个大问题:

1、为什么AI搜索产品成了共识

2、AI搜索产品的演进方向猜测

3、AI搜索产品的核心体验及影响因素

全文约15000字,看不完记得收藏~~

—-正文分割线—-

最近在使用360AI搜索的时候遇到一个比较严重的产品设计问题,非常影响体验。

在360AI搜索首页,和普通搜索产品类似,有信息流和今日热搜两个模块。

img

昨天偶然看到一条热搜是【工资四千月工作300h】,这个标题确实很吸引人,所以作者打开了这条热搜想看看详细信息,结果打开的页面内容是这样的:

img

标题和内容完全对不上!

原因也简单,360AI搜索使用了大模型能力对输入的信息进行了处理,而不是点击这条热搜新闻直接打开一个链接。

按照传统的搜索引擎的做法一般是把关键词“月薪4000工作300小时”匹配到各个新闻网站,然后用户打开新闻网站查看详细内容。

360这里应该是只把热点新闻的标题传给模型处理工作流了,结果出现了这么个驴头不对马嘴的结果。(可能是出于节约成本的做法,传标题和传全部正文消耗的token可能是百倍,不过后续的测试好像又推翻了这个猜测)

这里面的体验问题不止一个,挨个分析一下:

1、新闻信息是否适合用大模型处理后呈现?

用大模型处理新闻信息优点非常明显,能够在短时间内对大量新闻内容进行总结和提取关键点,节省用户的时间。对企业来说也能减少对人工编辑和记者的依赖,降低成本。

但问题是:用户读新闻时一定需要节省时间吗?类比一下看网络小说可能更容易理解,某著名网文凡人修仙传也可以用一句话总结出来:韩立(主角)经过千年修行终于渡劫成功飞升仙界,全书完。这里的小说完全可以类比具有娱乐属性的新闻,不巧的是在所有新闻的被阅读量占比中,娱乐新闻远多于严肃新闻。

当内容的细节被模型处理后丢失时,内容是否还能引起用户消费的兴趣是一个比较重要的问题。还以360AI搜索来说,处理前后的新闻分别是这样的:

入口:

img

处理后:

img

处理前:

https://www.thepaper.cn/newsDetail_forward_27930855(原文较长,感兴趣朋友用这个链接看看,也可以直接看下面的结论)

以作者阅读处理前后的新闻的主观感受来说,阅读原文体验更好,原因大概在于几点:

img

跳槽做B端产品经理准备大干一场,发现把问题想简单了

近年来,B端业务大力发展,也让很多相关岗位的人(C端产品经理、交互、测试、研发、运营、项目经理等)纷纷转型做B端产品。但是大多数人刚开始会对B端 …

查看详情 >

1)文风:不同类型的新闻肯定会使用不同的文风,这种新闻和政务新闻和UC震惊部的新闻肯定文风都不一样,但现在的AI搜索产品显然还没有做到根据不同新闻类型使用不同的文风来形成最后直面用户的内容,因此文风一定程度上影响了阅读体验。

2)多媒体信息:原文中存在不少动图,有的链接中还有视频,但经过模型处理的新闻只有文字,多种媒体类型的信息对阅读的影响很大,在信息协同接收、情感传递、情绪影响等方面都会影响阅读体验。

现在有的AI搜索产品已经可以做到读多种媒体信息,但很显然还没有任何一款产品能做到输出多模态信息(准确的说是可以但很贵,某视频生成模型的生成5秒的视频成本在1.5元左右)。

3)信息与场景的匹配错位:用户可能是在午休时间悠闲的刷着网页,但看到的确实更偏向工作内容的结构化信息,情感投射一下就错位了,这种体验可能用户讲不清楚,但一定会明确的反应在主观感受上。

现在各家AI搜索产品都以结构化的结果呈现方式作为卖点,但信息的呈现方式一定需要与场景匹配,也并非所有场景用户的目的都是节省时间。

据说360AI搜索已经能够识别4000种用户意图,听起来很多,但以其目前覆盖的用户量和用户使用时涉及到的场景来说,依然需要时间进行跨量级的意图积累。毕竟读新闻都可以再细分成多种意图~

以上是对这个小案例的第一方面体验分析,写的比较长可能读者朋友已经忘了问题本身,我们把话题拉回来一下,面对下图的这个问题,第2方面的体验问题是什么?

img

2、是输入信息无主语时,模型是否应该自主添加?

以上面的例子来说,用户想看【工资4000月工作300小时】的新闻,结果帮用户算了一下“您的时薪是13.33元/小时”,话说这是咋判断出来主体是用户的?这个【】字问题太大了。

这个例子只是略微有些负面体验,但万一哪天用户打开的热点新闻是“父亲去世早全靠母亲艰难抚养”怎么办?到时候把主体默认为用户那负面体验可就太严重了。

即使不考虑这种极端的负面事件,例如“冲进火场连救三人”这样的新闻还是比较常见也比较容易上热搜的。

长此以往经常被用户看到主体与事件混乱的问题,会影响用户对整个产品所以提供信息的信任度,这对搜索产品太致命了。(目前用户对AI搜索结果的信任也是个重要问题,不过如何构建信任这里不展开了,有机会再写吧)

(这个问题其实也呼应第一点)

以上是对360AI搜索的这个小案例的体验分析,其实其他AI搜索产品也有类似的问题,此处并无贬低360的意思,据作者所知360AI搜索的增速、迭代速度都非常牛逼。体验上也远超360其他产品……

因为作者是做用户体验工作的,所以还是习惯从体验的角度评价产品。

一、为什么AI搜索产品成了共识

AI类产品这么多,为什么只有AI搜索各个大厂都在做?

目前在讨论AI和产品时,有一个比较明显的结论:AI更多是作为新技术、新能力参与到产品中,而用户的需求并未发生本质变化,所以要考虑的是如何用新能力解决为旧需求带来新体验。

在接近一年半之前,阿里原CEO张勇就提出:所有应用都值得用AI重做一遍,当时作者并未理解其含义,现在看来其实也有需求不变,变的是实现方式的意思在里面。

AI搜索产品能成为共识,尤其是很多大厂的共识,当然要从市场规模 、用户需求场景数量、发展潜力等方面考虑。只有这些指标都足够大,才能让各个大厂忍不住动心下场。

对于这些下场指标,看看谷歌、百度、360等公司答案就很明确了,不必多讲,本文中作者主要想从用户体验方面聊聊这个问题。选择这个角度的原因也正如上面所说,用户需求基本不变时,AI产品能取代传统产品关键博弈点就是在用户体验。

按作者的理解:功能只是代码的结果,体验才是用户的结果,是用户视角下最直观的指标,是用户很主观的决定继续使用或离开的原因。

下面是AI搜索产品和传统搜索产品的体验对比:

要对比传统搜索和AI搜索,首先要回到用户使用搜索产品的目的。

当用户使用时,一定是带有要解决的问题过来的(好像是废话,别急往后看),以完成一份产品分析为例,在传统搜索产品中完整的链条大概是这样:

img

根据用户意图复杂度的不同,一定会经历上述过程3-6个环节,以及极端情况下无搜索结果,问题无法解决的情况。

由于互联网行业多年的蓬勃发展和积累,以及数量庞大的用户参与内容建设的过程中,无结果的情况比较少了,但在一些较垂直的领域依然是对体验影响较大的问题,例如作者经常搜索人因工程与交互设计交叉领域相关的问题,很多时候都找不到答案。

就像用户体验的基础是能解决问题一样,搜索产品的体验基础是有答案。

传统的搜索产品,由于其原理是先收录千亿数量级的网页,当用户搜索时进行匹配,所以只能在有答案的这部分场景下解决问题,且只能在上述“需求从产生到解决的过程”中2-3个环节中发挥作用。

面对无结果的问题,其实出现了不少优秀的解法和产品。例如百度做了提问产品,面对搜索结果需要用户二次整合、答案质量差等问题,也有最佳答案、赞同数等设计。

甚至传统搜索产品也很清楚自己只能解决上述完整流程中部分环节,也在向【搜索结果直接解决问题】这个方向努力,例如在百度中搜索“2024年法定假日”,搜索结果页面的第一条信息就可以直接解决用户的问题:

img

这种方案已经无需用户从结果列表中做选择再点击打开,但是这种做法一是需要人工识别场景做特殊处理,二是只能直接解决简单需求。三是与一些广告和商业化的场景天然有矛盾(例如搜索优酷,可能第一个结果“必须”是爱奇艺),所以整体上对用户体验的提升很有限。

AI搜索产品由于其原理是使用预训练的大模型生成内容,所以在无结果这部分长尾需求中体验很好 ,而AI搜索产品最大的优势,则是在解决一个需求的完整流程中覆盖了更多环节,并用AI技术代替一部分人脑的工作,向All in one方向的体验迈进了一步。

详细列举AI搜索产品的体验优势如下:

1)能够跨媒体、跨模态得到信息

跨媒体、跨模态得到信息意味着答案更准确、知识库更全面、专业领域答案效果更好。

举个例子,如果我想知道‘XX书店有没有座位’,传统搜索引擎想回到这个问题,几乎必须依靠人类用户参与回答才行,但AI搜索如果找到了一张此书店的图片,则可以使用OCR、ASR技术去读图得到信息,这张图片可能在传统搜索时期就已经存在,但当时图片内的信息无法被利用起来,导致这个问题只能由用户进行回答。这就是跨媒体得到信息辅助答案更准确的简单案例。

在谈论AI产品时,经常提到多模态的概念,作者发现很多人都把媒体类型和模态类型搞混了,这里稍微明确一下:

文字、图片、视频是不同的媒体类型,这些媒体中包含的信息都可以通过视觉模态由人类接收。

图片、声音、味道是不同的模态类型,其中的信息须通过视觉、听觉、味觉等不同模态由人类接收。

模态在人机交互过程的严格定义是:信息传递的通道

信息能够在不同的媒体类型和模态类型之间相互转换的意义体现在搜索过程的输入与输出环节,也体现在知识总量的积累上。

例如上面提到的从图片中获取信息给予用户答案的例子,同理的场景也可以是从音频中得到得到答案提供给用户,假如某AI搜索产品和喜马拉雅这样的音频产品结合,就可以在喜马拉雅庞大的音频数据库中得到无数专业领域的信息。

2)覆盖的需求场景范围更大

这一点要分两方面理解,第一方面是普通用户能使用自然语言描述要搜索的复杂问题了,传统搜索产品虽然也有高级模式,但易用性较差、用户触达率极低,如下图是百度的高级搜索模式,大家觉得普通用户有多少人用过?

img

作者自己曾经参与的医疗产品中,也遇到过需要使用多字段条件判断+维度关系+逻辑关系+多级括号来描述自然语言的例子,只能说那个操作复杂度即使对专业交互设计师也非常费劲,更别说普通用户了。

第二方面是基于大模型的各种能力,衍生出了新的使用场景,例如在360AI搜索中有大量用户是使用该产品的生成能力、改写能力来解决自己的需求。用户对搜索产品的心智在随着搜索产品能力边界的扩展而发生变化。

3)解决需求的链路变短,复杂度降低

AI搜索产品可以将多个网页的内容聚合、总结并以结构化的方式呈现出来,这在整体流程中这些环节中做到了提效

img

在这些环节,AI 显著的提升了传统搜索产品中信息分散在各处的问题,是AI搜索产品在当前阶段与传统搜索产品最大的区别之一。同时也在一定程度上减少了广告的干扰。

未来各家一定会在AI搜索产品中加入广告,具体时间取决于AI搜索产品的增速,相对于通用Chatbot,AI搜索产品在输入输出环节消耗的token更多,同样输入一句“产品设计原则”,AI搜索产品需要先拿到多个网页的内容给到大模型,这个过程消耗的token可能是通用Chatbot的上百倍。面对这样的成本,商业化是必然的结果。

在选择网站-阅读-更换网站-阅读这些环节中,AI能力的加入显著的使整个解决问题过程的复杂度降低,用户不再需要曲折的在各个网站之间跳转、分辨、总结。这一点在脑力工作中的体验影响尤其大,能让用户更专注的完成工作。作者自己在写作时就经常因为要查一个资料导致写作思路中断的问题,就是因为查资料的过程曲折又冗长,还得和整整两屏广告斗智斗勇。

4)信息呈现方式更多样化

现在很多AI搜索产品的结果中都使用了思维导图来显示内容结构,有些还支持一键生成PPT,信息呈现方式的多样化意味着在上述流程中的【二次加工】环节为用户提供了更多支持。将完整流程中的更多环节的工作代替用户完成了。

未来可能除思维导图和PPT之外,常用的流程图、拓扑图、鱼骨图以及各种数据展示图表可能都会根据意图识别环节做出的判断做匹配,或是支持以当前结果生成不同图示。

在本文开头的360案例中也曾经提到目前的答案基本是只有文字的,很多原文链接中的图片、动图消失了,这非常影响阅读体验,未来当模型的理解能力继续提升后,应该也可以根据意图和内容做交叉判断选择保留更多媒体类型的信息。

5)更友好的广告体验

传统搜索产品的广告显示位置周边的界面样式是由第三方网站站长决定的,所以广告样式和内容样式可能存在较大差异,广告很明显就能被辨别出来,突兀且生硬。

如下图是微信公众号文章中广告(样式不可控),和知乎官方广告(样式可控),大家看一下就能感受的到体验的差距。

img

而AI搜索产品的结果页内容是由自家的大模型生成的,内容样式也是自家完全可控可定制的,因此可以与广告统一视觉样式,带来更好的转化效果并降低对用户的干扰。

6)结果更准确、内容质量更高

这一点可以结合第1)点理解,传统的搜索产品由于结果大部分由第三方网站提供,所以对内容的准确度无法控制,对内容的质量更加无法控制。

而AI搜索产品的原理决定了其结果更准确,在用户输入搜索词后,首先会由模型对问题进行改写,例如搜索“2000元以下性能最强手机”,可能就会被改写成“截止2024年7月,中国境内销售的2000元以下性能最强的手机”,由系统补全了用户下意识知道但没有写明的那部分信息。问题描述更准确了,结果自然就更准确了。

第二点原因则是现阶段的AI搜索产品的结果并非单一来源,一般是经过多个内容来源聚合、对比、总结形成的,并且在选择内容来源的时候可能根据问题类型选择更靠谱的源头,例如新闻类信息可以来源于官媒、代码类问题可以来源于CSDN。(人真的会下意识省略那些默认双方都知道的信息,例如这段文字中的“第二点”这几个字,其实我并没有说过“第一点”,但并不影响大家理解~)

同时,基于节省token和反馈速度方面的考虑,并不会把所有检索到的结果(例如10000篇)全部传递给模型处理,而是选择其中的几个(例如10篇)作为源信息,那么在选择这1000中选择10篇时,可能就会按照来源网站、阅读量、作者、互动量、相关性等指标进行选择。

最终从10000篇中筛选出了阅读量更高、被赞同更多、来自某几个知名专业人士的文章传递给了大模型,所以能够在筛选过程中保障AI搜索产品的结果可能更加准确、内容质量更高。

以上6点是AI搜索产品在用户体验上的优势,下面继续聊聊作者猜测的AI搜索产品未来的演进方向。

二、AI搜索产品的演进方向

为了得到更靠谱的结论,依然从搜索的流程开始分析,传统搜索产品的流程可以简单示意为:

img

结合AI后在各个环节可做的事情如下:

1)输入阶段:扩充输入方式

目前传统搜索引擎基本支持了文字搜索和语音搜索,少数非广域搜索产品还支持了以图片搜索。

这里要注意一点是:作者觉得单纯的使用语音转文字输入问题并不能定义成语音搜索,这样的做法只是改变了文字的输入形式,但没有改变信息总量,语音模态信息中的非文字信息没有被整合进query。

未来则会提升已有搜索方式的可用性,如准确度提升、用时减少。同时基于用户输入信息做补全、纠错和问题推荐(问题推荐应该已经有产品上线了)

再之后可能会对这些搜索方式进行扩充,支持更多的媒体类型,例如动图和视频,读取其中的信息形成query。

但这并不酷!对人机交互的过程改变也非常有限,如果想再进一步则需要打破固有的思维,为什么搜索一定需要以用户主体输入信息呢?

输入过程完成可以变手动为自动,或者说输入环节可能会在整个搜索流程中被透明化。

想一想当我们阅读一篇“super黄的AI文章”时,如果结合具体用户的历史阅读信息、当前的阅读进度,在某个段落的停留时长等信息,就极有可能判断出用户对这个段落中的某个名词含义有些模糊,此时如果直接将这个名词的含义显示出来。就做到了输入阶段的透明化(自动化)。

当然这种阶段的产品可能短时间不会出现,还是需要结合用户的一些简单行为做判断,例如豆包中以划词搜索作为过渡方案。

在人机交互中,一般可以用行为来判断意图,要做到自动化的输入过程则需要更大量的获知用户的环境信息,例如用户看到的界面包含什么信息,用户所处的环境包含什么信息,同时结合大量历史数据、当下特征数据就一定有可能判断出用户想问的问题。

举一个生活中的例子,一个5岁的小朋友读课文,遇到了一个【貔】字,同时小朋友的声音停止了,那么一款智能课本产品在得知阅读进度、生僻字字库、声波消失等信息后,非常有可能直接告诉小朋友:这个字念pi,而不是需要小朋友主动询问。这就做到了搜索过程中输入环节的透明化(或者叫自动化/被动化)。

在AI技术的具体应用上,意图识别是非常重要的一部分能力,而意图识别准确率的前提有一方面是多模态交互,准确的说是人机交互过程中人对机的多模态信息输入。

信息的来源和模态变多了之后总量一定会变多,那么在已知条件变多后,解题准确率(产品判断用户意图的准确率)一定会提高。

就像人与人对话中语言文字只占信息总量的一半左右。多模态交互解决了之前无法被机器接收到的那部分信息的问题,能从信息源上提升意图识别的准确率。(这是AI搜索后续直链其他服务的基础)

不过这还只是把【模态】限制在了【人类信息通道类型】的范围内,对机来说,可能不是【多模态】而是【超模态】,人仅有五感模态,但机器安装传感器器后则可以有更多种信息通道如陀螺仪、GPS、红外信号、人类无法感知到的电磁波、声波……

所以从底层来说机的信息通道数量可以远超人,那么解决了中间层的算力和算法之后,意图识别准确率很大概率可以达到人的水平,变意图识别的下一阶段就是我们刚刚提到的意图预测(智能课本获知多个信息后预测了小朋友不会读貔这个字)。

意图预测的意义就非常重要了,它可以变给出反馈为主动服务。这才是对人机交互过程的重要改变。此处作为一名交互设计师,真诚的点赞荣耀手机发布会中人机交互那部分内容,非常酷!

稍微有点跑题,拉回来:以上这一小段是作者对AI搜索产品未来演进方向的猜测。除此之外可能在情感理解和跨多语言方面也会有更多意义此处就不展开了。下面继续说查询阶段。

2)查询阶段:结合其他信息

目前的AI搜索在用户输入完成后,一般会对问题进行改写,使其更精准或覆盖更多用户可能需要的信息,例如把“RAG”改写成“RAG是什么意思”,甚至改写成“RAG在AI搜索产品中的具体含义”。

这样一来就通过查询阶段的改写进一步提升的输入信息量,可以找到更加精准的信息。

这一点涉及到的技术问题,作者懂得不多,但基于“问题描述的越清楚答案就越精准”这一原理,作者猜测改写的进一步做法是融合更多信息,而不只是对用户在本次使用中输入信息的修改扩展。

融合更多信息指的是融合用户的个人信息、过去查询过的问题、复制行为、写作数据等等很多方面的历史行为数据,再与用户本次输入的信息做融合判断来获取结果。

其实在现阶段一些内容平台、电商网站的推荐算法已经非常精准了,往往我们正需要的内容/商品都会被主动推荐过来,这就是因为这些平台掌握了大量用户的数据。

而AI搜索产品掌握的用户数据类型和总量可能没有电商产品那么多。所以为了提升搜索准确度,作者猜测未来各个大厂可能会努力实现数据互通,但仅以当下的搜索产品商业模式来说,各个大厂还没有足够的利益能够驱动达成这个目标。

所以作者的观点是:AI搜索产品的商业模式和数据积累/互通可能会协同促进,如果AI搜索产品的答案中能够为用户推荐更精准的收费服务/商品,为广告主带来更高的转化和营收,则现在的数据持有者有可能将掌握的数据提供给AI搜索产品。(当然也可以是数据主扩展业务自己做个同类产品)

具体的使用过程还有很多细节需要协商,例如数据是否是直接可见的还是只提供特征等等。

3)输出阶段:扩充输出方式

输出的方式同样包括不同的模态、媒体、形式还有文件类型,目前各个产品支持脑图和PPT,未来应该会支持流程图、鱼骨图….来覆盖更多用户需求。

img用户voice

同时对已支持形式的精细化改进也非常重要,例如目前只支持将答案中的脑图作为图片下载,其实无法满足用户编辑修改的需要,如果能生成xmind源文件或支持在网页中对脑图进行修改也非常有意义。

包括PPT的排版形式、精美程度其实目前的AI搜索产品都还做的比较弱,如果和Gamma这样的产品对比,算是被按在地上摩擦了,即使和国产的比格PPT相比,也有很大差距。

面对创作场景,生成与内容相关的配图也是很需要的能力,在把非常长的答案内容如何分割、提取与图像相关的关键词,以及保证全文中配图视觉风格一致都是要考虑的问题。

以上说的是输出阶段支持不同的媒体形式,下面说输出不同模态:

以文字形式输出和以声音形式输出可以满足不同的使用场景,例如当用户设备的距离稍大时,视觉模态就无法帮助用户有效接收信息。

在多任务场景中也可以使用不同模态的信息接收通道来获得更好的协同体验,使用户可以把更多精力集中在主任务。

举个例子现在很多人都有使用双显示器的需求,主要就是为了解决多任务协同的问题,这种方式相对于使用声音通道进行多任务协同更适合需要更多时间理解内容的场景,如果只是想获取一个简单数据,完全可以用语音操控“小爱同学,帮我查一下百度2024年营收数据”并以声音的形式接收直接写到文章里,避免多界面切换带来的割裂感。

再进一步,输出阶段还需要考虑到用户对信息的储存和分享等需求,甚至可以做多内容关联辅助用户后期再查找等需求。

按作者的理解,对信息的储存最好能与笔记产品关联起来,最好能做到无缝导入笔记,并与相关话题产生关联。最简单的做法可以是提取相同关键词形成标签,可以按标签筛选内容。

对于分享的需求则需要考虑分享的渠道、分享的排版精致化、分享时添加用户需要的信息(如加入作者的ID、自媒体名称甚至联系方式等等),以减少用户的二次加工。

4)浏览结果阶段:千意千面

这一阶段是现在各个AI搜索产品重点发力的部分,主要使用大模型的总结能力和文生图能力为用户带来更聚合、更清晰、结构化的结果浏览体验。

但也同样存在问题,上面曾经*·37-提到阅读娱乐新闻的场景就不适合使用结构化、总结后的信息进行展示。

所以作者猜测当未来的AI搜索模型能够识别出更多种、更细致的用户场景和意图后,在界面呈现上会根据不同的场景和意图做出对应的界面样式。

目前结构化的结果显示方式只适合阅读场景中专业知识阅读的细分场景,对于搜索产品来说覆盖的场景数量太多了。看剧、下载文件、寻址等等场景都需要更细致更个性化的界面设计,甚至如寻址这种场景都不需要界面设计,当对寻址意图的判断准确率够高之后,完全可以在用户搜索【优酷】时直接打开该网站。

从这个角度来说,千意千面的面完全可以不限制在页面样式上,包括整体流程都可以根据意图做出区别。届时结合上述其他猜想,可能搜索的流程会变得面目全非:

img

如果不从业务角度考虑的话,还可以根据用户的审美对页面设计中的字体、颜色、布局等很多其他视觉样式做出个性化呈现。同样可以成为体验提升的一部分,但要注意视觉统一性、品牌性与个性化之间的平衡。

5)结果复用与社区化

目前AI搜索产品的成本依然较高,按super黄与360负责AI业务的VP梁先生的博客公开的数据是每次搜索在0.2元左右。

粗糙的这个成本的构成视为输入和输出阶段消耗的token,那么对于类似的相似度达到一定标准的问题完全可以使用相同的答案。这样可以降低输出阶段token消耗的成本。

对于相似但不达标的问题,之前已经生成的回答依然可以作为信息源参与新问题的结果生成,此时上一个问题生成的结果相当于把多篇内容提炼出与此问题匹配度更高的内容,可能同样可以节省一部分token消耗。

当结果生成后,部分场景有可能用户会对结果内容进行再次优化,如果此时能够引导用户将自己人工修改后的信息作为公开内容,允许被其他用户访问,那么就可以将内容沉淀下来,形成内容社区,最终把内容社区产品与AI搜索产品融合。

传统的搜索产品结果来源大多是第三方网站,所以搜索产品虽然是整个互联网重要的流量入口,但也只能做做卖流量卖广告的生意。其原因就是因为内容不是自己的,商业链路到搜索结果这一步就停了。

而AI搜索产品如果能将内容完成沉淀,形成类似小红书、知乎这样的内容社区则对产品天花板是一次巨大的提升。

简单来讲,搜索产品一般是有需求才使用,而内容社区产品则是有事没事都可以逛一逛。

例如用户喜欢看冷笑话,现在这个时间常规的路径一般是在某内容社区关注了冷笑话类博主,而不是在百度搜索“冷笑话”。

第二意味着用户留存。内容本身就是消费品,更可以在kol与消费者之间进行连接,两方面都是留存的关键。其实内容消费产品的留存能力也不必多说,想想抖音和小红书就知道了~

有些传统的笔记产品也是这个思路,希望能把用户创作的高质量笔记授权后公开显示,基于大基数的用户量形成内容社区,为笔记类产品突破天花板,变工具型产品为社区型产品。例如印象笔记就有源于笔记产品内容板块的独立的【识堂】产品。

对AI搜索产品来说,由于其创作内容更简单,在内容全面性和大众领域的内容质量也能达到一定标准,所以想按这个思路发展是更有机会的,最重要的是可以把自家消耗大量算力产出的内容沉淀下来,产生2次-N次被消费的价值。

通观全篇,其实会发现数据的价值体现在AI搜索产品的各个环节,输入环节可以结合用户个性化数据把问题改写的更清楚准确,匹配环节可以找到更多信息源,输出环节决定了答案准确度和内容质量,搜索后服务环节甚至可以有突破搜索产品天花板的机会。

由此可见数据是AI搜索产品(甚至所有AI产品)的最重要竞争壁垒之二,另一方面毫无疑问是模型能力。

形成社区/搜索融合形态的产品后,更重要的意义是商业方面实现更多模式的收入构成,对于自家不涉及的业务依然可以像传统搜索产品那样出售流量变现,对于自家涉及的业务,完全可以变卖流量为卖产品,拿到更多利润。

从这一点来说,AI搜索产品对规模越大、涉及业务越多的公司重要程度就会越高。再加上新一代流量入口的属性,作者认为AI搜索产品是大厂必争之地。

6)从搜索产品到全部产品

上面的5点我们讨论的基本是AI搜索作为独立搜索产品的演进猜测,但搜索+AI的能力其实可以体现在任何需要搜索功能的产品中。

如笔记产品,用户积累了10年的笔记内容在查找和关联时都是比较困难的问题,在相关内容聚合方面也非常需要AI能力。如果把AI能力加入之后可以实现更精准的搜索、模糊搜索、基于笔记内容的问答等等。

同样的,对电商产品的搜索过程,基于对搜索关键词的改写可以做到更精准的商品匹配,于公司而言可以在企业级知识管理产品中发挥作用,对特定行业可以做科研文献快速查找。

因此作者认为,广义的AI搜索产品可能不是独立产品,而是在众多类型产品的查找场景中发挥作用。

搜素的本质是人的信息需求,而AI搜索的未来形态会分成两种主要场景:

一种是基于已有直接可用信息的匹配,另一种主要场景是基于非直接可用内容的聚合+生成。

三、AI搜索产品的核心体验

唠叨了这么多,其实AI搜索产品的核心体验已经很清晰了,按照用户路径的顺序来说依次是:

输入体验、反馈速度、结果质量、接收体验、搜索后服务,下面依次详细介绍其影响因素:

1)输入体验

输入体验,首先指支持输入的媒体/文件类型,文字、图片、音频、视频、动图、文档、链接….支持的类型越多则用户的操作自由度越高、能覆盖的场景越多,还可以减少输入限制导致的用户手动转换格式的成本,所以支持输入的媒体/文件类型越多体验一定越好。

输入体验的第二方面是非文字信息理解能力,例如的当用户使用语音方式搜索时是否能从语速、音量、停顿等其他方面获取更多信息,使这些信息与语音转化成文字的信息融合起来形成更准确的输入Query。

第三方面是问题转写能力,同样影响着输入Query质量,例如用户输入的是“12400f和12490f相比”被转写为“对比12400f和12490f两个CPU,两者在性能和功耗、游戏体验等方面相比哪个好”其实可以更完善的描述问题并更多更准确的答案。输入体验并非指用户输入的体验,而是指从用户输入直到将query信息输入到模型这一过程的整体影响。

2)反馈速度

反馈速度由索引库、模型效率、算力、服务器性能、网速、需要反馈给用户的数据量等指标决定。

索引库是一个包含产品信息的数据库,其特殊的数据结构可以提升查询效率,使查询过程不需要扫描整个数据就能找到相关结果,对于复杂条件的查询,也能做到更高效的完成。因此索引库效率越高反馈时间越短。

模型效率则在输出环节决定了结果内存的生成速度,不同模型生成内容的速度可能有明显的快慢之分,因此模型效率同样影响反馈速度。反馈速度越快则用户能得到结果信息越快,体验越好。

算力(用户可用部分)直接影响了生成速度,算力在不同时间的需求量会有明显差距,例如工作时间的需求量一定大于夜晚时段,在需求峰时可考虑结合收费方式为付费用户带来更好的体验,或采用其他对企业有益的用户引导给与用户优先使用权,kimichat在几个月前就试水了打赏机制让付费用户在高峰时段能优先使用算力。

对于闲时算力,同样可以预先生成用户可能需要的内容或一些长尾问题,当用需要时直接显示处理,以提高反馈速度。

同样的服务器性能、网速也会事实上对反馈速度有较大影响,但两个方面也适用于传统搜索产品,非AI搜索产品独有的体验影响因素。

需要反馈给用户的数据量这一指标是作者认为需要优化的重点,例如当用户搜索【乔布斯在哪一年创立了苹果公司】,可能用户只是需要一个具体的年份信息,而不需要非常多的长篇大论,把苹果公司和乔布斯的各种信息全部输出一遍对用户来说可能是没有意义的信息。输出这些信息的过程中既消耗了token增加了成本又影响力反馈速度。

某些场景下甚至可以没有输出信息,例如寻址场景用户的最终目的就是打开一个网站,那么没有搜索结果页面直接打开某网站是既低成本又短路径的优秀体验。

3)结果质量

结果质量由索引库数据量、信息源选择规则、信息源总量、模型质量、输入query信息量、问题理解准确度等指标决定。

索引库数据量越大,则匹配过程能找到回答用户问题的信息总量就越多,就涵盖更多用户所需的答案。

信息源选择规则影响了用于传递给模型的信息质量,面对同样的问题,如果选择了百度问答中的答案作为信息源头或使用知乎作为信息源头对结果质量的影响可想而知。

当然信息源选择并非简单选择从百度获取信息还是从知乎获取信息,一般来说对于专业领域的问题可以从各种垂直网站获取专业信息质量更好。对于普通问题,则可能会从内容的相关性、浏览量、作者身份、内容互动量、内容发布时间…等很多维度的指标进行选择,总体原则就是希望通过各种直接的或间接的指标抽象判断出内容质量,将内容质量较好的一部分文章传递给模型进行总结和结构化加工。那么很容易理解信息源选择规则越合理结果质量越好、用户体验越好。

模型质量则在答案信息传递进模型后发挥作用,面对同样的输入信息各家的模型生成的答案可能会有很大不同,此时自然是模型质量越高结果质量越高、体验越好。

同时模型质量的一部分指的是对自然语言的理解能力,面对用户输入的问题能否做到准确理解含义,明白用户需要的是什么,此处不得不再提一下360AI搜索,当我搜索“老虎图片”的时候,居然不能直接定位到图片结果,而是给我显示了这样的结果页面:

img

首先页面主题居然用文字给我描述了两个图片,然后给我推荐了老虎的其他相关信息,同时右上角的引导我点了十几秒还是关不掉,体验糟透了。

对问题的准确理解影响了后续流程如何推进,再举个简单的例子,当我输入“优酷”的时候,是应该给我介绍一下优酷公司的信息还是应该直接给一个跳转链接?

输入query信息量是被模型处理前的信息量,此信息量越大一般结果质量会越好,但会存在一个临界值,超过此临界值后信息量的增加对结果质量优化将变得很有限,同时考虑到输入类token的成本问题、模型处理所需时间问题,也不能将所有相关信息全部输入给模型。需要界定一个合理数值,这也印证了数据源选择规则的重要性。

4)接收体验

接收体验由可输出的媒体/模态/格式类型、UI界面、二次加工时间、广告体验等指标决定。

可输出的媒体类型和格式越多对用户需求的覆盖度越广,属于有和没有的区别,省去了用户二次转换的时间,这方面的体验的影响不必废话。

可输出的模态则略有不同,例如在驾车场景中,一定是以声音模态输出更符合该场景下用户能接受的方式。在办公室场景中则视觉模态更好。

所以支持不同模态的输出一是匹配不同场景用户适合接收信息的方式,二是多模态协同可以进一步提升信息传递的效率。

视觉模态接收信息的效率可以是听觉的百倍以上,但听觉模态具有被动性、注意力敏感性、环绕性等特点。

被动性指信息可以被动的由人进行接收,相比于视觉信息更不易被遗漏,注意力敏感性指声音的变化能更快速的被用户感知,环绕性指信息来源的位置可以由人周边360°发起,都可以被人接收到。

基于视觉模态和听觉模态的不同特点,多模态融合的方式可以各取其所长,帮助用户同时处理多任务及各种场景下更轻松的接收信息。(多模态交互涉及的内容极多,可能需要另一篇万字长文才能完全解释清楚,这里不多展开了)

上面略微展开了一下信息以不同模态的特点,下面继续说UI界面对接收体验的影响。

UI界面是发展时间最长,被研究最深入的视觉通道信息传递方式,而视觉通道是人类90%以上接收信息的方式,因此单独把UI界面作为影响接收体验的因素之一。

广义的UI设计包括排版、文字、图形、动效、交互方式及其二级属性,由于人类从外界获取信息最主要的途径就是视觉模态,所以UI界面是接收体验中非常重要的一部分。

排版的方式决定了用户获取信息的先后顺序、视觉压力,文字的字体决定了获取信息的难易程度(如草书和楷书)和美观的感受,图形可以更直观的表达信息并附带情感,动效可以引导用户的注意力使视觉焦点始终位于目标信息,交互方式可以让用户更自然的得到隐藏信息、多环节信息。

举个例子如token生成速度对UI界面的影响,现在很多Chatbot的生成答案时都是一个token一个token显示到用户界面上的,这种方式造成了很强烈的动态效果,会对用户注意有严重干扰,影响信息接收效率。

目前token生成速度的价格差异主要体现在厂商定价阶段,作者查了一下没看到根据生成速度定价的厂商,从反馈速度的体验来说,一定是结果生成的越快越好,但可以稍微控制一下显示到界面上的间隔时间。

一般首次等待时间在2秒内不会造成用户流失,后续可以考虑生成一段内容后一次性显示到界面上,避免界面频繁变化。(想一想垃圾网站上不停跳动的小广告应该可以感受到类似的体验~)

二次加工时间则受到前面讲过的可输出的媒体/模态/格式类型、结果质量等因素影响,用户难免遇到搜索结果无法直接在其他场景(如各种汇报)中使用的情况,此时对内容的二次加工时间非常影响体验。

例如对思维导图的编辑是可在线编辑还是需下载后编辑,对生成的图片能否局部修改等等,二次加工所需时间越长则体验越差。

广告体验则是绕不过去的话题,AI搜索产品必定需要进行商业化以覆盖成本,前文中曾提到过视觉样式对广告体验的影响,如下图:

img

除视觉样式外,广告内容能否与用户属性匹配同样重要,当广告内容恰巧是用户所需内容,并与用户的消费能力相符时,甚至可以实现整体正向的广告体验。

如果整体生态、合作广告主规模足够大,将广告内容无形融合到答案内容将会是未来广告形态的重要变化。

现阶段基于关键词的广告最大的体验问题是非用户所需,即用户需要的东西与广告推荐的东西不匹配,导致了广告信息影响了用户找到、阅读正确的目标信息。

如果用户搜索的目标是“AI课程”,那么即使出现卖课的广告也不会影响用户体验,因为这正是用户所需的。如果再能够保证课程质量(广告对应的商品质量)则体验更佳。而保证广告对应的商品质量的基础就是上方提到的各作广告主规模足够大,有筛选的基础。

5)搜索后服务

搜索后服务的体验由服务范围、搜索-服务融合度、服务-意图匹配度、服务路径长度、信息记忆、广告体验等指标决定。

服务范围指搜索到相关信息后,能否接近一站式的继续解决需求,例如搜索北京旅行攻略,能继续预定去北京的机票/酒店/旅行团。搜索iphone15能在结果页中马上下单购买。

这方面的体验与前文中提过的数据互通、AI搜索产品融合等话题相关,显而易见的是AI搜索后服务能提供的服务范围越大,则路径越短、操作越简、体验越好。

在搜索后服务的流程中,传统方式是在各个大厂的平台切换,用户路径较长并且需要在不同产品中多次输入账号/密码/地址….等很多信息,操作复杂度很高还有诈骗风险。

AI搜索产品如果能融合其他业务,则可以更接近一站式的完整解决需求,而不是将需求分解到多个公司的多个产品中完成。如旅行场景就可以把搜索攻略与机/酒/团等需求一次性解决。这就是搜索-服务融合度的意义。

而服务-意图匹配度则还是强调的意图识别准确率的问题,当某大厂覆盖的业务范围极广,那么能否把各业务与用户搜索的意图精准对应就成了影响商业转化和体验的重要因素。

服务路径长度上面也举过例子,当用户的目的是打开一个网站,那么没有搜索结果页面直接打开某网站是既低成本又短路径的优秀体验。没有必要非给用户一个结果页面上面有个网站入口,还需要再点击一次。不过这个具体场景可能会影响广告曝光量,实际环境中需要再仔细考虑。

广告体验同样也在前文中提到过都不再多说。

—-总结分割线—-

本文内容由3个大主题构成:

1、为什么AI搜索产品成了共识

2、AI搜索产品的演进方向猜测

3、AI搜索产品的核心体验及影响因素

其实目前大多数Chatbot和其他AI类产品出现时间都非常短,很多用户体验方面的问题也来不及做的很细,大多数公司依然在关注模型层面的技术问题。

但作者一直认为在用户视角下其实并不关心模型层面的技术问题,更直接与用户接触的是体验,体验是用户使用产品后在极短时间内、极主观决定是否继续使用这一产品的决定性因素。

因此作者更关注AI产品体验方面的问题,未来也将输出更多AI产品体验的案例与大家分享,感谢的朋友圈可以关注下面的公众号到时收看或加作者微信直接讨论~

本文参考了:

1、super黄老哥的文章《双10亿:AI重塑搜索 | 一文看懂AI搜索现状和未来》

2、橘子汽水铺的文章《AI 搜索,一次讲透》

;