Bootstrap

AIGC 的一些应用场景

一级类别

细分方向

代表项目/企业

更新状态

方向分析(划线部分是我不太确定的观点)

模型

大参数LLM(千亿级)

开启者:OpenAI

暂无变化

商业:已经不能再将他视为一个研究机构了;1)宣布降价后,形势已经明朗了,OpenAI走的和当初云服务竞争是一样的,凭借领先优势压低价格,抢数据、抢场景、抢合作伙伴、抢用户;2)技术配套商业打法让它在目前牢牢卡住了所有追随者的身位

评分依据:本来就5星,加上商业打法要突破5星了

跟随者

海外:Google Bard

海外:Anthropic-Claude

国内:各项大厂

暂无变化

简介:都在追赶OpenAI,报道也很多我不展开说了,重点说说技术部分

技术:1)模型结构是明确的,可抄;2)数据、工程的细节没有暴露,会有很多坑,每次踩坑都意味着一次训练白费,需要用时间和金钱趟过去;3)数据上中文语料质量确实比英文差,但不会特别妨碍国内成功 4)算力上是一个槛,A100 GPU国内不多,凑凑也能训练,更大的问题在于后续的运行;5)数据会变成追随者一个非常高的门槛,OpenAI的数据飞轮已经跑了三个月了,现在猛推API降价、私有化方案,追随者会面临数据上的桎梏,导致效果始终无法追评ChatGPT体验。

商业:1)新时代船票不争就死,这是下个时代的IOS;失去这项服务的大厂在云服务、生态布局上都会受到重创;2)对于二线厂来说,将算法的命脉拱手让人暂时来说是不可接受的,所以咬牙也要上,即使在后面军备竞赛中输了,可能也更宁愿使用自己落后一代的LLM 3)也有一种可能二线厂最终放弃,变成围绕几个LLM巨头的阵营站队

评分依据:谁赢谁起飞,5分

OpenAI:GPT-4

暂无变化

简介:Twitter爆料中展示了OpenAI计划支持企业私有化,图中一个DV(32K)版本的模型引起注意,32K的上下文比目前的4K翻了8倍,可能是即将到来的GPT-4,或至少是GPT3.6、3.7等更先进的版本。

评分依据:期待给4星

尤里卡时刻

Toolformer模型+多模态

暂无变化

简介:Meta的paper,提供了一种让AI使用工具的思路,微软的paper,令LLM识别理解图像成为可能

商业:两者加起来是LLM领域下一个尤里卡时刻,(另一个是成本下降);我在文章《怎么风平浪静的?多模态+Toolformer,这波还不原地起飞?》中写得很清楚,这里略过

开源LLM

海外:GPT-J、GPT-2

meta开源LLaMA

EleutherAI的GPT-Neo

更新

简介:1)海外非常担心AI中心化的发展,特别是LLM模型这种高成本的AI。2)因此涌现出许多开源项目,其目标在于打破大公司对AI的垄断。3)EleutherAI就是其中的典型代表,AI绘画的里程碑技术Stable Diffusion也来自他们

商业:现在小模型赛道有两种玩家,一种是不开源的,一种是开源的,开源的扩展速度会更快,Meta、EleutherAI都是,小模型跑马圈地的周期取决于OpenAI重新将目光投注到小模型赛道的时间,详细分析看右侧即刻链接

评分依据:为Web3的自由和开放给出满分

LLM私有化

OpenAI

暂无变化

简介:Twitter爆料中展示了OpenAI计划支持企业私有化,最小规模模型为26W美元/年

商业:1)对小模型方向企业造成强烈冲击,因为安全问题解决了,并且成本、实时性问题也可能得到缓解;2)小参数模型可能开始进入视线,针对小规模参数模型的调优会伴随商业落地而蓬勃发展

评分依据:商业冲击+技术正向影响,给4星

小模型

(小参数LLM)

(蒸馏模型)

(BerT模型)

元语智能、第四范式等企业

或者说以前的AI模型服务商

无法支付大模型的成本的都会转到这个方向

暂无变化

简介小模型包括几种,1)更小参数的LLM,例如复旦团队的Moss;2)基于LLM蒸馏出的针对垂直方向的模型;3)原本基于Bert的传统模型,利用或不利用LLM来进行优化。——这里的小,是相对LLM这种千亿级参数的小,可能也没多小(例如百亿级)

技术:技术上没有门槛,训练、部署费用都比较低。并且在垂直领域,小模型的表现能够做到不被LLM的效果拉得太远

商业:1)LLM不可能统治所有领域,具备实时性(车载/直播等),私有化(金融),成本敏感(客服),答案精确(金融),道德控制(心理)等要求的场景还是会使用小模型;2)更新,实时性、成本、私有化三个因素都被冲击了,不再完全是小模型厂商的优势;3)后续这些因素可能进一步被动摇,毕竟LLM厂商是否将小模型跟随者视为生态的一部分并让位其实是难说的,有可能他更愿意一口吃掉所有蛋糕

评分依据:继承以前的市场非常成熟,新技术会扩展以往AI做不到的地方带来增量,但边际成本很难做低,也很难孵化巨头,作为成熟+增量市场给4分,LLM模型厂商的威胁减1分

文本生成

营销内容生成

海外:Copy.AI,Jasper等

暂无变化

简介:围绕营销方向的文本生成企业,例如SEO文章写作,社媒文章写作等

技术:1)LLM在他们瞄准的短文本这个领域效果很好;2)企业实现了数据飞轮,收集了更多营销方向的内容来进行二次微调训练

商业:首先营销是最靠近钱的地方,其次瞄准了电商从业人员,最后在海外SaaS付费心智成熟,三者叠加变成一个非常棒的生意

评分依据:市场成熟,但上限有限,给3分

会议记录/摘要

海外:微软(Teams)

暂无变化

简介:实现实时会议纪要生成

技术:这本质上是LLM中摘要领域的能力,很成熟,较以往的模型效果更好

商业:不会有增量产生,这种能力会成为每个玩家必备的能力,先卷带动后卷,最后全都得有这项能力

评分依据:没有增量的市场,先卷的有一定优势,但后面全都一样反而成本高了,2分

销售线索+邮件建议

海外:微软(Viva Sales)

暂无变化

简介:通过通话内容、商机线索等信息判断与客户的交往处于什么场景(例如询价、寒暄、回复等),再根据这个场景自动生成推荐的邮件内容

技术:1)判断处于什么场景,不是LLM,应该是规则或者ML做的;2)基于场景生成邮件这部分是LLM做的,写个小邮件也很成熟。

商业:他本质是解决的只是“写邮件”这个事情,却在PR里打包成“智能销售”的概念,可见AI 2B故事是多么重要啊.而写邮件算啥呢,对于销售来说找到客人才是最重要的,很多时候是没客人,而不是没精力写邮件

评分依据:骗不了我,只是写邮件不值得那么高的分数

短内容写作

(4K以内)

例如周报、作文、论文(部分)等等

暂无变化

简介:围绕写作中的续写、扩写、润色、纠错等功能展开

技术:1)LLM领域目前成熟的方向;2)其实也可以用低配的自研模型实现

商业:1)价格问题被解决了,以前写一份周报两毛钱,现在写一份两分钱,一下子就可以接受了

评分依据:市场需求旺盛,但垄断不了,毕竟门槛较低,给3星

长篇内容写作

(4K以上)

暂无突破性进展

小程序:澜舟熊猫小说家,用多段小文本生成希望凑出长篇,效果真的很差

暂无变化

简介:所谓长篇指小说、研报、论文等,不能简单以篇幅来划分,更多以文本中结构复杂、论点多、角色多、有预设背景等复杂因素(你可以通俗理解为,就算是你自己写也要先起个大纲想想,并边写边改那种文章)

技术:1)LLM目前只支持4Ktoken,所以对长篇内容能力较弱;2)看新闻32Ktoken的版本即将出现

商业:内容生成可能将从短文本领域进入到长文本领域

评分依据:给你5星,期望你早日出现

PPT生成

海外:chat-gpt-ppt

暂无变化

简介:基于ChatGPT+ marp的组合应用,能够生成简单PPT

技术:GPT负责生成标题和正文,然后通过 marp去形成PPT,你会发现本质上没有任何新技术突破,只是链接了一个工具而已,

商业:如果能成,能给1星,PPT优化算打工人一个痛点。印度的专业PPT制作者,我记得是100美元/张(咨询公司报价)。但意义不大,我们都知道PPT的设计只是外壳,真正让我们头疼的是他里面的内容如何组织

评分依据:噱头应用,0星

语言翻译

国内:phrases.ai

暂无变化

简介:基于ChatGPT进行文本润色,可以把你的土八路英文,润色得通顺优美

技术:我猜是用Prompt实现的,类似“你帮我润色下面这段文字”,开发者表示后续会收集数据进行微调优化

商业:从独立应用角度来说,这个市场是成立的,有这个需求的人通常付费意愿都还行

评分依据:技术角度和商业角度只能给1星,但是他们是从自身需求出发,执行力超强地做了这个Side project,而且确实有帮助,所以给3星

阅读辅助

SciSpace

暂无变化

简介:看论文,有不同的问他

技术:1)LLM不可能浏览整篇论文,这超出了4Ktoken的限制;2)首先根据用户问题检索到语义相似的片段;3)将这个片段提供给LLM,让它回答用户的问题

商业:1) 有场景;2)论文场景下的朋友们应该会付费——但收费太高的,朋友们完全可以自己搭一个

评分依据:有点意思

代码

代码辅助

海外:Copliot(Github)

国内:AICodeHelper (一个接了ChatGPT满是广告的网页,想体验用这个)

国内:飞书(正在招人开发这方面)

暂无变化

简介:代码生成、Debug、代码解释等等,目前Copliot 100美元/年

技术:1)LLM基于代码数据训练集后的结果,有人说这代表了LLM的推理能力;2)但也有人说,这只是一种针对代码的语义搜索,题目稍微变一下他就抓瞎了(我也不确定)

商业:1)研发提效类工具,海外会个人付费,国内要靠大公司付费了;2)但是有个问题,大家愿意自己的代码暴露在LLM厂商面前吗?

评分依据:我不懂代码,但我觉得可以用Figma代替去想象他?一个新的for程序员的市场方向,完全增量

基于分析的SQL

海外:https://findly.ai/

海外:https://www.seek.ai/

暂无变化

简介:1)难度LV1 帮我查去年销售业绩/对比A部和B部去年销售业绩(转换为SQL语言,无需业务理解;2)难度 LV2去年销售业绩下降了,帮我分析可能是什么原因导致的(需要理解业务)

技术:1)目前LV1是可以实现的,本质上就是把“查询,去年,销售业绩”这些关键信息捕捉出来,并转换为SQL语言——不管你是要查询、对比、求差值都是一样的;2)而LV2会更困难,因为他需要理解业务,例如销售业绩这个key,和用户数量、留存率等是有关的。3)因为目前我没实际体验过,所以不知道他在LV1中实现到什么程度——但即使目前弱,通过收集数据后微调模型,应该也是能够实现的。

商业:从功能角度来说,公司会很乐意买,但是还是那个问题——我怎么放心把我的数据暴露在你面前呢?

评分依据:替代了数据分析师的一部分工作,增量市场但我不清楚市场多大,先给3分

ChatBOT应用

套壳应用

海外:Poe

暂无变化

简介:搭载了ChatGPT+Anthropic

技术:没有技术,就是套壳

商业:本身毫无亮点,就是借助套壳应用上线吸了一波流量;他需要想想GPT对问答社区的影响是什么,新时代的问答社区如何与GPT共存

评分依据:1分

搜索引擎

海外:Bing

暂无变化

简介:先通过搜索引擎获取信息,再通过GPT进行总结回答

技术:技术是2-Stage Search Summarizer(技术解释详见知识区)

商业:优化后的极限成本大约占目前每次搜索广告的15%,所以头部搜索引擎没有动力做,做完直接白亏15%,而尾部搜索引擎很有动力,抢到一点份额是一点,亏一点也无所谓(成本分析详见知识区)

评分依据:5分

终端融合

手机、音像、VR、手表、耳机、电脑等

暂无变化

简介:将LLM落地到我们目前的实体终端上,实现交互上的升级

技术:1)首先原本的ChatGPT就能融合;2)其次Toolformer让融合后LLM能够直接调用终端上的工具提供了可能;3)最后多模态的理解让这种融合更进一步,能够执行更细节的操作。详见《怎么风平浪静的?多模态+Toolformer,这波还不原地起飞?》

商业:新的交互模式,就像触控交互出现对按键手机的碾压一样;我看看谁先跟上,跟不上的原地等死。

评分依据:5分

客服机器人-线上

大厂自有客服机器人(电商、金融等巨多)

目前做客服机器人的2B公司

暂无变化

简介:传统客服机器人基于LLM的升级

技术:客服要求的答案精确、安全仍然是LLM的痛点,因此主流会以微调小模型为主,不太可能直接使用开放式大模型

商业:1)客服是成本中心,尽管OpenAI降价,但这个价格仍然昂贵(可能以后进一步降价);2)除非将成本中心转变为利润中心,让客服机器人去做追加销售;3)不管能不能做,所有厂商都会去做一定的落地尝试

评分依据:可能迎来聚变,但被价格、LLM缺陷,自研替代等问题牢牢卡住,给2分

服务机器人-线下

现场实体机器人

暂无变化

简介:在线下有高频交互的机器人,例如医院、会展、银行

技术:需要针对专业领域进行知识微调

商业:1)体验上的提升很高;2)交互频率较低,最坏的情况就是一天12小时一直聊天,不至于像线上业务24小时亿级请求,所以成本较低;

评分依据:实体机器人是很重渠道的,科技反而其次(你会看到一些非常丑陋,技术非常low的),但这次科技的提升太明显,如果跟不上会被竞争淘汰

情感-虚拟NPC

(季抛类)

国内:彩云小梦、Glow等

暂无变化

简介:以构造“虚拟NPC”为核心玩法,用户通过剧本、胶囊逐步完善NPC,并支持NPC或剧本等要素的分享。

技术:可以用LLM,也可以用小模型,NPC剧本以Prompt形式或知识库形式附着

商业:1)用LLM的话控制不了成本,C端娱乐聊天这种应用,很难覆盖成本;所以自研模型是更好的方案;2)模式类似角色集卡游戏,NPC通常是季抛的;3)商业模式也要从NPC的获取、培育方面着手;

评分依据:半新不旧的赛道,但是新技术给他带来强大的生机,宅系本身也是个好赛道

情感-成熟NPC/明星

王一博BOT(现实明星)

亚瑟王Saber(动漫NPC)

路明非(小说NPC)

平台:

https://app.copilothub.co/copilot?id=5

https://www.chatbase.co/

暂无变化

简介:对自带粉丝的成熟NPC进行Bot化,甚至可以将外延延伸到Diffusion能支持的音频、图像、视频等多模态

技术:1)重点在于如何向LLM灌入明星的人设,有些明星可能阅历比较简单,而有些明星则非常困难(例如玄幻小说NPC,其人设背景通常是百万字级别以上的)2)但是问题不大,可以从简单到复杂,或者将百万字背景抽取出核心人设

商业:1)原有粉丝就是最大的付费群体,这个逻辑就像游戏厂商喜欢复刻成熟IP的游戏一样(本质这也是IP延伸开发的一种新形势);2)现实明星可能有一个问题是,明星的价值很大一部分来自距离感,如果通过Bot缩短距离不一定是明星愿意的;3)事实上像character.ai已经做了类似的事情了,平台上最火爆的NPC是原神中的雷电将军

评分依据:未来IP应该会形成这种延伸开发,但付费潜力不确定,不然能到4分

情感-老年陪伴

独居老人陪伴

暂无变化

暂不评价,我搭好自用ChatGPT后让我老家的父母用一下看看

我希望有用,但又不希望他有用

——如果陪伴上人类都能被取代,那我们何以为人呢?

情感-赛博墓碑

暂无项目

暂无变化

简介:人死后,把一生的记录都上载的云端,亲友与他对话,Bot会以逝者的语气、记忆来回答问题——那么是否爱人在另一半死亡后,才从墓碑中发现她曾经错过的温柔呢?

技术:没什么好讲

商业:1)我会买相关的服务,感觉是很酷的事情;2)Twitter上Michelle Huang分享了她将自己童年日记本上传给GPT-3后,在与Bot的对话中找回了曾经的自己

评分依据:我觉得,真的很酷,强行5分

情感-个人陪伴

海外:replika

(长期陪伴机器人)

暂无变化

简介:不是季抛式的娱乐性NPC,也不是自带流量的热点NPC,而是需要从头培养的长期陪伴NPC

技术:1)基于LLM的知识微调,或者通过挂载知识库的方式实现;2)但是最大问题在于道德约束的技术现在还不成熟(参考Bing诱导用户离婚案例)

商业:1)不太相信现在这个时代,具备耐心的用户基数足够大;2)长期陪伴会对AI的道德有非常强的要求,稍有不慎会引发重大影响(儿童、抑郁症)

评分依据:市场前景悲观,风险悲观

垂直-法律(报税)

海外:

DoNotPay (法律方向)

暂无变化

简介:垂直方向落地的典型例子,原本专做税收报账应用的APP,想让ChatGPT作为辅助律师出庭

技术:没有详细了解,可能是用了专业领域知识做了二次微调

商业:1)在美国,法律是高频低额场景(税务/交通罚单);2)但在国内,大家一般不和法律打交道,场景是低频高额,这种情况下用AI解决似乎没有太大必要;3)比较可能的是解决一些法律咨询问题(基数大了也还不错),但这种场景,第一次接触法律的用户可能很难接受咨询付费的概念,而更乐意去百度;4)事实上法律AI化在几年前就有了,但是落地状况一直很差

评分依据:市场前景存疑

垂直-法律(合同)

Robin AI 1050万美元融资

暂无变化

简介:75人的团队里,30个是专业律师;

技术:1)基于LLM进行专业领域知识的微调

商业:典型的小场景高壁垒;1)他们拥有垂直领域的法律文本;2)他们选的赛道足够小,巨头不感兴趣;3)后来者一看——emmm 要不还是算了

评分依据:典型的壁垒模式,给3分

导航集市类网站

项目类导航

海外GPT应用 APP全景地图

futuretools.io

saasaitools.com

allthingsai.com

futurepedia.io

gpt3demo.com/map

https://orelmizrahii.github.io/Web-AI-Archive/thelist.html

https://flowgpt.com/

暂无变化

简介:导航类的网站,类似hao123,会放上站主搜集到的所有AIGC项目并放上链接,以广告联盟作为盈利手段

AI绘画作品导航

海外:lexica.art (免费导航)

kalos.art(作品NFT售卖)

暂无变化

简介:展示AI作品并提供下载,部分网站会实现AI作品售卖(基于NFT)

商业:1)AI绘画技术门槛低,会产生许多的AI绘画网站;2)因此虽然每个网站都会建设自己的作品展示社区,但跨平台的集市仍有价值;3)基于NFT来做其实有点把Web3的概念套进来了,实际上AI绘画作品的产生速度是不可能用NFT形式运作的,NFT只适合少量、高质的作品;4)这种类型相当于在花瓣等传统图库外切割了一批小众市场(而传统图库还受制于画师的意见,可能对接入此类作品有所克制);5)短期内是可行的,长期来看我看不明白

评分依据:捉摸不定,好像可以长期存活,给2星

Prompt词导航

海外:promptbase

暂无变化

简介:提供Prompt词的网站(部分收费,部分广告变现,都是独立开发者作品)

商业:1)Prompt的壁垒就像淘宝上卖的“新媒体运营资料”一样,专宰信息搜集能力差的人;2)后面LLM模型厂商一定会建立自己的模型社区,在社区里Prompt是开源的

评分依据:短期噱头,不能长久存在,1星

图片生成

时代开启者

AI绘画时代开篇:Midjourney

暂无变化

简介:AI绘画时代开启者,引领时代的《太空歌剧院》就来自这个软件

评分依据:因为时代意义给4分

AI绘画开源先驱:Stability.AI

暂无变化

简介:Stability.AI公司发布并开源Stable Diffusion算法,启动AI绘画浪潮

评分依据:因为时代意义给4分

指定方向画图

意见、元初、Pai等

暂无变化

简介:1)指定方向画图这个定义来自我作品《AI绘画全解析》,指AI仅需针对文字生成图片,最多附带风格、画风等约束;2)但是目前ControlNet发布后,这个方向会慢慢消亡,并不是公司消失了,而是他们会转向更可控的AI绘画服务

技术:1)基于Stable Diffusion的基础,进行定向数据喂养优化(二次元、真人图等);2)同时也会标记用户创作的高质量作品纳入训练数据集

商业:1)AI绘画的成本目前最低到0.005元/张,成本已经非常低;2)但是方向画图的价值是很低的,用户不会愿意为这项服务付太多钱(因为他们从这类图片中赚不到太多钱)

评分依据:这就是ControlNet出来前,我对AI绘画的评价,2分

可控条件画图

ControlNet带动的浪潮,如稿定设计AI

暂无变化

简介:1)ControlNet能够对AI绘画限定更多条件,具体的条件和原理见知识区;2)另外要看AI绘画模块建议看我的作品《AI绘画全解析》,我一些概念在这里不会重复讲

技术:1)基于ControlNet进行可控性升级;2)后续可控性方面的技术还会迎来更多的爆发——因为之前学术界精力很多集中在降低成本方面,现在精力转移过来了

商业:1)可控条件就导致我们对AI作品的操控性更强;2)而商业用途的内容,是条件最多的(参考甲方对乙方提出的需求);3)因此这个方向的每一点进步,都会扩大他的商业空间,不断往商业用图的领域倾蚀

评分依据:最牛逼的方向,救活了AI绘画,5星

完全可控画图

AI实现全方位的条件控制

暂无变化

简介:1)可控条件逐步发展到顶点,就是完全可控;2)需要注意这是分领域的,例如NPC立绘的完全可控实现,会比设计海报的完全可控要快(可能反过来,但大概是这个意思);3)所以不要把这个当成一种不可达的技术,AI会先在某些绘图领域实现条件控制的完全满足

AI绘画工作平台

设计类公司;PS、Figama、稿定

绘画类公司:Midjourney

暂无变化

简介:1)AI绘画流是指,在技术处于部分条件可控的时候,我们最终都需要对产出进行二次设计修改;2)特别是在进入商用图领域后,这种修改更有必要、也更有价值;3)为此设计师/画师,需要一种整合型的平台,让他们从AI出图到二次精修在一个地方完成。

技术:没有技术,就是整合

商业:1)目前设计厂商,绘画厂商都有可能进行这方面的尝试;2)有可能每一个现在在接触AI绘画领域的厂商,最终都会往这个方向发展

评分依据:虽然没有技术,商业变量也不太多,但是一种工作方式的重构,给4星

AI绘画技术服务商

国内:画宇宙、文心一格等

暂无变化

简介:提供基础技术给需要AI绘画的公司,例如稿定设计、创客贴等上线的AI绘画,大概率就来自这类公司

技术:就是做AI绘画最先进的技术,然后封装成接口,提供付费API

商业:给淘金者卖矿稿的生意,挺好的

评分依据:市场成熟,边际成本低

垂类-插画

留个坑位

暂无变化

欢迎大家,特别是图片社区、设计师方向的朋友补充专业讲解

这里会跟踪罗列每个细分图像领域目前的进展——例如:插画已经实现完全可控

垂类-NFT

botto:https://www.botto.com/

暂无变化

简介:1)用GPT生成Prompt词,并号称这个生成过程会学习;2)每周生成350副作品,并提交给社区成员;3)社区投票选出每周最佳,并制作为NFT

技术:没有技术

商业:1)是一种概念上的玩法,组装了GPT、AI绘画、社区公投这些概念,来刷NFT领域的热度,从而获利,先行者很吃香,跟随着就难说了;2) 电子作品的泛滥(质量还很好),会不会对NFT造成冲击呢?我觉得不会,NFT本质不是大家真的在买那些艺术品,感觉还是炒币的逻辑,所以应该没啥影响

评分依据:我一直没弄明白币和NFT的价值,大家都在说去中心化的理想,但我看到的只有高昂的运作成本和狂热的投机生意——或许是我错了,这条不评价

垂类-头像

海外:avater.ai、国内:漫镜

暂无变化

简介:上传几张图,帮你生成N多张风格各异的头像

技术:1)基于Diffusion,是他图生图的技术领域;2)专门针对头像进行二次微调

商业:1)社交货币驱动的需求,能够一时爆火但难以持久;2)海外levelsio一个月靠这个变现30W美金

评分依据:有点意思,但不多,2星

垂类-室内设计

海外:interior.ai

暂无变化

简介:上传一个房间,给出不同风格的装修图片;同时你还可以给出文字进行风格调整

技术:1)在之前,是通过Diffusion的图生图技术实现的;2)现在可以通过Diffusion实现文-生图,然后Control作为建筑线条引导条件控制,迭加起来效果比以前更好

商业:1)家居设计讲方案的时候更方便了,不再是给你一些手册,而是现场拿一个PAD——要小清新?OK等两秒,你看这20张风格你选那张?;2)需要进行下个突破的(可能已经突破了),出的图是可编辑格式,这样家居设计师可以对房屋的布局进行微调;3)目前迫切需要的是家居领域的标注数据,这方面积累起来会形成壁垒

评分依据:垂类领域技术成熟,应用性感,有壁垒,有市场,给4分

垂类-模特商品图

国内出海:ZMO.AI

暂无变化

简介:基于模特虚拟生成商品图(附带一些编辑、替换的工具)

技术:不是很确定,这种技术的应用早于Diffusion出现,不知道Diffusion是否带来一些改变和升级

商业:1)海外电商类SaaS,是一个很好的商业赛道;2)但是模特图领域感觉好小

评分依据:市场成熟,但空间好像有点小,给3星

垂类-电商背景图

海外:PhotoRoom

暂无变化

简介:电商商品图的迁移、抠图、替换

技术:1)同样不确定,抠图、替换这些都是很早的技术了,不一定和Diffusion有关系,2)而且Diffusion更多发力在生成,而非编辑

商业:和上面这个一样,赛道挺好,但感觉空间有点小

评分依据:3星

视频生成

局部静态视频

D-ID等

制作半身数字人视频

暂无变化

简介:输入文本+指定虚拟人,生成这个虚拟人朗读文本的视频,中文表现偏弱

技术:1)这本质上就是虚拟人的技术栈,是很多技术组合到一起的;2)TTS语音合成负责输出声音;3)脸部表情+唇语是一个复合模型,用来匹配文本语音;4)小范围的姿态动作也会与语音文本进行匹配

商业:1)播报式的视频用这个没啥问题了;2)但是平台很容易监测这种虚拟人,他们是否愿意这类内容泛滥是一个问题——不管虚拟人再真实,用户都更喜欢真人出镜;3)现在的热潮可能是社交热点带来新奇心理的,并不是公众多喜欢虚拟人视频

评分依据:虚拟人是个成熟赛道

PPT类缝合视频

QuickVid

暂无变化

简介:基于GPT一键生成PPT缝合类视频(就是图片翻页+音频)

技术:本身是缝合了多类技术,1)GPT对输入文本进行扩写;2)给文本找匹配风格的图片;3)做成翻页式的视频;4)文本转语音补上音频

商业:1)垃圾内容制造器;2)做这个就不能指望做成大号,更多是铺量做很多小号,来换取总体流量的扩大从而获利

评分依据:除了加个GPT,其他都是以前的旧技术,垃圾内容制造器,给1分

真实视频

Video-Diffusion

暂无变化

简介:生成复合我们想象的那种真正的视频

技术:1)基于Diffusion;2)目前不成熟;3)难点在于视频的标注数据少、视频也更复杂(你可以理解是多张图,并且这些图之间要有行动逻辑)

商业:如果能做出来商业前景肯定是没问题的,动漫、电影特效、短视频等等

评分依据:技术不成熟,先不给分

3D建模

3D建模

Point-E、dreamfields等

暂无变化

简介:生成3D影响

技术:1)一般来说会对生成做拆解,例如先生成点云图,再用别的来渲染点云图形成最终的3D;2)最大的难题和视频一样,数据、复杂度(3D需要有结构逻辑)

商业:如果做出来商业前景也很好,不多说了

评分依据:技术不成熟,先不给分

音频生成

音频生成

海外:MusicLM

低质量完整音乐生成(人声、乐器、音效)

并实现音乐-文本

暂无变化

简介:基于文字生成音频(特效音,人声、乐器等)

技术:1)基于Diffusion在做;2)技术上还不完全成熟,音乐是有,但都是低质量的音乐

商业:1)我之前看过一个说法,为什么到现在我们很少听到好的新歌了?是电子化对音乐的冲击吗?2)这个说法指人类的旋律是有限的,精彩的旋律近乎被挖空,以至于现在的人很难逃出窠臼;3)站在这个角度说,AI能突破这个限制吗?找到高质量音乐不太现实;4)但是对于质量一般的音乐AI是可以胜任的,这可以用于商业音乐领域,例如游戏、动画制作等,用AI绕开付费版权问题

评分依据:虽然有应用场景,但是技术还差一点,先不给分

声音迁移

Titok变声器

暂无变化

简介:把你说话的声音变成萝莉音、大叔音、御姐音

技术:1)以前的技术栈效果会有点尴尬;2)但是最近看Titok变声器的效果好像迎来了突破(虽然我暂时没查到怎么突破的)

商业:1)首先是视频特效玩法会有很多有趣的应用;2)其次对于内容制作者,解决音色不完美也是一个好的方案(可以区别于千篇一律的大家好,这个小伙是小帅)

评分依据:市场不错,技术成熟

多模态通路

图转文

海外:CLIP Interrogator

图像生成Prompt词

暂无变化

简介:输入图片,返回图片的AI绘画Prompt词

技术:还记得Diffusion中的CLip吗?用来将文字转化为图像,这就是反过来的过程

评分依据:为跨模态应用提供可能(例如ChatGPT调用这个,理解了图片内容)

图转文应用

海外:BLIP-2

让语言模型理解图片

暂无变化

简介:给LLM输入一张图片,他可以理解并与你交流

技术:1)用类似上面的做法BLIP2_OPT,先将图片转成文本;2)然后LLM基于文本进行对话聊天(这里的LLM不是GPT,是Google的T5)

评分依据:一种有趣的实践,但好像没有特别大的突破(本质是缝合了两个算法)

生物

生物科技

语言模型ProGen实现蛋白质可控预测

暂无变化

简介:能够指定希望这个蛋白质合成的方向

技术:1)借鉴LLM的模式,来训练蛋白质领域的模型;2)关键是能够指定方向预测(例如给我做一些杀菌性很好的蛋白质)

评分依据:完全不懂生物领域,无法评价

DeepMind-AlphaFold

预测蛋白质结构,推动科研的范式转变。

暂无变化

简介:如果说以前的蛋白质结构领域是马拉火车,现在就变成了太空电梯,这个工具让蛋白质预测的速度极度攀升,成为了蛋白质结构工程师不可或缺的工具

评分依据:完全不懂生物领域,无法评价

职场

招聘

JD-CV互相匹配

暂无变化

简介:1)基于语义的匹配,例如标题和正文中都没有AI,但是提及了NLP、图像领域产品落地经验,那么可以与AI产品经理匹配;2)再升级一点,除职业术语以外,也能理解管理经验、业务经验等更广阔的知识

技术:目前LLM或小型模型应该都是比较成熟的

商业:7年前我做过类似项目,当时没跑通商业模式(我当时只是个刚毕业的,和我关系不大哈),我到现在也没想通,为啥招聘网站没有这方面的诉求,应该涉及到一些招聘领域的商业模式、业务逻辑制约把(挠头,有做这方面的朋友欢迎交流)

评分依据:因为商业前景不明,给2星

游戏

游戏效率

建模提效、绘画提效、音频提效等等

暂无变化

简介:提效在很多方面都有可能,我一个个说哈。1)建模提效,用ChatGPT+unity联合实现游戏开发,现在还不明显,需要LLM再升级一轮,学会利用工具才能真正可用;2)美术提效,不多说了,目前影响最大的;3)音频提效,音频生成现在虽然质量较低,但在独立游戏上可能还能用,4)音频提效,声音风格迁移,可能有助于缓解CV配音的压力;5)文案提效,ChatGPT写短文案例如NPC简介还是可以的;6)数值/关卡部分有一些工作是苦力式的配表,可能或许现在暂时AI做不了,但可以期待一下

商业:应该有一些游戏开发平台在陆续集成这波新的技术了,不过我不太了解这个行业

评分依据:市场成熟,价值可观,但应该不会有太多增量市场——原有的游戏开发工具平台直接下场兼容新技术更可能一些

新时代游戏

逆水寒-手游版

暂无变化

简介:1)利用LLM让NPC支持智能对话;2)利用游戏提效,让NPC数量上升,丰富游戏玩;3)通过LLM让NPC做自由选项,实现自由任务

技术:1)NPC的对话需要约束在游戏背景之下,这个在前面有提到,累死你训练一个乔布斯Bot是一样的做法;2)NPC支持自由选项及自由任务奖励某种程度上可以实现,我在ChatGPT上与Bot模拟过桌游过程,只是需要额外限制下做二次的数值校正,本质上也是奖励随机只是套上了AI的外皮。

商业:1)非常期待;2)但是游戏是一门艺术,如果把AI恰到好处植入游戏,而不妨碍心流塑造;如何围绕新AI苟住一种新的游戏交互方式(有点像开创新游戏类型)等,这些都是比直接把AI用进游戏中更困难的事情;3)此外游戏中使用AI的成本也需要考虑,比较大的可能是用小规模实现,而非LLM,后者在实时性和成本上都不太匹配游戏业态。

评分依据:资深游戏迷为爱给5星

金融

文本理解/审核

庖丁科技

暂无变化

简介:1)不是生成金融报告,这是目前LLM做不到的事情;2)他做的是对金融文本进行理解、结构化整理,包括合同、财报、招股书等

技术:1)技术上以前用的是传统NLP模型+OCR等技术;2)LLM来了以后他也不会用的,更多会基于LLM去优化自己的小模型,因为金融行业对私有化、安全性的要求非常高。

商业:1)专注某个领域的文本理解工作,市场有点小但能活得挺滋润;2)新技术可能会让他拿下更多的金融企业

评分依据:增量有限,市场规模小,2星

教育

教育AI-因材施教

网易好像在做相关的事情,懒得找报道了

暂无变化

简介:我们以前的教育AI集中在两个方面:1)知识点的拆解,图谱化;2)基于个人学习进度的知识推荐和Review推荐。当然还有别的AI比如说机器人、虚拟人,这一块我没深入调研过,我先谈我比较感兴趣的这部分

技术目前LLM在文本领域的效果提升能够将第一部分做得更好,而知识推荐则可能受限于推理能力暂时不会带来提升。

评分依据:教育是很有价值的方向,平均教育效率越高,人类的平均素质就越高,越能涌现出优秀的科研人才从而推动科技进步,为这个方向打5星

教育AI-语言教学

大部分英语学习软件都会跟进

暂无变化

简介:这部分的技术应用都较为简单,基本上是基于Prompt实现的,大家都可以自己通过对Bot下指令来实现。产品的亮点主要在于应用层上的设计,令整个学习体验更完善

商业:1)对于存量企业属于锦上添花,后续竞争者都会提供类似功能;2)部分领域如AI对话可能可以出现一些小而美的应用,但LLM层面的壁垒低,容易同质化竞争

个人学习方法重构

学习流重构

暂无变化

简介:1)新技术可以重构我们的信息检索效率,从而提升学习速度;2)可以利用新技术进行语言学习,例如将英文单词发送给AI,让它生成一篇短文,基于短文进行记忆加强;3)对于不明白的概念可以直接询问AI获得详细解释,例如“自回归模型为什么训练成本更高”4)可以加强我们的写作能力,例如“告诉我打电话的正式口语和非正式口语”or“帮我润色这段英文”;5)进入一个陌生领域学习,可以让AI提供一个建议步骤清单,例如“我想开始学习Python,请帮我列出学习顺序、参考资料、网站”

评分依据:新时代,请不要沉迷在ChatGPT的热浪里,你或许不能创业,但至少可以用技术提升自己

AI技能培训

AI使用培训

暂无变化

简介:培训用户掌握ChatGPT、AI绘画或其他延伸AI工具的能力

商业:1)教育培训市场是高度细分的,因为真的要培训出来做出一定要做线下,一定要真实教师投入——用户学不会很大程度不仅因为蠢,还因为懒;2)一旦进入线下,那么壁垒就在于师资力量,而师资是流动性很高的;3)AI教育如果只是For用AI的话,门槛不高,就像当初的电脑培训班一样,很快大家都不需要培训了,网上全是资料;4)AI教育的付费意愿肯定不如考公考研,可能和英语差不多?

评分依据总是需要有人去做的,给3星

反作弊

文本反作弊

海外:GPTZero等

暂无变化

简介:通过模型来检测文本是否来自AI

技术:1)本质上是用监督模型,以LLM输出的文本+人类正常文本做训练数据,来做一个分类判断,效果不是很好,原因随后附上;2)短文本的检测率极低,用户可以用短文本组成长文本的方式来绕过;3)LLM本身在升级,会越来越像人,这会导致检测越来越不准

商业:1)用模型的方法去检测可能很难成功了;2)另一种方案是在源头进行控制,由LLM厂商在生成的文本中卖入密码水印(例如A字符出现概率控制为0.8123%);3)但只要有需求就有市场,很难保证所有LLM源头都在控制当中

评分依据:这种电子垃圾的攻防战最早从反垃圾邮件开始,现在反AI内容才刚刚开始,这个模块将产生大量的算法、技巧,值得期待

新职业

Prompt

Engineer

专注于AI绘画或GPT的人机交互职位

暂无变化

简介:专门AI绘画或专门GPT写文案的工种

商业:1)低端职位会存在,例如3000一个月雇佣县城主妇用AI绘画产出;2)但这个职位本身不像他描述的那么高大上,不是真的要懂什么Prompt技巧,说白了他就是新时代的电子劳工

评分依据:很悲哀的职位,给1星

下沉市场机会

赋闲人员的知识收费

暂无变化

简介:“穷人的钱更好赚,特别是那些急于突破自身阶层的”——所以你会发现这波浪潮里,赚的最好的是那些卖课程的人

商业:这本质就是盛行不衰的“宝妈日赚500”那种课程,

评分依据:不喜欢,给1星

;