Bootstrap

LLM进化下的Agent演变及软件重构下的一点思考

最近在与peer团队协同时遇到一个case,客户是某科研院所,希望通过llm,agent等技术搭建科研实验操作助手,以实现一定自主化的实验前领域知识学习与洞察、实验方案设计、实验过程执行与检测、实验结果统计与反馈等…

这让我回忆起去年上半年看到过的一篇来自化学领域专家们对这一领域的探索:“Autonomous chemical research with large language models”。研究者们构建了一个llm驱动下的Coscientist,通过整合llm能力,借助互联网和本地文档搜索与增强、代码执行与验证及实验自动化等工具,进行复杂的实验。

dd2cccd6211745e6a8ff739448bcad13.jpg

 其中展示了其在六个领域加速研究的潜力,如针对催化交叉偶联反应成功在内部半自动的实现了多样化任务规划、拆解、调度及验证,包括(半)自主能力的实验设计与执行,最终发现并验证了Coscientist这样的人工智能系统在推进化学实验过程中所拥有一定的通用性、有效性和可解释性。同时论文中也给出了面向未来探索更复杂的多步骤实验方案设计、多轮次实验结果验证并反馈迭代的潜在潜力。

也联想到,最近的一年间随着llm模型的快速进化,上层的各种如Agent,Workflow,RAG,Copilot等创新应用重构形式亦逐渐成熟,我想未来随着多样化的应用场景在上述各框架及分支间逐渐深化与互相交融,更多数字化应用或与真实世界交互下具身应用的不断创新,其上不论是模型内隐性或模型与知识间显性下各种CoT/ToT及RAG下的training-time或test-time泛化拼接与牵引也好,外部各工具或功能集成也好、各种形式化函数调用也好,都会形成更智能化、个性化和灵活化的趋势,且在这种趋势之下,我们可能也不得不重新思考或去定义那些被人们所熟知甚至默认为当下标准概念下的如“软件工程”、“软件定义”、“技术架构”、“编程框架”、“语言风格”…在与当下llm衍生出且逐渐健壮的Agent,Workflow,RAG,Copilot这些融合后给未来数字化世界中软件形式本身带来的深远变化。

近期正好也赶上Anthropic和Google先后发布了针对未来Agent的白皮书,大家感兴趣可以私信分享给大家并期待与大家继续探索这一领域。

;