2024 AI工程师世界博览会

6月24日至6月27日在旧金山举行的 AI 工程师世界博览会是AI 从业者和爱好者的首要活动之一。本次年度会议展示了人工智能技术的最新进展，并提供了对行业趋势的宝贵见解。

模型不是壁垒

大型语言模型（LLMs）的快速发展是会议的中心主题。OpenAI（GPT-4o）、Google（Gemma2.0）、Anthropic（Claude3.5Sonnet）、Mistral（8x22和C）和Cohere（Command-R）都展示了他们的最新模型，展示了令人印象深刻的性能。所以和去年相比，模型本身并不是竞争优势。前一年OpenAI是主要参与者。现在，开发人员可以使用许多高质量的替代方案。开发人员更多的需要关注构建特定领域的用例流程和工作流，使代码模块化，以便轻松适应新的模型版本。

Agent是会议的另一个热门话题，Langchain、LlamaIndex和AmazonQ发表了演讲。虽然这些解决方案显示出前景，但人们的共识是，代理商尚未完全做好生产准备。Agent目前只能处理简单、直接的任务。盲目地应用ReACT框架在生产环境中可能会有风险。

多模态处于热门状态

多模态模型正在兴起，这些模型可以处理多种类型的数据（文本、图像、音频）。例如，对于语音辅助，人类对话响应小于500毫秒。传统方法涉及几个步骤（语音转文本、文本生成、文本转语音），这些步骤需要时间来响应。多模型可以大大加快这一过程。GPT4o在会议上的现场演示感觉就像与人类交谈一样。

开放模型的兴起：Google（Gemma2.0）、Mistral（8x22和C）和Cohere（Command-R）展示了在各种基准测试中具有良好竞争力的模型。一般建议是，首先使用可靠且高性能的API开始构建解决方案，例如GPT4o和ClaudeSonnet3.5。一旦获得更多用户，就可以考虑如何针对特定领域的简单任务微调开放模型。

评估与可解释

Anthropic的“Golden Gate Claude”项目十分有趣，通过揭示神经元权重、特征和输出之间的关系，研究人员可以通过调整特定的神经元来调整模型行为。

有效评估LLMs成为一个关键主题。虽然它建立在MLOps和DevOps等既定概念之上，但它需要一些独特的方法。例如Hamel Husain等。不要使用通用数据进行测试。读者还是需要创建特定领域的语料和测试数据集。

CPU推理加速课题

虽然GPU提供卓越的性能，但若能充分的利用CPU，也是很不错的一种解决方案。

LlamaFile是Mozilla的一个开源项目，它使CPU推理速度提高了30-500%。它可以将开源LLMs转换为多平台可执行文件。可以在本地和私密地运行它，甚至无需访问Internet。

MAX来自Modular，它是一个新的AI平台，包括MAX引擎、MAXServing和Mojo编程语言。该平台声称新解决方案比Llama.cpp快~5倍，Mojo比Python快100-1000倍。尽管关于确切的性能比较存在一些争论，但相信它仍然是一种值得关注的有趣新语言，尤其是使用Python代码而不是CUDA配置GPU的潜在功能。

本次大会还是有很多干货，建议读者浏览官方会议网站和YouTB频道，以获取更多不同角度的声音。