一、多模态大模型快速发展****
1.1多模态是AI 大模型的新方向
多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。
1.2大模型开启新时代,多模态技术发展迅速。
2020 年大模型时代到来,多模态技术的发展得到进一步推进。大模型时代的核心在于构建能够处理海量数据的大规模模型,从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。最近,OpenAI 发布的GPT-4V 已经具备了强大的图片理解、逻辑推理以及情感感知能力,预计将在各产业得到广泛应用。
GPT 大模型的发展历程
1.3多模态模型五大方向:视觉理解、视觉生成、统一视觉、LLM 支持、多模态Agent
近期,微软多位研究员联合撰写文章,对多模态模型进行了全面的研究和分类,并关注了模型从专业性向通用性转变的特点。在模型分类中,研究员们将模型研究方向分为两大类五个主题:1)目前已成熟、完善的