本期为TechBeat人工智能社区第610期线上Talk!
北京时间7月18日(周四)20:00,威斯康星大学麦迪逊分校博士生—蔡沐的Talk已准时在TechBeat人工智能社区开播!
他与大家分享的主题是: “图像可编码为任意数量Token,俄罗斯套娃式多模态大模型”,他将大家介绍了一种俄罗斯套娃技术,可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。
Talk·信息
▼
主题:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型
嘉宾:威斯康星大学麦迪逊分校 蔡沐
时间:北京时间 7月18日(周四)20:00
地点:TechBeat人工智能社区
点击下方链接,即可观看视频!
Talk·介绍
▼
LLaVA的多模态大模型总是把图像编码为固定数量的token(576个)。但这不是最优的。我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少token,以及单个图像的复杂性。
此外,我还将简短介绍对LLaVA做visual prompting以实现region level understanding. 还有CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。
Talk大纲
1. 技术 - 我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。
2. 优点 - 我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少
3. 应用 - 对LLaVA做visual prompting以实现region level understanding.
4. 延伸 - CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。
Talk·预习资料
▼
论文链接:
https://arxiv.org/abs/2405.17430
论文链接:
https://arxiv.org/abs/2312.00784
论文链接:
https://arxiv.org/abs/2402.13254
Talk·提问交流
▼
在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
▼
蔡沐
威斯康星大学麦迪逊分校 · 博士生
蔡沐,威斯康星大学麦迪逊分校计算机科学系的第五年博士生,我的导师是Yong Jae Lee教授。
我最近的研究兴趣在于多模态生成模型的应用及其基本局限性。我特别关注视觉提示、视频和3D理解,以及分析CLIP的局限性。
个人主页:
https://www.techbeat.net/grzytrkj?id=40634
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区