Bootstrap

Talk|UW-Madison蔡沐:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型

​本期为TechBeat人工智能社区第610线上Talk!

北京时间7月18(周四)20:00,威斯康星大学麦迪逊分校博士生—蔡沐的Talk已准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 图像可编码为任意数量Token,俄罗斯套娃式多模态大模型,他将大家介绍了一种俄罗斯套娃技术,可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

Talk·信息

主题:图像可编码为任意数量Token,俄罗斯套娃式多模态大模型

嘉宾:威斯康星大学麦迪逊分校 蔡沐

时间:北京时间 7月18日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=889

Talk·介绍

LLaVA的多模态大模型总是把图像编码为固定数量的token(576个)。但这不是最优的。我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少token,以及单个图像的复杂性。

此外,我还将简短介绍对LLaVA做visual prompting以实现region level understanding. 还有CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。

Talk大纲

1. 技术 - 我们提出了一种俄罗斯套娃技术,你可以自由地选择将一个图像encode为1, 9, 36, 144, 576个token中的任意一种。

2. 优点 - 我们的Matryoshka Multimodal Models非常灵活、高效,也可以用来衡量benchmark的复杂性,需要多少

3. 应用 - 对LLaVA做visual prompting以实现region level understanding. 

4. 延伸 - CLIP LLaVA 对compositional reasoning的本质短板,以及我们的改进。

Talk·预习资料

图片

论文链接:  

https://arxiv.org/abs/2405.17430

图片

论文链接:  

https://arxiv.org/abs/2312.00784

图片

论文链接:  

https://arxiv.org/abs/2402.13254

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

蔡沐

威斯康星大学麦迪逊分校 · 博士生

蔡沐,威斯康星大学麦迪逊分校计算机科学系的第五年博士生,我的导师是Yong Jae Lee教授。

我最近的研究兴趣在于多模态生成模型的应用及其基本局限性。我特别关注视觉提示、视频和3D理解,以及分析CLIP的局限性。

个人主页: 

https://www.techbeat.net/grzytrkj?id=40634


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

;