Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models - 悦读

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

CVPR2024 SHI Labs
https://arxiv.org/pdf/2305.16223
https://github.com/SHI-Labs/Prompt-Free-Diffusion

问题引入

在SD模型的基础之上，去掉text prompt，使用reference image作为生成图片语义的指导，optional structure image作为生成图片structure的指导来进行生成；
使用SeeCoder来提取参考图片的embedding作为生成条件，且SeeCoder是可以重复使用的，可以直接集成到另外的T2I模型中；

methods

使用SeeCoder代替CLIP text embedding；
SeeCoder包含三个部分，Backbone Encoder, Decoder, and Query Transformer，其中Backbone Encoder使用SWIN-L提取多尺度特征，该部分参数是冻结的；之后decoder使用卷积来使得多尺度特征通道数相同，然后进行flatten+concat，得到的结果通过self attn + ffn；之后Query Transformer输出视觉embedding；

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

C++左值与右值以及std::move详解

部署zabbix监控

maven启动 cannot be cast to javax.servlet.Filter/cannot be cast to javax.servlet.Servlet 报错

Guitar Pro 8 中文破解版百度云免费下载

Spring框架实战入门(超全面，超实用)

【Qt】用QWidget显示opencv采集的摄像头图像

哪些神句拯救了你的英文邮件？

基于Java的餐馆点餐系统设计与实现(源码+lw+部署文档+讲解等)

【BUUCTF】 RSA2（dp泄露）

;