CFG
AIGC神功_SD采样方法与CFG_大猫404-站酷ZCOOLAIGC神功_SD采样方法与CFG,成都设计爱好者,站酷网,中国设计师互动平台.爱卿们好!本喵又出现了~熟悉的封面有没有把你吸引进来呢?这次让我们继续来讲AIGC的内容哟,这是篇硬核科普~https://www.zcool.com.cn/article/ZMTU0OTI0MA==.html
马尔可夫链
马尔可夫链 ▏小白都能看懂的马尔可夫链详解点击蓝字关注我们1.什么是马尔可夫链 在机器学习算法中,马尔可夫链(Markov chain)是个很重要的概https://mp.weixin.qq.com/s?__biz=MzU0MDQ1NjAzNg==&mid=2247568069&idx=1&sn=8d0d44b4a4f939ff37cbda62bef9d26a&chksm=fb3b6fcecc4ce6d88a38e767c20ec9afdbc6901188489e80f2f2e4fa96fcd0043ee380224777&scene=27简述马尔可夫链【通俗易懂】 - 知乎马尔可夫链前言马尔可夫链(Markov Chain)可以说是机器学习和人工智能的基石,在强化学习、自然语言处理、金融领域、天气预测、语音识别方面都有着极其广泛的应用 The future is independent of the past given t…https://zhuanlan.zhihu.com/p/448575579
stable diffusion的前传:
VQGAN是一个改进版的VQVAE,它将感知误差和GAN引入了图像压缩模型,把压缩图像生成模型替换成了更强大的Transformer。相比纯种的GAN(如StyleGAN),VQGAN的强大之处在于它支持带约束的高清图像生成。VQGAN借助NLP中"decoder-only"策略实现了带约束图像生成,并使用滑动窗口机制实现了高清图像生成。虽然在某些特定任务上VQGAN还是落后于其他GAN,但VQGAN的泛化性和灵活性都要比纯种GAN要强。它的这些潜力直接促成了Stable Diffusion的诞生。
如果你是读完了VQVAE再来读的VQGAN,为了完全理解VQGAN,你只需要掌握本文提到的4个知识点:VQVAE到VQGAN的改进方法、使用Transformer做图像生成的方法、使用"decoder-only"策略做带约束图像生成的方法、用滑动滑动窗口生成任意尺寸的图片的思想。
改进版的vqgen:maskgit
stable diffusion:
文生图相关的一些原理:
stable diffusion的相关介绍与代码展示:CLIP text encoder、UNet、文生图、文生视频、inpainting
AnimateDiff:
https://blog.csdn.net/qq_41994006/article/details/132011849
https://blog.csdn.net/shadowcz007/article/details/131757666
https://www.zhihu.com/pin/1685665464804700161
部署:https://blog.csdn.net/weixin_51330846/article/details/133795764
https://huggingface.co/guoyww/animatediff/discussions/5
Dreambooth
Reuse-And-Diffuse
phenaki
GitHub - lucidrains/phenaki-pytorch: Implementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in PytorchImplementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in Pytorch - GitHub - lucidrains/phenaki-pytorch: Implementation of Phenaki Video, which uses Mask GIT to produce text guided videos of up to 2 minutes in length, in Pytorchhttps://github.com/lucidrains/phenaki-pytorchhttps://huggingface.co/obvious-research/phenaki-cvivit/tree/mainhttps://huggingface.co/obvious-research/phenaki-cvivit/tree/main
maskgit
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIThttps://m.thepaper.cn/baijiahao_17087787
[CVPR2022]MaskGIT: Masked Generative Image Transformer阅读笔记 - 知乎arxiv: MaskGIT: Masked Generative Image Transformergithub: google-research/maskgit: Official Jax Implementation of MaskGIT (github.com)笔记链接: https://occipital-aphid-dee.notion.site/MaskGIT-Ma…https://zhuanlan.zhihu.com/p/618235198
ViViT
ViViT: A Video Vision Transformer阅读和代码 - 知乎文章地址: https://arxiv.org/pdf/2103.15691.pdf文章代码: https://github.com/google-research/scenic/tree/main/scenic/projects/vivit依旧是Google的作品,Google算法上确实是领跑世界。在视频理解上使用了T…https://zhuanlan.zhihu.com/p/506607332(动作分类篇)ViViT: A Video Vision Transformer - 知乎在阅读完VT综述后的第一篇正式的视频理解论文阅读笔记,ViViT作为纯transformer结构,在动作分类方向提出了四个模型,以及不同的embedding和参数初始化方式等等,并且做了丰富的实验。接下来直接从模型介绍开始总…https://zhuanlan.zhihu.com/p/505287712【ViViT】A Video Vision Transformer 用于视频数据特征提取的ViT详解_vit 视频_萝卜社长的博客-CSDN博客文章浏览阅读2.5k次,点赞5次,收藏36次。VIVIT详解_vit 视频https://blog.csdn.net/lym823556031/article/details/127939000