使用Transformer和Diffusion模型上手生成式AI

📄️ 第一章多媒体生成入门

生成式模型在近年来广泛流行。在阅读本文时，读者很可能已经在与生成模型进行过互动。或许是使用ChatGPT生成文本，或许是在Instagram等应用中使用风格转换，亦或是看过那些引发热议的深度伪造视频。这些都是生成式模型的实际应用！

很多人将最近一波生成式人工智能的进展追溯到2017年发布称为transformer的模型。其最著名的应用是强大的大语言模型（LLM），如Llama和GPT-4，每天有数亿人使用。transformer已成为现代人工智能应用的核心，推动着聊天机器人、搜索系统乃至机器翻译和内容摘要等各类应用。甚至已超越了文本领域，在计算机视觉、音乐生成和蛋白质折叠等领域引起了巨大反响。本章中，我们将探讨transformer背后的核心概念及其工作原理，重点介绍其中一个最常见的应用：语言模型。

📄️ 第三章扩散模型

图像生成领域在2014年因Ian Goodfellow引入生成对抗网络（GAN）而广泛流行。GAN的关键理念催生了一大批能够快速生成高质量图像的模型。然而，尽管GAN取得了成功，它也面临着挑战，需要大量参数并且难以有效泛化。这些限制引发了其它的研究尝试，带来了对扩散模型的探索——这是一类重新定义高质量、灵活图像生成的模型。

📄️ 第四章 Stable Diffusion

在前一章中，我们介绍了扩散模型及其迭代优化的基本思想。学完该章，我们已经能够生成图像，但训练模型非常耗时，而且我们无法控制生成的图像。在本章中，我们将学习如何从这一阶段走向基于文本条件的模型，这些模型可以根据文本描述高效地生成图像，研究的是一个名为Stable Diffusion（SD）的模型。不过在介绍SD之前，我们会先了解条件模型如何工作，并回顾一些产生当今文生图像模型的创新。

📄️ 第一章 多媒体生成入门

📄️ 第二章 Transformers

📄️ 第三章 扩散模型

📄️ 第四章 Stable Diffusion

📄️ 第一章多媒体生成入门

📄️ 第三章扩散模型