📄️ 第一章 多媒体生成入门
生成式模型在近年来广泛流行。在阅读本文时,读者很可能已经在与生成模型进行过互动。或许是使用ChatGPT生成文本,或许是在Instagram等应用中使用风格转换,亦或是看过那些引发热议的深度伪造视频。这些都是生成式模型的实际应用!
📄️ 第二章 Transformers
很多人将最近一波生成式人工智能的进展追溯到2017年发布称为transformer的模型。其最著名的应用是强大的大语言模型(LLM),如Llama和GPT-4,每天有数亿人使用。transformer已成为现代人工智能应用的核心,推动着聊天机器人、搜索系统乃至机器翻译和内容摘要等各类应用。甚至已超越了文本领域,在计算机视觉、音乐生成和蛋白质折叠等领域引起了巨大反响。本章中,我们将探讨transformer背后的核心概念及其工作原理,重点介绍其中一个最常见的应用:语言模型。
📄️ 第三章 扩散模型
图像生成领域 在2014年因Ian Goodfellow引入生成对抗网络(GAN)而广泛流行。GAN的关键理念催生了一大批能够快速生成高质量图像的模型。然而,尽管GAN取得了成功,它也面临着挑战,需要大量参数并且难以有效泛化。这些限制引发了其它的研究尝试,带来了对扩散模型的探索——这是一类重新定义高质量、灵活图像生成的模型。
📄️ 第四章 Stable Diffusion
在前一章中,我们介绍了扩散模型及其迭代优化的基本思想。学完该章,我们已经能够生成图像,但训练模型非常耗时,而且我们无法控制生成的图像。在本章中,我们将学习如何从这一阶段走向基于文本条件的模型,这些模型可以根据文本描述高效地生成图像,研究的是一个名为Stable Diffusion(SD)的模型。不过在介绍SD之前,我们会先了解条件模型如何工作,并回顾一些产生当今文生图像模型的创新。