跳到主要内容

使用Transformer和Diffusion模型上手生成式AI

生成式人工智能是一项革命性技术,已经从实验室演示跃升到影响数亿人的现实应用。它能够基于从现有数据中学习的模式创造新内容,如图像、文本、音频和视频。它可以增强创意、扩展数据及更多其他功能。一个训练在音乐数据上的生成式AI模型可以创作新的旋律或歌曲,而训练在文本数据上的模型可以生成新故事甚至写代码。

📄️ 第二章 Transformers

很多人将最近一波生成式人工智能的进展追溯到2017年发布称为transformer的模型。其最著名的应用是强大的大语言模型(LLM),如Llama和GPT-4,每天有数亿人使用。transformer已成为现代人工智能应用的核心,推动着聊天机器人、搜索系统乃至机器翻译和内容摘要等各类应用。甚至已超越了文本领域,在计算机视觉、音乐生成和蛋白质折叠等领域引起了巨大反响。本章中,我们将探讨transformer背后的核心概念及其工作原理,重点介绍其中一个最常见的应用:语言模型。

📄️ 第四章 Stable Diffusion

在前一章中,我们介绍了扩散模型及其迭代优化的基本思想。学完该章,我们已经能够生成图像,但训练模型非常耗时,而且我们无法控制生成的图像。在本章中,我们将学习如何从这一阶段走向基于文本条件的模型,这些模型可以根据文本描述高效地生成图像,研究的是一个名为Stable Diffusion(SD)的模型。不过在介绍SD之前,我们会先了解条件模型如何工作,并回顾一些产生当今文生图像模型的创新。