大规模语言模型：从理论到实践

关于本书

大语言模型（Large Language Models，LLM）是一种由包含数百亿以上权重的深度神经网络构建的语言模型，使用自监督学习方法通过大量无标记文本进行训练。自2018年以来，包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT， GPT等在内多种模型，并在几乎所有自然语言处理任务中都表现出色。2021年开始大模型呈现爆发式的增长，特别是2022年11月ChatGPT发布后，更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互，从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的对世界知识掌握和对语言的理解。本书将介绍大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习，并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。

张奇

复旦大学，计算机科学技术学院，教授

桂韬

复旦大学，计算语言学研究院，青年副研究员

郑锐

复旦大学，计算机科学技术学院，博士研究生

黄萱菁

复旦大学，计算机科学技术学院，教授

章节内容

第二版：第二版完整版  代码  百度网盘

第一版：第一版完整版  百度网盘

第一版课件：

引用信息

张奇、桂韬、郑锐、黄萱菁，大语言模型理论与实践，https://intro-llm.github.io/, 2023.

@book{zhang2023introllm,
title = {大规模语言模型：从理论到实践},
publisher = {},
year = {2023},
author = {张奇、桂韬、郑锐、黄萱菁},
address = {上海},
isbn = {},
url = {https://intro-llm.github.io/},
}

反馈意见

如果您有任何意见、评论以及建议请通过GitHub的Issues页面进行反馈。

反馈意见包括但不限于：

错别字
描述错误
定义错误
建议

关于本书

张奇

桂韬

郑锐

黄萱菁

章节内容

第二版： 第二版完整版 代码 百度网盘

第一版： 第一版完整版 百度网盘

第一版课件：

引用信息

反馈意见

qz@fudan.edu.cn

第二版：第二版完整版代码百度网盘

第一版：第一版完整版百度网盘