【LLM】(一) LLM 是什么?一篇文看懂大语言模型的前世今生

发布时间:2026/6/14 21:01:36

【LLM】(一) LLM 是什么?一篇文看懂大语言模型的前世今生 LLM 是什么一篇文看懂大语言模型的前世今生系列导读这是「LLM 从入门到精通」系列的第 1 篇。本系列将带你从零开始亲手实现一个 ChatGPT 级别的模型。不黑箱、不调包真正搞懂大模型是如何工作的。一、从一个问题开始想象一下你正在和一个博学的朋友聊天你今天天气不错适合出去走走 朋友是啊阳光这么好去公园散散步或者骑骑车都很棒 你我最近想学做意大利面有什么建议吗 朋友意大利面啊先从最简单的番茄肉酱面开始吧关键是...这段对话自然流畅朋友能理解你的话题转换能给出有信息量的回答。现在把朋友换成 ChatGPT。它为什么能理解你的话为什么能给出连贯的回答它思考的过程到底是什么这就是我们整个系列要解开的谜题。二、LLM 的本质一个文字接龙高手2.1 核心思想大语言模型Large Language Model简称 LLM的核心任务非常简单给定一段文字预测下一个字词最可能是什么。这就是全部。没有魔法没有神秘的黑箱。输入今天天气不错适合出去 模型预测下一个字最可能是 走 输入我想学做意大利 模型预测下一个字最可能是 面2.2 为什么接龙能产生智能你可能会问这么简单的事情怎么能做到对话、写作、编程关键在于预测下一个词需要理解上下文。让我用一个例子说明句子 A我把衣服放进____准备清洗 句子 B我把菜放进____准备烹饪 填空 A 的答案洗衣机 填空 B 的答案锅要填对空模型必须理解衣服和清洗的关系理解菜和烹饪的关系知道洗衣机和锅的用途差异所以为了做好文字接龙模型被迫学会了理解语言。三、LLM 是如何工作的一张图看懂┌─────────────────────────────────────────────────────────────────┐ │ 用户输入 │ │ 请用 Python 写一个快速排序算法 │ └─────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Step 1: Tokenization分词 │ │ [请, 用, Python, 写, 一个, 快速, 排序, 算法] │ └─────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Step 2: Embedding嵌入 │ │ 把每个词变成数字向量比如 768 维 │ │ Python → [0.23, -0.45, 0.89, ..., 0.12] │ └─────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Step 3: Transformer Layers Transformer 层 │ │ 核心处理单元通过注意力机制理解词与词之间的关系 │ │ 理解Python和代码的关系快速排序是一个整体概念 │ └─────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Step 4: Output输出 │ │ 预测下一个词的概率分布 │ │ def (0.85), 首先 (0.08), 快速 (0.04), ... │ └─────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────┐ │ Step 5: 重复 Step 1-4直到生成完整回答 │ │ def quick_sort(arr): → if len(arr) 1: → ... │ └─────────────────────────────────────────────────────────────────┘这就是 LLM 生成文字的全过程。每一步我们都会在后续文章中详细拆解。四、LLM 发展简史从规则到智能4.1 早期尝试1950s-1980s基于规则最早的 AI 对话系统是硬编码规则如果用户说你好 → 回复你好有什么可以帮你 如果用户说天气 → 回复我不太清楚你可以查看天气预报问题无法处理没见过的句子稍微换个说法就懵了。4.2 统计方法1990s-2010sN-gram人们发现可以用统计方法统计大量文本中今天后面出现天气的概率是 0.3 今天后面出现我的概率是 0.15 ...问题只能看前面几个词无法理解长距离依赖。4.3 深度学习时代2014-2017RNN/LSTM循环神经网络RNN出现可以处理序列输入我住在法国____会说____ 模型能记住法国推断出所以和法语问题长句子还是会遗忘而且不能并行计算训练慢。4.4 Transformer 革命2017注意力机制2017 年Google 发表了划时代论文《Attention Is All You Need》提出了 Transformer 架构。核心创新注意力机制让模型直接关注句子中重要的部分并行计算可以一次性处理整个句子训练速度大幅提升句子The animal didnt cross the street because it was too tired 问题it指的是什么 传统 RNN需要从头读到尾可能已经忘了animal Transformer直接注意到animal建立联系4.5 GPT 时代2018-至今大规模预训练OpenAI 基于 Transformer 提出了 GPT 系列模型发布时间参数量意义GPT-120181.17 亿证明预训练 微调范式有效GPT-2201915 亿不微调也能完成多种任务GPT-320201750 亿少样本学习能力爆发GPT-42023未公开多模态、推理能力大幅提升关键洞察当模型足够大、数据足够多时会涌现出意想不到的能力。五、LLM 能做什么现代 LLM 的能力边界在不断扩展5.1 文本生成写文章、写故事、写诗写邮件、写报告写代码、写注释5.2 问答与对话回答知识性问题多轮对话角色扮演5.3 文本处理翻译摘要改写、润色5.4 推理与分析数学计算有限逻辑推理代码执行与调试5.5 多模态最新理解图片理解音频理解视频六、本系列要做什么网上有很多 LLM 教程但大多存在以下问题❌ 只讲理论没有代码❌ 直接调用 HuggingFace跳过核心原理❌ 代码太复杂新手看不懂❌ 缺少系统性东一榔头西一棒子本系列的目标✅从零实现不依赖 LLM 库用 PyTorch 手写每个组件✅循序渐进从分词开始一步步搭建完整模型✅图文并茂复杂概念用图示和类比解释✅可运行代码每篇的代码都能在普通笔记本上跑起来七、系列路线图┌──────────────────┐ │ 第 1 篇本篇 │ │ LLM 是什么 │ └────────┬─────────┘ │ ▼ ┌──────────────────────────────┐ │ 第一阶段基础入门 │ │ 分词 → 嵌入 → 注意力 → GPT │ └──────────────┬───────────────┘ │ ▼ ┌──────────────────────────────┐ │ 第二阶段模型构建 │ │ 前向传播 → 损失 → 反向传播 │ └──────────────┬───────────────┘ │ ▼ ┌──────────────────────────────┐ │ 第三阶段进阶提升 │ │ 微调 → LoRA → 推理优化 │ └──────────────┬───────────────┘ │ ▼ ┌──────────────────────────────┐ │ 第四阶段深入原理 │ │ 架构对比 → 分布式训练 │ └──────────────────────────────┘八、前置要求本系列适合有以下基础的读者✅Python 编程熟悉基本语法、函数、类✅基础数学了解向量、矩阵乘法会复习✅深度学习基础知道什么是神经网络不了解也能跟上不需要❌ 不需要有 GPU代码可在 CPU 运行❌ 不需要有 LLM 经验❌ 不需要精通 PyTorch会逐步讲解九、环境准备在开始下一篇之前请准备好以下环境# 创建虚拟环境推荐python-mvenv llm-envsourcellm-env/bin/activate# Windows: llm-env\Scripts\activate# 安装依赖pipinstalltorch numpy matplotlib jupyter十、小结本篇要点LLM 的本质预测下一个词的概率分布工作流程分词 → 嵌入 → Transformer → 输出发展历史从规则到统计到深度学习到 Transformer能力边界文本生成、问答、推理、多模态下篇预告第 2 篇让 AI 读懂文字——Tokenization 分词技术全解析为什么要把文字拆成碎片BPEByte Pair Encoding算法详解手写一个分词器可视化分词过程参考资料Sebastian Raschka.Build a Large Language Model (From Scratch). Manning, 2024.Vaswani et al. “Attention Is All You Need”. NeurIPS 2017.Hugging Face LLM Course: https://huggingface.co/learn/llm-courseTransformer Explainer: https://poloclub.github.io/transformer-explainer/ 系列文章[第 1 篇] LLM 是什么一篇文看懂大语言模型的前世今生当前[第 2 篇] 让 AI 读懂文字Tokenization 分词技术全解析待更新本文是「LLM 从入门到精通」系列的第 1 篇。

相关新闻