你以为 GPT-4 背后是深不可测的算法?其实核心代码不超过 20 行!

发布时间:2026/5/23 21:41:56

你以为 GPT-4 背后是深不可测的算法?其实核心代码不超过 20 行! 你以为 GPT-4 的分词器背后是某种深不可测的算法?打开 Andrej Karpathy 的 minbpe 项目,翻到base.py的第 13 行和第 25 行,你会看到两个加在一起不超过 20 行的函数——get_stats和merge。整个 Byte Pair Encoding 算法的数学本质,就藏在这 20 行代码里。一个统计相邻对出现频次,一个把最频繁的对合并成新 token,循环往复,直到词表填满。就这么简单,简单到让人不安——因为 ChatGPT、Claude、Llama 这些万亿参数模型的第一道数据处理关卡,竟然是一个复杂度不超过本科数据结构课期末作业的贪心算法。为什么一个 C++ 程序员要精读 550 行 Python0.1 分词是 LLM 的"隐形地基"做了十多年 C++ 系统开发的人,初次接触大语言模型时通常会把注意力放在 Transformer 架构、注意力机制、反向传播这些"正统"的深度学习话题上。但你很快就会在实际项目中撞上一系列诡异的问题,而且这些问题的根源全都指向同一个地方——分词器。Karpathy 在他的lecture.md里列了一张问题清单,我第一次看到时后背发凉:为什么 LLM 不能拼写单词?分词为什么 LLM 做不好简单的字符串反转?分词为什么 LLM 在非英语语言上表现更差?

相关新闻