
CS336从头开始构建语言模型这是斯坦福大学2026年春季的过往课程过往课程还有2025年春季和2024年春季。课程关联了斯坦福自然语言处理组和斯坦福基础模型研究中心。课程团队授课教师为辰典则和梁珀西课程助教有赫尔曼·布伦博格、马塞尔·罗德和曹史蒂文。课程安排授课时间为周一和周三下午3:00 - 4:20地点在斯基林礼堂。课程录像可在YouTube播放列表查看。办公时间方面梁珀西是周五上午11:00 - 12:00在盖茨楼366室辰典则是周二上午11:00 - 12:00在盖茨楼364室马塞尔·罗德是周二下午4:30 - 5:30在盖茨楼498室周三下午4:30 - 5:30在盖茨楼415室赫尔曼·布伦博格是周三下午1:30 - 2:30周五下午1:30 - 2:30在盖茨楼392室曹史蒂文是周一下午4:30 - 5:30周四上午9:30 - 10:30在盖茨楼200室。学生应在公共Slack频道提出所有与课程相关的问题所有通知也将在Slack发布。如有个人事务请发邮件至_cs336 - spr2526 - stafflists.stanford.edu_。课程内容课程介绍语言模型是现代自然语言处理NLP应用的基石开创了用单一通用系统解决一系列下游任务的新范式。本课程旨在让学生全面了解语言模型引导他们从头开始开发自己的语言模型将带领学生经历语言模型创建的各个环节包括预训练数据的收集与清理、Transformer模型构建、模型训练以及部署前的评估。先修要求一是要熟练掌握Python课程作业大多使用Python完成且学生需要编写的代码量至少比其他课程多一个数量级。二是具备深度学习和系统优化经验课程的很大一部分内容是让神经语言模型在多台机器的GPU上快速高效运行学生需熟悉PyTorch并了解内存层次结构等基本系统概念。三是掌握大学微积分、线性代数如MATH 51、CME 100学生应熟悉矩阵/向量表示法和运算。四是掌握基础概率与统计如CS 109或同等课程学生应了解概率、高斯分布、均值、标准差等基础知识。五是掌握机器学习如CS221、CS229、CS230、CS124、CS224N学生应熟悉机器学习和深度学习的基础知识。需注意这是一门5学分的课程实践内容较多要合理安排时间。课程作业作业安排作业1是基础要实现训练标准Transformer语言模型所需的所有组件训练一个简易语言模型作业2是系统要使用高级工具对作业1中的模型和层进行性能分析和基准测试用自己的Triton实现FlashAttention2优化注意力机制构建作业1模型训练代码的内存高效分布式版本作业3是扩展要理解Transformer各组件的功能查询训练API以拟合缩放定律预测模型扩展情况作业4是数据要将原始的Common Crawl数据转成可用的预训练数据进行过滤和去重以提高模型性能作业5是对齐与推理强化学习要应用监督微调SFT和强化学习训练语言模型使其在解决数学问题时具备推理能力还有可选部分2是实现并应用安全对齐方法如直接偏好优化DPO。所有目前暂定截止日期见课程安排。自学GPU计算资源如果在家自学可从云服务提供商获取GPU计算资源完成作业。2026年3月28日单个B200 GPU的公开价格Modal每小时6.25美元每月提供30美元的免费计算额度仅按实际使用的计算量收费Lambda Labs每小时6.69美元RunPod每小时4.99美元Nebius每小时5.50美元抢占式实例每小时3.05美元Together每小时7.49美元最少需8个GPU长期使用更优惠。为方便和节省成本建议先在CPU上调试代码的正确性再使用作业中建议数量的GPU完成训练或进行GPU操作基准测试。荣誉准则和斯坦福大学的其他课程一样严格遵守学生荣誉准则。合作规定允许成立学习小组但学生必须独立理解并完成作业每人提交一份作业若以小组形式完成作业要在作业开头注明小组成员姓名。AI工具使用方面可以使用ChatGPT等大语言模型解决低级编程问题或语言模型的高级概念问题但禁止直接用其解决作业问题强烈建议在完成作业时在集成开发环境IDE中禁用AI自动补全功能不过非AI自动补全是允许的。现有代码使用方面除非资料另有说明否则请勿查看现有代码。作业提交所有作业需在截止日期前通过Gradescope提交请勿通过邮件提交。如有问题可在Slack提问或联系课程助教。在截止日期前可多次提交只批改最后一次提交的作业。提交部分完成的作业也比不提交好。延迟提交政策每位学生有6个延迟提交日每个延迟提交日可将截止日期延长24小时。每份作业最多可使用3个延迟提交日。重新评分申请如果认为课程团队在评分时存在客观错误可在成绩公布后3天内通过Gradescope提交重新评分申请。赞助商感谢Modal为本次课程提供计算资源赞助。课程安排课程安排以表格形式呈现包含序号、日期、课程内容、课程资料和截止日期等信息。如3月30日周一课程概述、分词梁珀西作业1发布4月15日周三内核、Triton梁珀西作业1截止作业2发布等。5月25日周一是阵亡将士纪念日无课程。