AI时代的信息平权

发布时间:2026/6/12 3:46:12

AI时代的信息平权 一、大语言模型为什么大是必要的1.1 薛定谔之问薛定谔在《什么是生命》一书中提出了一个深刻的问题为什么我们这么大原子这么小在经典原子理论中每个原子携带的信息量非常少一个极小的原子系统不应该具有生命这样复杂的行为大是应对整个世界宏观复杂性的必要条件类比到大语言模型面对复杂的世界任务模型必须足够大才能捕捉和表达这种复杂性。二、为什么选择了语言2.1 语言是人类几千年的世界模型大语言模型之前深度学习成功的案例是 AlphaGo2016年和 AlexNet 的图像分类。但质变发生在大语言模型领域。语言是人类沉淀了几千年的世界模型是可以在人和人之间对齐物理世界的工具2.2 语言的抽象性用美女这个例子说明语言的力量我今天来上课的路上看到一个美女这句话背后隐含的信息几十年的生活经历对美的个人理解每个人有不同的理解但有结构上的相似性语言的本质它是一个抽象丢失了很多信息但保留了人类可以传承的结构性知识人类共享物理世界、相同的学习环境使得语言对齐成为可能大语言模型之所以有效是因为语言本身就编码了人类对世界的理解。如果想要与外星人对齐可能需要其他方法。三、大语言模型的工作原理3.1 两个训练阶段GPT Generative Pretrained Transformer预训练阶段Pretraining使用海量文本数据训练学习说正常的人类语言后训练阶段Post-training微调成对话助手使用特殊符号标记人机对话格式3.2 Next Token Prediction大语言模型本质上是一个**概率分布**基于过去所有看到的文字计算下一个token的概率“好的” → 0.01“大的” → 0.00001Unicode字符→ 各自有概率输出时选择概率最高的继续3.3 为什么它能理解代码写算法题写多了有的可以做到在纸上写完整的三页 A4 代码看一遍修改小错然后直接输入计算机编译运行且正确。原理在某个领域如编程经过过度训练后可以在短期记忆中容纳大量解题步骤写代码变成了机器翻译——从伪代码翻译成实际代码这与BERT系列模型在机器翻译上的表现是类似的。当人类能做到这件事模型没有道理做不到3.4 Self-Attention大语言模型工作时根据上下文context注意到重要的词预测下一个词时后面的词其实已经想得差不多了这与人类解题时的注意力非常相似人类解题注意到某个关键条件题就解出来了模型预测注意到相关上下文下一个token就确定了四、Scaling Law4.1 The Bitter Lesson作者Richard Sutton强化学习领域图灵奖得主从苦涩的教训中学到的是**通用方法的巨大力量**4.2 历史案例算力即智能案例一1980年代的存储技术发现网页增长速度 存储系统容量增长速度→ 结论终有一天一台计算机可以存储世界上所有网页→ Google 是必然的→ 量变引起质变案例二1997年深蓝击败卡斯帕罗夫象棋搜索每增加一层深度分数稳定提升人类智能的本质是算力他们选择的优化路径造加速器超级计算机 专用下棋电路为什么因为算法复杂度是指数级的加速硬件更有效案例三2016年 AlphaGo同样的规律再次发生用类似图像识别的卷积神经网络处理棋盘蒙特卡罗搜索替代 Alpha-Beta 剪枝案例四大语言模型GPT-3 训练 175B 参数的模型时没人知道能否成功只是相信小规模实验可以外推人类在试着试着中造出了智能机器4.3 Scaling Law 论文的核心右图每一条曲线 固定算力如 6×10^18 到 3×10^19横轴数据集大小纵轴Training Loss智能程度结论算力越多 → 可用更多数据 → 更大参数 → 更好模型“人类的智能不过是算力”五、Agentic AI 时代5.1 给 AI 一个草稿纸如果你把所有东西都放在脑子里你就是一个**有限状态机。如果你有了 paper 和 pencil你就是一个图灵机**。类比到 AIworkspace AI 的草稿纸目录 工作区目录里的 README、docs、源代码、测试文件 记忆组织5.2 Git给 AI 量身定制的版本控制Git 的本质管理目录的快照snapshots类似于 Persistent Data Structure任意修改后都可以退回过去的快照Git 给了 AI 一个平行宇宙可以Cherry-pick任意版本的内容可以开多条世界线并行尝试解决了死亡循环问题5.3 死亡循环Death Loop大模型启动时的状态只有训练好的参数可能有一个 system prompt没有记忆没有 short-term memory游戏比喻每天从同一个地方醒来丢掉所有记忆重新探索世界可能被打死第二天重来AI 的情况每次打开项目看起来都是全新的它根据当前任务再改再改再改…解决方案用文件系统记录进度plan.md、进度标记等5.4 AI 完成任务的流程1. 接收任务 ↓ 2. 提出规划粗粒度 plan ↓ 3. 推理细化逐步拆解 ↓ 4. 写计划文件plan.md ↓ 5. 执行写代码、测试、调试 ↓ 6. 出错 → 修复 → 重试5.5 工具加持工具类型作用计算器123×456 不再需要心算代码检查器检查低级错误单元测试验证实现是否符合预期Debug 工具定位问题CoNtinue/Cline 等 coding agent 的工作方式理解任务调用工具执行命令检查结果出错则修复5.6 为什么 Cursor/AI Coding 工具火爆人类程序员习以为常的工作方式工作区、版本控制、测试恰好给 AI 搭建了一个完美的舞台。这种工作方式并非程序员专属扩展到学习场景lecture notes → 目录作业完成情况 → README错题本 → 记录错误复习计划 → plan.md实际应用问 AI下一步应该做什么让 AI根据我的薄弱点出模拟题定时任务每天早上爬取天气预报六、人类智慧的核心分解问题6.1 Prompt Engineering 的本质Prompt Engineering 本质上是attention engineering——你希望 AI 注意到什么。6.2 分解问题 构建合适的抽象为什么分解问题很重要如果直接让 AI 做一个大项目它会给你一个平庸的平均解但如果你能用独特的视角分解问题可以直接得到产品级的成果可以在设计空间里探索更好的方案6.3 操作系统中的经典抽象System Call Interface用户应用原神、Steam→ 系统调用接口 → Linux 内核千万行代码特点接口层非常小时你只需要用的那部分更少这是经典的抽象Instruction Set Architecture应用程序 → 指令集 → 硬件RISC-V 就是这样的抽象函数/模块边界register_user() 被多处调用↓如果参数变了所有调用都要改↓这就是系统设计的有趣之处6.4 反常规设计案例传统的课堂系统前端网页 后端服务 → 函数调用耦合导出 lecture notes 需要额外处理设计:点击按钮 → 写文件到目录前端只负责写文件不管谁来读接口变成一个目录存放日志日志格式是约定的协议任何遵循协议的程序都可以读取好处前端和后端彻底解耦可以并行让 AI 实现多个工具不会污染其他系统6.5 人类 vs AI方面人类AI规划方式先做基础设施和抽象直接开干出了问题再修日志处理边打印边看及时终止打印满屏后才看浪费上下文抽象能力主动设计协议和边界依赖指令工具意识主动写 test framework需要明确告知LLMNext Token PredictionSelf-AttentionScaling Law算力即智能量变引起质变Agentic AI workspace tool memory management人类的核心竞争力分解问题的能力 设计抽象的能力做 sys 核心的点在于设计 Protocol 和系统边界提前想好设计可以帮助确定后续系统不会失控提示词 :Think step by stepKeep design tiny and explicitStructure help around short planNext code change, minimum testPrefer debugging mindset避免:不要一下子写完所有代码不要跳过抽象层七、用 AI 实现 RISC-V 操作系统用AI实现一个最小的 RISC-V 操作系统内核record分解任务GPT 5.5 给出的分解创建必要的文件结构初始化 QEMU 环境实现最小内核入口创建多个内核线程实现线程切换展示调度AI 的工作过程创建目录结构source/,include/写 linker script 和 Makefile实现头文件kernel.h 等写线程管理和上下文切换代码写汇编代码处理上下文切换Make 编译遇到错误Casting pointer from integer→ 修复success人类智慧的体现给 AI 分解任务观察 AI 的执行过程当日志太长时主动终止如果 AI 不主动写 test framework则显示告知需要附录Content-as-Code时代内容即代码我们甚至没有完全准备好。“人类的智能不过是算力”从象棋到围棋再到大语言模型这条规律反复验证。量变引起质变的条件只有找到那个能引起质变的事情量变才有意义。否则是在原地踏步。古法编程的时代已经过去了现在 AI 时代智能变得很便宜。你需要的是驾驭 AI的能力不是学如何超过 AI而是学会如何用好 AI找到一条能走的路无限恐怖时代的到来当你把AI 和scalable 的基础设施结合起来可能性是无限的。信息平权的时代: 后续自学能力强的同学真的是起飞的时代

相关新闻