Transformer思想根源PDP:Parallel Distributed Processing读书笔记

发布时间:2026/6/9 4:01:37

Transformer思想根源PDP:Parallel Distributed Processing读书笔记 真理总是简单又朴素一、Parallel Distributed ProcessingIn the examples we have considered, a number of different pieces of information must be kept in mind at once. Each plays a part , constraining others and being constrained by them. What kinds of mechanisms seem well suited to these task demands? Intuitively, these tasks seem to require mechanisms in which each aspect of the information in the situation can act on other aspects, simultaneously influencing other aspects and being influenced by them. To articulate these intuitions, we and others have turned to a class of models we call Parallel Distributed Processing (PDP) models. These models assume that information processing takes place through the interactions of a large number of simple processing elements called units , each sending excitatory and inhibitory signals to other units.在论文之前的例子中已经提到过信息的不同片段在同一时刻需要同时存在大脑中每个部分之间互相约束同时作用这种就是平行分布处理这些模型认为信息处理是通过简单处理单元之间的相互作用来完成的每个单元都会向其他单元发送兴奋或者抑制信号。认知过程本身就是大量信息互相约束的过程这段是PDP的思想的提出第一次提出unit的含义同时又告诉我们unit 的含义是不固定的不同模型里的unit可以表示完全不同层次的信息。In stilI other cases, units stand not for particular hypotheses or goals , but for aspects of these things. Thus a hypothesis about the identity of a word, for example, is itself distributed in the activations of a large number of units.最重要的是这句unit不表示完整概念而表示概念的一部分这是后来深度学习最重要的思想。例如单词DogDog不是一个节点而是被分散到很多unit上的例如unit1,unit2,unii3…每个unit的激活值为0.7,0.2,0.3…,这整个模式才表示Dog这个叫分布式表示。认知记忆语言推理不一定存储再单个符号节点种而可以存储在大量简单单元形成的分布式表示里。二、认知上层是串行底层是并行人类思考的过程是认知层你感受到的到想法A到想法B到想法 ,整个过程是串行状态的转换但是在底层10完个神经元同时计算收敛形成状态A再次并行计算收敛形成状态B。结论人类思维看起来像一个一个符号状态在变化但这些状态很可能是大量神经元并行相互作用后产生的“涌现结果“而不是大脑内部真的存在一个逐条执行规则的符号程序。三、概念、规则等是神经元活动涌现出来的宏观现象微观结构在PDP中指神经元、激活值、连接权重、并行传播例如10000个unit相互连接激活不断变化宏观结构例如记忆概念规则推理语法目标。传统认知科学研究的是宏观层人如何推理人如何记忆人如何学习规则PDP认为这些现象可能都来自更底层的机制所以必须研究微观结构因为宏观认知模型中的各种对象其实只是微观结果涌现性质的近似描述。有时候这种由底层神经元涌现的近似描述可以很充足且准确的描述一宏观过程或者一个 宏观机制但是有时候这种近似描述会失败因为认知具有灵活性泛化能力开发性。四、交互激活模式在PDP模型里面每个unit单元都有一个激活值这个激活值大致表示该单元所代表的事物出现在当前感知输入中的可能程度。激活值不是独立存在的不同假设之间会相互影响如果两个假设彼此一致那么它们应该相互支持相互激活。如果两个假设相互矛盾那么它们应该削弱彼此。五、PDP知识存储在PDP中直接被存储的是单元强度这些强度可以重新生成模式在PDP中记忆不是被存储在某个神经元里而是分布在整个网络的连接权重之中神经元只是访问这些记忆模式的入口而不是记忆本身存储的位置。六、分布式表征知识不是存储在某个专门用于某个模式的单元的连接里而是分布在大量单元之间的连接中即分布式表征。在分布式连接模型中单个神经元不再承接固定意义真正的知识体现在多个单元的联合激活模式中而学习的目标就是调整连接权重使得在特定输入条件下能够稳定地激活正确的模式。

相关新闻