
嗨大家好我是书到用时方恨少!一名在 AI 探索之路上摸爬滚打却依旧乐此不疲的博主。在初学自然语言处理NLP时你一定被“词向量”、“Word2Vec”、“Word Embedding”这几个词绕晕过。它们到底谁是方法、谁是结果今天这篇博客咱们就从最基础的文本张量说起一路聊到One-Hot、Word2Vec的 CBOW 与 Skip-gram最后彻底讲清Word2Vec 与 Word Embedding 的区别和适用场景。全程大白话包你读完通透✨一、文本张量让文字“可计算”的第一步文本张量简单说就是把一段段文字转换成计算机能处理的数字矩阵多维数组。比如一句话经过处理后会变成一个形状为(batch_size, sequence_length, embedding_dim)的张量然后才能喂给神经网络。那怎么把单词变成数字呢常见方法有这么几种️One-Hot 编码独热编码整数编码Word Embedding词嵌入下面我们就从最朴素的 One-Hot 开始一步步引出今天的主角。二、One-Hot 编码孤独的“高冷”向量One-Hot 的思路超级直接假设词表里有 V 个词每个词就是一个长度为 V 的向量只有它自己那个位置是 1其他全是 0。# 词表: [我, 爱, AI, 学习]我-[1,0,0,0]AI-[0,0,1,0]优点简单、直观。缺点维度灾难词表多大向量就多长动不动几万维。语义缺失任意两个词的内积都是 0看不出“国王”和“王后”有任何关系。于是人们开始思考能不能用低维、稠密、连续的向量来表示词语让向量本身就包含语义信息Word Embedding词嵌入的思想应运而生。三、Word Embedding词嵌入给词语一个“语义空间”Word Embedding就是用一个低维比如 100~300 维的稠密向量来表示一个词。最关键的是——语义相近的词它们的向量距离也相近。 经典例子国王 - 男人 女人 ≈ 王后这在向量空间里是真的可以算出来的Word Embedding 背后的哲学是分布式假设上下文相似的词其语义也相似。它不再是一个独立的符号而是让词语拥有了“坐标”彼此之间有了远近、方向。注意Word Embedding 本身是一个宽泛的概念就像“交通工具”。获得它的方法有很多Word2Vec、GloVe、FastText甚至后来的 BERT 都属于“词嵌入”的范畴。四、Word2Vec让词嵌入火出圈的“大明星”很多人把 Word2Vec 当成 Word Embedding 的同义词其实Word2Vec 是产生 Word Embedding 的一种高效模型由 Google 的 Mikolov 在 2013 年提出。它包含两个经典结构 CBOW连续词袋模型核心思想用上下文预测中心词。比如句子 “我 / 爱 / 学习 / NLP”窗口大小为 2 时用[我, 爱, NLP]来预测学习。训练速度快对常见词效果好适合小规模数据 Skip-gram跳元模型核心思想用中心词预测上下文。还是上面的句子用学习去预测我、爱、NLP。对低频词更友好在大语料上能学到更精细的语义训练比 CBOW 稍慢训练过程中还会用到负采样、层次 Softmax等优化技巧。训练结束后隐藏层的权重矩阵就是我们梦寐以求的词向量也就是 Word Embedding 的一种具体成果。五、Word2Vec Word Embedding区别、联系与适用场景这是很多初学者最迷糊的地方咱们直接上表格对比 维度Word EmbeddingWord2Vec定义词的分布式向量表示是一种概念/结果生成词向量的具体模型/方法范畴广义包含各种词向量技术狭义特指 CBOW 和 Skip-gram 训练框架产出物词向量本身可通过训练得到静态词向量️代表算法GloVe、FastText、BERT 等均可产生CBOW、Skip-gram⏱️静态/动态可以是静态如 GloVe或动态如 BERT产出的词向量是静态的一词一向量 一句话总结Word Embedding 是“汽车”Word2Vec 是“特斯拉”——前者是一大类后者是其中一个优秀的实现。 适用场景怎么选Word2Vec需要快速获取质量不错的静态词向量语料规模适中想要捕捉局部上下文语义文本分类、情感分析、短文本聚类、作为深度学习 Embedding 层初始化资源受限时可加载 Google 预训练的 Word2Vec 权重直接使用广义 Word Embedding如 GloVe、FastTextGloVe 融合了全局共现统计在词类比任务上常优于 Word2VecFastText 引入子词信息对生僻词、拼写错误更友好需要OOV词表外词处理能力时FastText 是更好选择至于 ELMo、BERT 等产生的上下文相关词嵌入则属于更“高阶”的 Embedding适合理解复杂语义小贴士不要把 Word2Vec 当成唯一但它在学习路线中绝对是不可替代的里程碑。六、总结 从高维稀疏的One-Hot到低维稠密的Word Embedding我们有了让计算机“理解”词语语义的钥匙。而Word2Vec用CBOW和Skip-gram两种优雅设计让高质量词向量的获取变得高效又实用。搞清了它们的层级关系Word Embedding是目标与概念Word2Vec是经典手段你就不会再对着这两个词一脸茫然了。希望这篇分享能帮你打通任督二脉如果你觉得有帮助欢迎点赞、收藏、关注你们的支持是我持续输出的最大动力我是书到用时方恨少!一名 AI 探索者在学习路上乐于分享一切让大脑“亮灯”的知识。