统计显著性骗局

发布时间:2026/5/20 9:36:37

统计显著性骗局 原文towardsdatascience.com/the-statistical-significance-scam-db904be36714?sourcecollection_archive---------0-----------------------#2024-11-09深入剖析科学最爱工具的缺陷https://medium.com/caiparryjones96?sourcepost_page---byline--db904be36714--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--db904be36714-------------------------------- Cai Parry-Jones·发布于Towards Data Science ·13 分钟阅读·2024 年 11 月 9 日–https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6da0f69998c099f6c5f249b3cc38e731.png来源unsplash.com统计显著性就像是研究界的快餐车。你驶近研究拿到你的“显著性套餐”然后——你就有了一个可以和所有朋友分享的精彩结论。而这不仅方便读者也让研究人员的工作变得更轻松。为什么要做复杂的推销当你只需说两个字就能搞定呢但这里有一个陷阱。那些我们方便忽略的复杂公式和细节它们才是问题的核心。当研究人员和读者过于依赖某一种统计工具时我们可能会犯下大错正如那次几乎颠覆物理法则的错误。2011 年著名的 CERN 实验室的物理学家宣布了一项震惊世界的发现中微子可能比光速还快。这一发现威胁到推翻爱因斯坦的相对论理论——现代物理学的基石。研究人员对他们的结果充满信心突破了物理学严格的统计显著性标准——99.9999998%。案子就这样结了是吧其实不然。随着其他科学家对实验进行了审查他们发现了方法学上的缺陷最终未能复制实验结果。尽管这一原始发现具有令人印象深刻的“统计显著性”但结果证明是错误的。在这篇文章中我们将深入探讨为什么你不应该本能地信任一个统计显著的研究结果。更重要的是为什么你不应该习惯性地忽视那些非统计显著的结果。TL;DR统计学显著性的四个关键缺陷它是凭空捏造的统计学显著性/不显著性边界往往是凭空捏造的或者懒散地取自 95%置信度的一般标准。它并不意味着大多数人们认为的那样统计学显著性并不意味着“有 Y%的机会 X 是真的”。这很容易被操纵而且经常被操控由于大规模实验随机性经常被标记为具有统计学显著性。这与结果的重要性无关统计学显著性与差异的意义无关。缺陷 1这是凭空捏造的统计学显著性只是人类创造的一条分界线没有任何数学支持。想想看这个通常被认为是客观度量的东西本质上完全是主观的。数学部分通过置信度的数值度量在决定显著性之前提供了一步。最常用的形式是假设检验它被称为p 值。这提供了一个实际的数学概率说明测试数据结果不仅仅是由随机性造成的。例如p 值为 0.05 意味着有 5%的机会看到这些数据点或更极端的情况是由于随机机会或者说我们有 95%的信心认为结果不是由于偶然性。例如假设你认为一枚硬币是不公平的偏向正面即正面朝上的概率大于 50%。你投掷硬币 5 次每次都落在正面。假设硬币是公平的那么它出现正面的概率为 1/2 x 1/2 x 1/2 x 1/2 x 1/2 3.1%这是纯粹由随机性引起的机会。但这就足以说明它在统计学上显著吗这取决于你问谁。通常决定在哪里划定显著性边界的人比起底层数据本身更能影响一个结果是否显著。鉴于这一主观性的最终步骤在我自己的分析中我通常会向研究的读者提供置信度百分比而不是二元的显著/不显著结果。最终步骤太过依赖个人观点。怀疑者“但是有标准来决定统计学显著性。”我常常听到针对我上面论点的反驳我谈论这个话题不少——这让我的学术研究女友很高兴。对此我的回应通常是我“当然如果你必须遵守一个特定的标准例如出于监管或学术期刊发布的原因那么你别无选择只能遵循这个标准。但如果不是这样那就没有理由不遵守。”怀疑者“但是有一个普遍的标准。那就是 95%的置信度。”在那个对话时刻我尽量不翻白眼。仅仅因为 95% 是常规标准就决定测试的统计显著性点为 95%坦率地说这是懒惰的做法。它没有考虑正在测试的内容的上下文。在我的日常工作中如果我看到有人在进行实验时使用 95% 的显著性阈值却没有提供背景说明我会觉得这是个警告信号。这表明这个人要么不理解选择的含义要么不关心实验的具体业务需求。一个例子可以最好地解释为什么这如此重要。假设你在一家科技公司担任数据科学家UI 团队想知道“为了最大化点击率CTR我们应该选择红色还是蓝色作为‘订阅’按钮的颜色”UI 团队对这两种颜色都没有偏好但必须在本周结束前选择一个颜色。经过一些 A/B 测试和统计分析我们得出了结果https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/eaf109069c5d5b4801cd13b0e848d9c0.png图片由作者创作。按标准做事的数据科学家可能会回来告诉 UI 团队“不幸的是实验发现红色按钮和蓝色按钮的点击率没有统计显著差异。”这是一个糟糕的分析完全是因为最后的主观判断。如果数据科学家主动去了解上下文批判性地理解“UI 团队对颜色没有偏好但必须在本周结束前选择一个”的背景那么你应该把显著性点设置得非常高理论上为 1.0即统计分析不再重要UI 团队可以选择那个具有最高点击率的颜色。鉴于数据科学家等可能没有完整的背景信息来确定最佳显著性点最好也更简单将这个责任交给那些掌握完整业务背景的人——在这个例子中就是 UI 团队。换句话说数据科学家应该告诉 UI 团队“实验结果显示蓝色按钮的点击率更高且有 94% 的置信度证明这一结果不是由随机机会造成的。” 确定显著性的最后步骤应该由 UI 团队做出。当然这并不意味着数据科学家不应该教育团队什么是“94% 的置信度”以及清楚地解释为什么统计显著性最好由他们来决定。缺陷 2它并不意味着大多数人们认为的那样假设我们生活在一个稍微完美的世界里第一点的问题不再存在。那个“沙线”图形永远是完美的万岁假设我们想要进行一个实验统计显著性线设置为 99% 的置信度。几周后最终我们得出了结果统计分析发现它是统计上显著的再次万岁但这到底意味着什么呢在假设检验的情况下常见的看法是假设正确的概率为 99%。这完全错误。它的意思是在这个实验中随机性导致观察到如此极端的数据或更极端数据的概率为 1%。统计显著性并没有考虑实验本身是否准确。以下是统计显著性无法捕捉到的一些例子样本质量所采样的总体可能存在偏差或不具代表性。数据质量测量错误、缺失数据或其他数据质量问题未得到解决。假设有效性统计测试的假设如正态性、独立性可能被违反。研究设计质量实验控制差没有控制混杂变量测试多个结果而没有调整显著性水平。回到引言中提到的例子。经过未能独立复制初步发现的失败后原始 2011 年实验的物理学家宣布他们发现了测量设备主时钟中的一个漏洞即数据质量问题这导致他们撤回了最初的研究。下次你听到一个与常识相悖的统计学显著性发现时不要那么快相信它。缺陷 3很容易被破解且经常被破解鉴于统计显著性完全关注某事因随机性发生的可能性一个更关心获得统计学显著结果而不是揭示真相的实验者很容易操控系统。从两个骰子掷出两个一的概率是(1/6 × 1/6) 1/36或 2.8%这是一个非常罕见的结果许多人会认为它在统计学上显著。但如果我掷出超过两个骰子呢自然至少掷出两个一的概率会增加3 个骰子≈ 7.4%4 个骰子≈ 14.4%5 个骰子≈ 23%6 个骰子≈ 32.4%7 个骰子≈ 42%8 个骰子≈ 51%12 个骰子≈ 80%*至少掷出两个骰子得到一相当于1即 100%确定减去掷出零个一的概率减去掷出仅有一个一的概率。P(零个一) (5/6)^nP(恰好一个一) n * (1/6) * (5/6)^(n-1)n 是骰子的数量所以完整的公式是1 — (5/6)^n — n(1/6)*(5/6)^(n-1)*假设我进行一个简单实验最初的理论是一比其他数字更有可能被掷出。我掷了 12 个不同颜色和大小的骰子。以下是我的结果https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b1e420a68854f673406ba4c6ecf817e7.png图片由作者创建。不幸的是我经过计算的至少获得两个1 点的希望已经破灭……其实现在想想我并不是真的想要两个 1 点。我更感兴趣的是大红色骰子的概率。我相信从它们中掷出六点的机会很大。啊看起来我的理论是正确的那两个大红色骰子竟然都掷出了六点这种情况偶然发生的概率只有 2.8%。非常有趣。接下来我将根据我的发现写一篇论文并计划将其发表在一个接受我结果为统计学上显著的学术期刊上。这个故事听起来可能有些牵强但现实与此并不如你想象的那样遥远尤其是在备受尊敬的学术研究领域。事实上这种事情发生得足够频繁以至于形成了一个名声p-hacking就是其中之一。如果你感到惊讶深入了解学术体系将能阐明为什么在科学领域中许多看似与科学方法背道而驰的做法会如此频繁地发生。在学术界想要成功地发展事业是非常困难的。例如在 STEM 学科中只有0.45%的博士生能成为教授。当然一些博士生并不想从事学术职业但大多数人是有这个愿望的根据这项调查比例为 67%。所以粗略地说如果你完成了博士学位并希望在学术界发展事业你成为教授的机会大约是 1%。考虑到这些几率你需要认为自己是非常杰出的或者更准确地说你需要别人这么认为因为你无法自己雇佣自己。那么杰出是如何衡量的呢也许并不令人意外学术成功的最重要衡量标准是他们的研究影响力。常见的作者影响力衡量标准包括 h 指数、g 指数和 i10 指数。它们的共同点在于它们高度关注引用次数也就是他们的研究成果被其他已发表的工作提及了多少次。知道了这一点如果我们希望在学术界做得好我们就需要专注于发表那些可能会被引用的研究。如果你将研究成果发表在高评级的学术期刊中你更有可能被引用。而且由于88%的顶级期刊论文是统计显著的如果你的研究具有统计显著性你更有可能被这些期刊接受。这使得许多出于良好意图但又受到职业驱动的学者走上了一条滑坡之路。他们开始时会采用这样的科学方法来撰写研究论文https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/95c193b98180ec75718cd37c9045573e.png使用科学方法进行实验研究发表的决策树。由作者使用Mermaid创建。但他们最终扭曲了自己的方法论看起来像是科学的表象——但实际上他们已经抛弃了正统的科学方法https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/119a202c44dcf7e2087c7b07dc3002f4.png最大化每个实验发表成功的决策树。由作者使用Mermaid创建。由于决策图表让研究者在发现显著结果之后写论文因此期刊审稿人无法批评实验中的 p-hacking 行为。这理论上是如此。但现实中真的经常发生吗答案是响亮的“是”。事实上大多数科学研究无法被同行学者重复。无法重复意味着一篇研究论文试图复制另一篇研究论文的实验但结果却是统计上出乎意料的。通常原始论文中的统计显著结果在重复实验中并不显著或者在某些情况下结果的统计显著性方向是相反的缺陷 4它与结果的重要性无关最后统计显著性并不关心差异的规模。从这个角度思考——统计显著性基本上只是告诉你“嘿这个差异可能不是由于随机偶然”但它并没有告诉你这个差异在现实世界中是否真的重要。假设你测试一种新药并发现它比安慰剂减少了 0.0001%的头痛痛感。如果你在数百万人的样本中进行此测试那么这个微小的差异可能是统计显著的因为你的样本量非常大。但……谁在乎 0.0001%的疼痛减少呢在实际意义上这是毫无意义的另一方面你可能会发现一种药物能减少 5%的疼痛但尚未进行大规模实验来证明其统计学意义。在医学领域很可能存在许多这种情况因为如果所讨论的药物价格便宜制药公司就没有动力进行实验因为大规模的医学测试非常昂贵。这就是为什么在讨论影响效果差异有多大时必须与统计学意义分开来看。在现实世界中你需要两者——既要有不太可能是随机的差异又要有足够大的差异才能真正产生影响。这一错误反复出现的一个例子是当发现某些致癌物即导致癌症的物质时。例如2015 年《卫报》的一篇文章提到“世界卫生组织表示培根、火腿和香肠与香烟并列为癌症的主要原因将腌制和加工肉类与石棉、酒精、砒霜和烟草放在同一类别。”这完全是误导信息。实际上培根、火腿和香肠与石棉、酒精、砒霜和烟草属于同一类。然而这些类别并不表示致癌物的影响规模而是世界卫生组织对这些物质是否为致癌物的信心程度即统计学意义。由加工肉类引起的癌症病例规模存在争议因为尚未进行任何随机对照试验RCT。支持加工肉类导致癌症的最具破坏性的研究之一是在 2020 年英国进行的一项观察性研究。该研究发现平均每天摄入超过 79 克红肉和加工肉类的人患肠癌的风险比每天摄入不到 11 克的人高出 32%。然而要了解真正的风险我们需要了解有多少人处于患肠癌的风险中。在研究中每 10,000 个每天摄入不到 11 克加工和红肉的人中有 45 人被诊断为肠癌而每天摄入 79 克加工和红肉的人中则有 59 人被诊断为肠癌。也就是说每 10,000 人中额外增加了 14 例肠癌病例或者 0.14%。在英国肠癌的生存率为53%因此粗略估算加工肉类中致癌物质导致你死亡的几率是 0.07%。将此与《卫报》提到的另一种物质——烟草进行比较。癌症研究表示“烟草是英国癌症和死亡的最大可预防原因也是全球最大可预防的疾病和死亡原因之一。2021 年烟草导致英国约 75,800 人死亡——约占所有死因的十分之一11%。”首先哇。别抽烟。其次由烟草引起的癌症死亡率是 11%/0.07% 157倍高于加工肉类回到文章中的引用“培根、火腿和香肠与香烟一起成为癌症的主要原因。”简单来说这是假新闻。总结总之虽然统计学显著性在验证定量研究中有其作用但理解其严重局限性至关重要。作为读者我们有责任以批判性的眼光看待“统计学显著性”的说法。下次你遇到宣扬“统计学显著”结果的研究或文章时不妨花点时间问问自己统计学显著性阈值是否适合该情境这项研究设计和数据收集过程有多稳健研究人员是否可能从事了 p-hacking 或其他可疑的做法该效应大小的实际意义是什么通过提出这些问题并要求围绕统计学显著性进行更为细致的讨论我们可以帮助推动更加负责任和准确地使用这一工具。随时间推移的分析我实际上认为统计学显著性之所以获得如此过度的突出地位主要原因在于这个名称。人们将“统计”与数学和客观联系在一起将“显著性”与“重要性”联系在一起。我希望这篇文章能够说服你这些关联实际上只是谬误。如果科学界和更广泛的社区希望解决过度突出的问题他们应该认真考虑重新命名“统计学显著性”。也许可以叫做“机会阈值检验”或“非随机置信度”。不过这样做会失去其“大麦克”便利性。

相关新闻