AI 解释性的重要性

发布时间:2026/5/18 10:54:04

AI 解释性的重要性 原文towardsdatascience.com/the-meaning-of-explainability-for-ai-d8ae809c97fa?sourcecollection_archive---------3-----------------------#2024-06-04我们现在还关心我们的机器学习是如何做出决策的吗https://medium.com/s.kirmer?sourcepost_page---byline--d8ae809c97fa--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--d8ae809c97fa-------------------------------- Stephanie Kirmer·发布于 Towards Data Science ·8 分钟阅读·2024 年 6 月 4 日–今天我想谈谈一点哲学讨论一下机器学习中的解释性和风险如何交汇。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/dea845c74d9370ff46f3baf0d29920fd.png图片由 Kenny Eliason 提供来源于 Unsplash我们所说的解释性是什么意思简而言之机器学习中的解释性是指你可以向一个人类用户不一定是技术专家解释模型是如何做出决策的。例如决策树就是一个容易解释的有时被称为“白盒”模型你可以指出“模型将数据分为房屋面积大于 1 的和面积小于或等于 1 的”等等。其他类型的更复杂的模型可以是“灰盒”或“黑盒”——这些模型对于人类用户来说理解起来会越来越困难甚至是不可能的。老学校我在机器学习教育中的一个基础性教训是我们与模型通常是增强型树模型之间的关系最多应该是“信任但要验证”。当你训练一个模型时不要仅仅接受初步预测的表面结果而是要花费一些时间去彻底检验。测试模型在非常异常的离群值上的表现即便这些情况在现实中不太可能发生。如果树足够浅可以绘制出树的结构。使用特征重要性、Shapley 值和 LIME 等技术来验证模型是否使用了与你对主题和逻辑的理解相符的特征。给定树中的特征分割是否与你对该领域的了解一致在建模物理现象时你还可以将模型的行为与我们对事物如何运作的科学知识进行比较。不要仅仅相信你的模型在正确地处理问题而是要进行验证。不要仅仅相信你的模型在正确地处理问题而是要进行验证。引入神经网络随着神经网络的重要性爆炸式增长我们不得不考虑的最大权衡之一就是这种可解释性变得极为困难并且因为架构的工作方式而发生显著变化。神经网络模型在每一层中都对输入数据应用函数将数据以多种方式变化然后最终将数据传递到最终层的目标值。这种作用的结果是与基于树的模型的分支不同输入和输出之间的中间层通常无法合理地被人类理解。你也许可以找到某个中间层中的特定节点并查看其值如何影响输出但将其与人类能够理解的实际、具体输入联系起来通常会失败因为即使是一个简单的神经网络其层次的抽象程度也非常高。这一点可以通过“哈士奇与狼”问题来清楚地说明。一个卷积神经网络被训练来区分哈士奇和狼的照片但经过调查发现模型是根据背景的颜色做出判断的。哈士奇的训练照片比狼的训练照片更不容易出现在雪地中因此每当模型接收到一张雪景背景的图像时它就预测图像中会出现狼。模型使用了人类没有考虑到的信息并基于错误的特征发展出了其内部逻辑。这意味着传统的“这个模型是否‘思考’问题的方式与物理或直观现实相符”的测试变得过时。我们不能像以前那样告诉模型是如何做出选择的而是我们更多地依赖于试错法。为此存在系统性的实验策略本质上是将模型与许多反事实进行测试以确定输入的哪些种类和程度的变化会引起输出的变化但这必然是艰巨且计算密集型的。我们不能像以前那样告诉模型是如何做出选择的而是我们更多地依赖于试错法。我并不是要辩称理解神经网络如何执行其任务的努力完全没有希望。许多学者对可解释 AI文献中称为 XAI非常感兴趣。今天可用的各种模型意味着我们可以并且应该追求许多方法。注意力机制是一项技术进步帮助我们理解模型在处理输入时最关注的部分/受到驱动的部分这非常有帮助。Anthropic 最近发布了一份非常有趣的报告深入探讨了 Claude 的可解释性试图了解哪些单词、短语或图像根据提示使用稀疏自编码器能引发最大的激活。 我在上面描述的工具包括 Shapley 和 LIME也可以应用于一些种类的神经网络比如 CNNs尽管结果可能很难解释。但随着我们增加复杂性按定义人类观众或用户将更难理解和解释模型是如何工作的。考虑随机性这里一个重要的额外因素是要认识到许多神经网络包含随机性因此你不能总是依赖模型在看到相同输入时返回相同的输出。特别是生成性 AI 模型有意地可能会从相同输入生成不同的输出这样它们看起来更“人性化”或富有创造性——我们可以通过[tuning the “temperature”](https://medium.com/harshit158/softmax-temperature-5492e4007f71#:~:textTemperature%20is%20a%20hyperparameter%20of%20LSTMs%20(and%20neural%20networks%20generally,the%20logits%20before%20applying%20softmax.)来增加或减少这种变化的极端性。这意味着有时我们的模型会选择返回一个不是最具概率性期望的输出而是一些“令人惊讶”的内容这增强了结果的创造性。在这种情况下我们仍然可以通过试错的方法来尽量发展对模型行为及其原因的理解但这变得复杂得多。方程式中的唯一变化不再是不同的输入而是输入的变化加上由于随机性引起的未知变动。你的输入变化是否改变了响应还是那是随机性的结果我们常常无法真正知道。你的输入变化是否改变了响应还是那是随机性的结果现实世界的影响那么这把我们带到哪里呢我们为什么要知道模型是如何进行推理的作为机器学习开发者和模型使用者这对我们来说有什么意义如果我们构建的机器学习模型将帮助我们做出决策并塑造人们的行为那么结果的责任就应该由我们承担。有时模型预测会经过人工调解之后再应用于我们的世界但我们越来越多地看到模型被放开生产中的推理结果被直接使用而没有进一步审查。公众现在比以往任何时候都更容易接触到这些极其复杂的机器学习模型。因此对我来说理解模型如何以及为什么做出它所做的决定就像测试一个制造的玩具是否没有铅漆或者一台机器是否在正常使用下不会断裂并伤害到人的手一样是一种尽职调查。这要比测试更难但确保我不会将一个使生活更糟的产品推向市场是我坚定的道德立场。如果你正在构建一个机器学习模型你就有责任对该模型所做的事以及它对人们和世界的影响负责。因此要真正有信心你的模型是安全的你需要一定程度的理解了解它是如何以及为什么返回它的输出的。如果你正在构建一个机器学习模型你就有责任对该模型所做的事以及它对人们和世界的影响负责。顺便提一下读者可能还记得我之前关于欧盟人工智能法案的文章其中提到模型的预测需要经过人工监督并且不得根据受保护的特征做出具有歧视效应的决策。所以即使你不被道德论点所打动对于我们中的许多人来说法律的动机也是存在的。即使我们使用神经网络我们仍然可以使用工具更好地理解我们的模型是如何做出决策的——我们只需要花时间并努力去做到这一点。但是进展呢从哲学角度来看我们可以而且人们确实这么做辩称机器学习技术达到一定复杂度后需要放弃完全理解它的愿望。这可能是对的但我们不应忽视由此带来的权衡和我们所接受的风险。最好的情况是你的生成性 AI 模型主要按照预期运行也许如果你控制了温度并且你的模型非常缺乏创意不会做出太多意外的事情而最坏的情况是你释放了一个灾难因为模型以你完全没有预料到的方式做出反应。这可能意味着你看起来很傻或者可能意味着你的生意结束或者可能意味着对人们造成真正的身体伤害。当你接受模型的可解释性是无法实现的时这就是你自己肩负的风险。你不能说“哦模型就是这样”——当你建造了这个东西并做出了释放它或使用其预测的有意识决定时。各大大小小的科技公司都已接受生成性 AI 有时会产生不正确、危险、歧视性以及其他有害的结果并认为为了获得其感知的好处这些风险是值得的——我们知道这一点因为那些经常表现出不良行为的生成性 AI 模型已经被公开发布。我个人很困扰的是科技行业在没有任何明确考虑或讨论的情况下选择将公众置于这种风险之中但魔 genie 已经放出来了。现在怎么办对我来说追求 XAI 并试图让它跟上生成性 AI 的进步是一个崇高的目标但我认为我们不会看到大多数人能够轻松理解这些模型是如何运作的因为它们的架构非常复杂且具有挑战性。因此我认为我们还需要实施风险缓解措施确保那些负责日益复杂的模型的人对这些影响我们日常生活的产品及其安全负责。由于结果往往是不可预测的我们需要框架来保护我们的社区免受最坏情况的影响。我们不应把所有的风险都视为无法承受但我们需要清醒地认识到风险的存在并且由于 AI 前沿的可解释性挑战机器学习的风险比以往任何时候都更难以衡量和预见。唯一负责任的选择是将这种风险与这些模型所带来的实际利益进行平衡而不是将某些未来版本的预期或承诺利益视为理所当然并据此做出深思熟虑的决策。我的作品请访问 www.stephaniekirmer.com。进一步阅读扩展单一语义性从 Claude 3 Sonnet 中提取可解释特征2024 年 5 月 21 日Anthropic 团队可解释的生成型人工智能调查、概念化与研究议程2024 年 4 月 15 日Johannes Schneider——这篇文章内容非常易读推荐大家阅读。卷积神经网络可解释性方法分析2023 年 1 月Von der Haar 等人可解释的卷积神经网络分类法、回顾与未来方向2023 年 2 月 2 日Ibrahim 等人谷歌的人工智能告诉用户往比萨饼上加胶水、吃石头并制造氯气2024 年 5 月 23 日

相关新闻