通往AGI之路:基于性能与通用性的等级划分框架深度解析

发布时间:2026/5/29 0:20:38

通往AGI之路:基于性能与通用性的等级划分框架深度解析 引言人工通用智能Artificial General Intelligence简称AGI是人工智能研究领域最具深远意义的概念之一它描述了一种能够在大多数任务上达到或超越人类能力水平的AI系统。随着机器学习模型的快速发展AGI的概念已经从哲学辩论的议题转变为具有近期实践相关性的研究主题。部分专家认为最新一代大语言模型中已经出现了AGI的火花一些预测认为AI将在大约十年内广泛超越人类甚至有人断言当前的大语言模型已经是AGI。然而AGI概念的模糊性和缺乏统一的操作化定义给研究进展的评估、风险的识别以及政策的制定带来了显著挑战。2024年Google DeepMind研究团队在ICML会议上发表了题为《Levels of AGI: Operationalizing Progress on the Path to AGI》的重要论文该论文由Meredith Ringel Morris、Jascha Sohl-Dickstein、Noah Fiedel、Tris Wartkentin、Allan Dafoe、Aleksandra Faust、Clement Farbare和Shane Legg等研究者共同完成。这篇论文提出了一个系统性的AGI分类框架引入了基于性能深度和能力广度的等级划分体系为AGI研究提供了统一的讨论语言和评估标准。本文将深入解读这篇开创性论文系统分析其提出的AGI定义原则、等级划分框架、基准测试要求以及风险与自主性的关联分析并结合相关学术文献探讨该框架对AGI研究和人工智能安全领域的理论贡献与实践意义。1 AGI概念的历史演变与定义困境1.1 从图灵测试到现代AGI定义AGI概念的演变历程可以追溯到人工智能研究的早期阶段。1950年艾伦·图灵提出了著名的图灵测试这或许是尝试操作化AGI类概念最广为人知的努力。图灵的模仿游戏试图操作化机器是否能够思考的问题要求人类通过交互来区分文本是由另一人类还是机器产生的。然而这个测试作为最初构想的思维实验存在诸多批评在实践中该测试往往突出了欺骗人们的容易程度而非机器的智能。鉴于现代大语言模型已经能够通过某些形式的图灵测试这一标准显然不足以操作化或基准化AGI。正如图灵所认识到的机器是否能够思考是一个有趣的哲学和科学问题但似乎与机器能够做什么的问题正交后者更容易测量对于评估影响也更为重要。哲学家约翰·塞尔提出了强人工智能的概念他认为根据强人工智能的观点计算机不仅仅是研究心智的工具相反经过适当编程的计算机确实就是心智从某种意义上说经过正确编程的计算机可以被说成是真正理解并具有其他认知状态。虽然强人工智能可能是实现AGI的一条路径但在确定机器是否具有强人工智能属性如意识的方法上科学界尚未达成共识这使得这种面向过程的框架难以实际操作。1997年Mark Gubrud在关于军事技术的文章中首次使用了人工通用智能这一术语将AGI定义为在复杂性和速度上与人类大脑相当或超越人类大脑的AI系统能够获取、操作和推理一般知识并且能够在本质上任何工业或军事操作阶段使用而这些阶段原本需要人类智能。这一定义强调了与人类大脑复杂性相当的过程而不仅仅是能力。虽然现代机器学习系统底层的神经网络架构受到人类大脑的松散启发但基于Transformer架构的成功表明严格基于大脑的过程和基准并非AGI的固有要求。1.2 认知任务与学习能力视角Legg和Goertzel在2001年将AGI这一术语在计算机科学家中普及开来将AGI描述为能够完成人们通常能够完成的认知任务的机器。这一定义显著地聚焦于非物理任务即不要求机器人具身化作为AGI的前提。然而像许多AGI定义一样这一框架在什么任务和哪些人等选择上存在模糊性。在《技术奇点》一书中Shanahan提出AGI是不专门用于执行特定任务而是能够学习执行人类能够执行的广泛任务范围的人工智能。这一定义的一个重要特性是将元认知能力学习作为AGI的要求。这种对学习能力的强调反映了通用智能的核心特征适应性。一个真正通用的智能系统必须能够应对训练时未曾遇到的新情况和新任务这要求系统具备学习和适应的能力而不仅仅是执行预编程的技能。Marcus将AGI定义为任何智能可能有很多种的简写这种智能具有与人类智能相当或超越人类智能的灵活性、通用性、资源fulness和可靠性。这一定义同时捕捉了通用性和性能通过包含可靠性对灵活性的提及值得注意因为像Shanahan的表述一样这暗示了元认知能力如学习新技能的能力是使AI系统足够通用的必要条件。此外Marcus提出了五项任务来衡量成功理解电影、理解小说、在任意厨房做饭、编写无错误的10000行程序、将自然语言数学证明转换为符号形式。虽然这一定义附带了基准测试很有价值但需要更多工作才能使这一基准测试变得全面。1.3 经济价值与能力评估视角OpenAI的章程将AGI定义为在大多数经济上有价值的工作中超越人类的高度自主系统。这一定义在能力而非过程标准方面具有优势因为它关注与底层机制无关的性能此外这一定义提供了潜在的衡量标准即经济价值。然而这一定义的一个缺陷是它没有捕捉到可能构成通用智能的所有标准。有些与智能相关的任务可能没有明确的经济价值例如艺术创造力或情感智力。这些属性可能在经济指标中间接体现但经济价值是否捕捉到智能的全部范围仍不清楚。另一个挑战是将AGI框架化为达到一定水平的劳动替代需要现实世界的部署而关注能力可能只需要AGI执行任务的潜力。Suleyman提出了人工能力智能Artificial Capable Intelligence简称ACI“的概念指具有足够性能和通用性以在开放世界中完成复杂、多步骤任务的AI系统。具体而言Suleyman提出了一个基于经济的ACI技能定义他称之为现代图灵测试”其中AI将被给予10万美元资本并被要求在几个月内将其转化为100万美元。这一框架比OpenAI的经济有价值工作定义更窄并且有仅针对财务利润的潜在对齐风险。然而Suleyman概念的优势在于关注执行人类重视的复杂、多步骤任务。比赚钱更广泛地理解ACI对复杂、现实世界任务的强调值得注意因为这类任务可能比许多当前AI基准测试具有更高的生态效度。2 AGI定义的六大核心原则基于对现有AGI定义的深入分析研究团队识别出了有助于形成清晰、可操作AGI定义的属性和共性提出了任何AGI定义都应该满足的六大核心原则。这些原则为后续的等级划分框架奠定了理论基础。2.1 聚焦能力而非过程大多数定义聚焦于AGI能够完成什么而非其完成任务所采用的机制。这对于识别不一定是实现AGI先决条件的特征但可能仍然是有趣的研究主题非常重要。这种对能力的聚焦意味着AGI系统不需要以类人方式思考或理解同样系统具有意识或感知等品质也不是AGI的必要前提因为这些品质具有过程导向的焦点。这一原则的提出具有重要的理论和实践意义。从理论角度看它将AGI的定义从实现细节中解放出来使得不同的技术路径都可以被公平地评估。从实践角度看它简化了AGI的识别和评估过程因为我们不需要探究系统的内部工作机制只需要观察其外部表现。这一原则与功能主义哲学观点相呼应即心智的本质在于其功能而非其物质基础。在人工智能领域这一观点意味着我们不应该要求AGI必须以特定的方式思考而应该关注它能够做什么。这也意味着如果一个系统能够在广泛的任务上表现出智能行为那么无论它是通过神经网络、符号推理还是其他机制实现的都应该被视为具有相应的智能水平。2.2 聚焦通用性与性能所有上述定义都在不同程度上强调通用性但有些排除了性能标准。研究团队认为通用性和性能都是AGI的关键组成部分。通用性指的是系统能够处理的任务范围而性能指的是系统在这些任务上的表现水平。一个真正的AGI应该既能够处理广泛的任务又能够在这些任务上达到足够高的性能水平。仅有通用性而性能不足的系统或者仅在狭窄领域内高性能的系统都不能被称为AGI。这一原则的提出解决了AGI定义中的一个核心张力如何平衡广度和深度。一些定义过于强调通用性而忽视了性能导致一些能够处理多种任务但表现不佳的系统被过度评价。另一些定义则过于强调特定任务上的高性能忽视了通用性的重要性。通过同时考虑这两个维度研究团队为AGI提供了一个更加全面和平衡的定义框架。2.3 聚焦认知与元认知任务是否要求机器人具身化作为AGI的标准是一个有争议的问题。大多数定义聚焦于认知任务即非物理任务。尽管机器人技术最近取得了进展但AI系统的物理能力似乎落后于非物理能力。研究团队建议执行物理任务的能力增加了系统的通用性但不应被视为实现AGI的必要前提。另一方面元认知能力如学习新任务的能力、知道何时向人类寻求澄清或帮助的能力是系统实现通用性的关键前提。元认知能力在AGI框架中的重要性不容忽视。学习新技能的能力对于通用性至关重要因为系统不可能预先针对所有可能的用例进行优化这需要相关的子技能如选择适当学习策略的能力。知道何时寻求帮助对于支持对齐和适当的人机交互是必要的这包括对模型自身能力限制的意识这与模型校准的子技能相关即模型主动预期和回溯评估其在某些任务上的表现如何的能力。此外心智理论任务有时被认为是元认知的有时被单独归类为社会认知系统准确建模终端用户的能力是AGI系统对齐的必要组成部分。2.4 聚焦潜力而非部署证明系统能够以给定性能水平执行必要任务集应该足以声明该系统为AGI在开放世界中部署此类系统不应成为AGI定义的固有部分。例如将AGI定义为达到一定水平的劳动替代需要现实世界的部署而将AGI定义为具有替代劳动的能力则聚焦于潜力。要求部署作为测量AGI的条件引入了非技术障碍如法律和社会考虑以及伦理和安全关切。这一原则具有重要的政策含义。如果AGI的定义要求实际部署那么监管机构可能需要等到系统被广泛部署后才能采取行动这可能为时已晚。通过聚焦于潜力研究团队为前瞻性的监管和政策制定提供了空间。这也意味着一个在实验室环境中已经证明能够执行广泛任务的高性能系统即使由于安全或其他考虑尚未公开部署也应该被承认为相应级别的AGI。2.5 聚焦生态效度可用于基准化AGI进展的任务对于操作化任何提议的定义至关重要。研究团队强调选择与人们重视的现实世界任务即具有生态效度的任务保持一致的重要性。这里的价值应广义理解不仅包括经济价值还包括社会价值、艺术价值等。这可能意味着放弃那些容易自动化或量化但可能无法捕捉人们在AGI中重视的技能的传统AI指标。生态效度的概念来自心理学研究指的是实验室研究结果能够推广到现实世界条件的程度。在AGI基准测试的背景下这意味着测试任务应该反映AGI在实际应用中需要解决的真实问题。许多传统的AI基准测试如特定的游戏或标准化的测试可能无法充分捕捉AGI需要具备的真实世界能力。例如一个AI系统可能在标准化考试中得分很高但在处理复杂的现实世界问题时表现不佳。因此开发具有高生态效度的基准测试是AGI研究的重要挑战。2.6 聚焦通往AGI的路径而非单一终点正如采用标准的自动驾驶等级使得关于自动驾驶的政策和进展讨论变得清晰一样研究团队认为定义AGI等级是有价值的。每个AGI等级应该与一套清晰的指标/基准测试相关联以及在每个等级引入的已识别风险以及由此导致的人机交互范式的变化。这种基于等级的AGI定义方法支持了许多著名表述的共存例如Aguera y Arcas和Norvig的定义将落入该本体论中的新兴AGI类别而OpenAI的劳动替代阈值更好地匹配卓越AGI。这一原则的提出反映了AGI研究的渐进性质。AGI不是一个突然实现的单一目标而是一个渐进的发展过程。通过定义不同的等级研究团队为追踪这一进展提供了工具。这也使得政策制定者和公众能够更好地理解和准备AGI带来的变化而不是等待一个突然的奇点时刻。每个等级都有其特定的风险和挑战需要相应的准备和应对措施。3 AGI等级划分框架的核心架构2.1 性能与通用性的二维矩阵遵循原则2聚焦通用性和性能和原则6聚焦通往AGI的路径而非单一终点研究团队引入了一个矩阵化的等级系统聚焦于性能和通用性作为AGI核心的两个维度。这一框架为AGI的分类和评估提供了系统性的方法论基础。性能指的是AI系统能力的深度即对于给定任务它与人类水平表现的比较。注意对于新兴以上的所有性能等级百分位数是参考具有相关技能的成年人样本计算的。例如胜任或更高水平的英语写作能力任务表现只会针对识字且流利使用英语的成年人集合进行测量。通用性指的是AI系统能力的广度即AI系统达到目标性能阈值的任务范围。这一分类法指定了在大多数任务上达到给定评级所需的最低性能。例如胜任AGI必须在大多数认知任务上具有至少达到熟练成年人第50百分位数的性能但可能在某些任务子集上具有专家、卓越甚至超人性能。表1AGI等级划分矩阵框架性能等级窄AINarrow AI通用AIGeneral AILevel 0无AI窄非AI计算器软件、编译器通用非AI人工计算服务如Amazon Mechanical TurkLevel 1新兴新兴窄AI等于或略好于无技能人类GOFAI系统如SHRDLU新兴AGIChatGPT、Bard、Llama 2、GeminiLevel 2胜任胜任窄AI达到熟练成年人第50百分位数毒性检测器、智能音箱、Watson胜任AGI尚未实现Level 3专家专家窄AI达到熟练成年人第90百分位数拼写和语法检查器、图像生成模型专家AGI尚未实现Level 4卓越卓越窄AI达到熟练成年人第99百分位数Deep Blue、AlphaGo卓越AGI尚未实现Level 5超人超人窄AI超越100%人类AlphaFold、AlphaZero、Stockfish人工超级智能ASI尚未实现2.2 性能等级的详细定义研究团队定义了五个递进的性能等级每个等级都有明确的量化标准和定性描述。这些等级为评估AI系统的能力提供了精确的度量标准。Level 1新兴指的是等于或略好于无技能人类的表现。这一等级代表了AI能力的起点系统开始展现出处理特定任务的能力但尚未达到专业水平。在这一阶段AI系统可能能够完成一些基本任务但在复杂性和可靠性方面仍有很大提升空间。当前的大语言模型在许多任务上处于这一水平能够生成连贯的文本、回答基本问题但在需要深度推理或专业知识的任务上表现不稳定。Level 2胜任指的是至少达到熟练成年人第50百分位数的表现。这是AGI的一个重要里程碑意味着系统在大多数认知任务上能够达到中等技能人类的表现水平。研究团队指出胜任AGI等级可能是许多现有AGI定义的最佳概括包括Legg、Shanahan和Suleyman等人的表述。达到这一等级的系统将能够在广泛的任务中作为人类的可靠助手可能引发快速的社会变革。Level 3专家指的是至少达到熟练成年人第90百分位数的表现。在这一等级AI系统在大多数认知任务上能够超越90%的熟练人类展现出专家级的能力。这意味着系统不仅能够执行任务还能够以高质量和专业水平完成任务。专家级AI的出现将对专业服务行业产生深远影响可能改变知识工作的性质。Level 4卓越指的是至少达到熟练成年人第99百分位数的表现。这一等级代表了人类专家中的顶尖水平AI系统能够在几乎所有认知任务上超越99%的熟练人类。达到这一等级的系统将在几乎所有领域展现出超越绝大多数人类专家的能力。Deep Blue和AlphaGo等系统在各自领域达到了这一水平但它们是窄AI仅在特定任务上表现出色。Level 5超人指的是超越100%人类的表现。这一定义意味着Level 5通用AIASI系统将能够以没有任何人类能够匹敌的水平执行广泛的任务。此外这一框架也暗示超人系统可能能够执行比低等级AGI更广泛的通用性任务因为执行与现有人类技能定性不同的任务的能力根据定义将超越所有人类。例如ASI可能具有神经接口能力可能通过分析大脑信号来解码思想的机制、预言能力可能通过分析大量数据来做出高质量预测的机制或与动物交流的能力可能通过分析其发声、脑电波或肢体语言中的模式。2.3 通用性维度的划分通用性维度将AI系统分为窄AI和通用AI两大类别。窄AI指的是能够执行明确范围的任务或任务集的系统而通用AI指的是能够执行广泛非物理任务的系统包括学习新技能等元认知任务。窄AI系统在特定任务或任务集上可能表现出极高的性能但其能力范围有限。例如Deep Blue是国际象棋领域的卓越窄AIAlphaGo是围棋领域的卓越窄AIAlphaFold是蛋白质结构预测领域的超人窄AI。这些系统在各自领域达到了超越人类专家的水平但无法将其能力迁移到其他领域。通用AI系统则需要具备更广泛的能力范围包括处理各种认知任务的能力以及元认知能力。元认知能力是通用性的关键组成部分因为系统不可能预先针对所有可能的用例进行优化因此需要具备学习新技能的能力。此外通用AI还需要具备知道何时寻求帮助的能力这对于支持对齐和适当的人机交互至关重要。2.4 当前AI系统的定位分析研究团队对当前AI系统在框架中的定位进行了详细分析。截至2023年9月前沿语言模型如ChatGPT、Bard、Llama 2等在某些任务上表现出胜任水平的性能例如短文写作、简单编程但在大多数任务上仍处于新兴性能水平例如数学能力、涉及事实性的任务。因此当前前沿语言模型应被视为Level 1通用AI“新兴AGI”直到更广泛任务集的性能水平提高届时将满足Level 2通用AI即胜任AGI的标准。研究团队建议前沿AI模型的文档如模型卡应详细说明这种性能水平的混合情况。这将帮助终端用户、政策制定者和其他利益相关者形成对沿AGI路径进展的系统可能表现不均的共享、细致理解。特定认知领域更强技能的获取顺序可能对AI安全产生严重影响。例如在获得强大的伦理推理技能之前获得强大的化学工程知识可能是一个危险的组合。还应注意性能和/或通用性等级之间的进展速度可能是非线性的。获得学习新技能的能力可能特别加速向下一等级的进展。3 AGI基准测试的设计原则与挑战3.1 基准测试的核心要求研究团队的六项AGI定义原则中有两项原则2通用性和性能原则6聚焦通往AGI的路径影响了矩阵化、等级化本体论的选择以便于对AI能力的广度和深度进行细致讨论。其余四项原则原则1能力而非过程原则3认知和元认知任务原则4潜力而非部署原则5生态效度与测量问题相关。虽然性能维度规定了测量的一个方面例如相对于特定人群子集的任务表现百分位范围但通用性维度留下了重要问题构成通用性标准的任务集是什么AI系统必须掌握这些任务中的多少比例才能达到该模式中给定的通用性等级是否有某些任务必须始终执行才能满足某些通用性等级的标准如元认知任务操作化AGI定义需要回答这些问题以及开发具体的多样化和挑战性任务。由于这一过程的巨大复杂性以及包括跨组织和多学科观点的重要性研究团队没有在论文中提出基准测试而是致力于阐明基准测试应尝试测量的本体论。研究团队还讨论了AGI基准测试应具备的属性。3.2 认知与元认知任务的覆盖研究团队的意图是AGI基准测试将包括广泛的认知和元认知任务套件测量包括但不限于语言智能、数学和逻辑推理、空间推理、人际和内省社会智能、学习新技能的能力以及创造力在内的多种属性。基准测试可能包括涵盖心理学、神经科学、认知科学和教育学提出的智力类别的测试然而此类测试必须首先评估其是否适合基准化计算系统因为许多可能在此背景下缺乏生态和结构效度。研究团队强调元认知的重要性并建议AGI基准测试应包括元认知任务如学习新技能的能力、知道何时寻求帮助的能力以及与心智理论相关的社会元认知能力。学习新技能的能力对于通用性至关重要因为系统不可能预先针对所有可能的用例进行优化这需要相关的子技能如选择适当学习策略的能力。知道何时寻求帮助对于支持对齐和适当的人机交互是必要的这包括对模型自身能力限制的意识这与模型校准的子技能相关。心智理论任务有时被认为是元认知的有时被单独归类为社会认知系统准确建模终端用户的能力是AGI系统对齐的必要组成部分。3.3 工具使用与基准测试设计基准测试设计的一个开放问题是是否允许使用工具包括可能的AI驱动工具作为人类表现的辅助。这一选择最终可能取决于任务并应在基准测试选择中考虑生态效度。例如在确定自动驾驶汽车是否足够安全时与没有任何现代AI辅助安全工具的驾驶员进行基准测试并不是最具信息量的比较由于相关的反事实涉及某种驾驶员辅助技术我们可能更倾向于与该基线进行比较。虽然AGI基准测试可能借鉴一些现有的AI基准测试如HELM、BIG-bench研究团队还设想纳入可能需要定性评估的开放式和/或交互式任务。研究团队怀疑后一类复杂、开放式的任务虽然难以基准化但将比传统AI指标或改编的传统人类智力测量具有更好的生态效度。3.4 动态基准测试的必要性不可能枚举足够通用的智能能够实现的任务全集。因此AGI基准测试应该是一个动态基准测试。这样的基准测试应该包括生成和商定新任务的框架。确定某物在给定等级不是AGI只需要识别人们通常能够完成但系统无法适当执行的任务。在给定性能等级通过大多数预想AGI基准测试包括测试者添加的新任务的系统可以被认为具有该等级的通用性用于实际目的。研究团队对于系统必须在给定性能等级通过AGI基准测试的任务数量或百分比才能被声明为该等级的通用AI持谨慎态度没有给出具体数值。虽然研究团队认为这将是一个非常高的百分比但可能不是100%因为似乎清楚的是广泛但不完美的通用性是有影响力的个体人类在所有可能任务上也缺乏一致的表现但通常被认为是智能的。确定基准测试任务中证明通用性的部分比例仍然是一个开放的研究问题。3.5 危险能力测试的争议AGI基准测试是否应包括潜在危险能力的测试如欺骗能力、说服能力或高级生物化学能力是一个有争议的问题。研究团队倾向于在此类能力基准测试中包含这些能力因为大多数此类技能往往是双用途的具有社会积极场景以及恶意场景的应用。危险能力基准测试可以通过原则4潜力而非部署来降低风险确保任何危险或双用途任务的基准测试在适当沙盒中进行而不是以部署为定义。然而在此类测试纳入公共基准测试可能允许恶意行为者优化这些能力理解如何减轻与双用途能力基准测试相关的风险仍然是AI安全、AI伦理和AI治理专家的重要研究领域。4 风险评估与等级框架的关联4.1 基于等级的风险分析框架AGI的讨论通常包括风险讨论包括存在性风险或其他极端风险。等级化的AGI定义方法能够更细致地讨论不同性能和通用性组合如何与不同类型的AI风险相关。虽然考虑极端风险场景有价值但通过提出的本体论而非单一终点理解AGI可以帮助确保政策制定者也识别和优先考虑近期和通往AGI路径上的风险。随着能力等级向ASI推进会引入新的风险包括误用风险、对齐风险和结构性风险。例如专家AGI等级可能涉及与经济破坏和工作替代相关的结构性风险因为越来越多的行业达到机器智能替代人类劳动的替代阈值。另一方面达到专家AGI可能缓解新兴AGI和胜任AGI引入的一些风险如任务执行不正确的风险。卓越AGI和ASI等级是许多与存在性风险相关的担忧最可能出现的地方例如能够在广泛任务上超越人类操作员的AI可能会欺骗他们以实现错误指定的目标如在对齐思想实验中那样。表2AGI等级与风险类型关联分析AGI等级主要风险类型风险描述潜在影响新兴AGI误用风险、任务执行错误系统可能被恶意使用或产生不准确输出有限但可见的社会影响胜任AGI经济破坏、技能退化广泛劳动替代开始人类技能可能退化显著的社会经济变革专家AGI结构性风险、权力集中行业替代加速经济和政治权力可能集中深远的结构性变化卓越AGI对齐风险、存在性风险系统可能欺骗人类操作员目标不一致潜在的灾难性后果ASI存在性风险、控制问题系统可能超越人类理解和控制能力人类文明的根本性挑战4.2 国际关系与系统性风险系统性风险如国际关系的不稳定可能是一个关注点如果等级之间的进展速度超过监管或外交例如第一个实现ASI的国家可能具有实质性的地缘政治/军事优势造成复杂的结构性风险。在专家AGI以下的等级如新兴AGI、胜任AGI和所有窄AI类别风险可能更多源于人类行为如意外、附带或恶意的AI误用风险。对每个等级相关的风险概况进行更完整的分析是开发能够指导安全/伦理研究和政策制定的AGI分类法的关键步骤。4.3 Anthropic负责任扩展政策与这项工作同时Anthropic发布了其负责任扩展政策RSP1.0版。该政策使用基于等级的方法受生物安全等级启发来定义与AI系统相关的风险等级识别每个AI安全等级ASL可能相关的危险能力以及每个等级应采取的遏制或部署措施。当前最先进的生成AI被归类为ASL-2风险。在任何AGI基准测试中包含与ASL能力匹配的项目将把AGI分类法中的点与特定风险和缓解措施联系起来。5 自主性等级与人机交互范式5.1 能力与自主性的区分虽然能力为AI风险提供了前提条件但AI系统包括AGI系统不会也不会在真空中运行。相反AI系统以特定接口部署用于在特定场景中实现特定任务。这些上下文属性接口、任务、场景、终端用户对风险有实质性影响。考虑AGI系统用户界面的可供性。增加的能力解锁了新的交互范式但并不决定它们。相反系统设计者和终端用户将确定一种人机交互模式平衡各种考虑因素包括安全。研究团队提出用六个自主性等级来表征人机交互范式。这些自主性等级与AGI等级相关。更高的自主性等级被AGI能力的进展解锁但随着达到更高的AGI等级较低的自主性等级对于特定任务和场景可能仍然是理想的。仔细考虑围绕人机交互的选择对于前沿AI模型的安全和负责任部署至关重要。5.2 自主性等级的详细定义研究团队定义了六个自主性等级从完全人类控制到完全自主AI。每个等级都有其特定的交互模式、解锁条件和相关风险。自主性等级0无AI指的是人类做所有事情。这包括模拟方法如用铅笔在纸上素描和非AI数字工作流程如在文本编辑器中打字、在绘画程序中绘画。这一等级代表了传统的工具使用模式人类完全控制所有决策和行动。自主性等级1AI作为工具指的是人类完全控制任务并使用AI自动化平凡的子任务。例如借助搜索引擎进行信息搜索、借助语法检查程序修改写作、借助机器翻译应用阅读标志。这一等级的可能风险包括技能退化如过度依赖和既定行业的破坏。自主性等级2AI作为顾问指的是AI承担实质性角色但仅在人类调用时才参与。例如依靠语言模型总结一组文档、使用代码生成模型加速计算机编程、通过复杂的推荐系统消费大多数娱乐内容。这一等级的可能风险包括过度信任、激进化、定向操纵。自主性等级3AI作为协作者指的是平等的人机协作目标和任务的交互协调。例如通过与棋类AI的互动和分析作为棋手训练、通过AI生成的个性社交互动进行娱乐。这一等级的可能风险包括拟人化如寄生社会关系和快速社会变革。自主性等级4AI作为专家指的是AI驱动交互人类提供指导和反馈或执行子任务。例如使用AI系统推进科学发现如蛋白质折叠。这一等级的可能风险包括社会规模的倦怠、大规模劳动替代、人类例外主义的衰落。自主性等级5AI作为代理指的是完全自主的AI。例如自主AI驱动的个人助理。这一等级的可能风险包括对齐问题、权力集中。表3自主性等级与AGI等级的关联分析自主性等级交互模式解锁的AGI等级示例系统引入的风险Level 0无AI人类做所有事情无AI铅笔素描、文本编辑器无现状风险Level 1AI作为工具人类控制AI自动化子任务新兴窄AI搜索引擎、语法检查器技能退化、行业破坏Level 2AI作为顾问AI承担实质性角色人类调用胜任窄AI、新兴AGI文档总结、代码生成过度信任、激进化Level 3AI作为协作者平等人机协作新兴AGI、胜任窄AI棋类训练AI拟人化、社会变革Level 4AI作为专家AI驱动人类指导卓越窄AI、专家AGI科学发现AI劳动替代、倦怠Level 5AI作为代理完全自主AI卓越AGI、ASI自主个人助理对齐问题、权力集中5.3 人机交互与风险评估研究团队提出的框架说明了AGI等级、自主性等级和风险之间的相互作用。模型性能和通用性的进步解锁了额外的交互范式选择包括完全自主。这些交互范式反过来引入了新的风险类别。模型能力和交互设计的相互作用将使更细致的风险评估和负责任的部署决策成为可能而不仅仅是考虑模型能力。研究团队对解锁等级的预测倾向于要求窄AI系统比通用AI系统具有更高的性能等级例如研究团队认为AI作为顾问的使用可能是专家窄AI或新兴AGI。这种差异反映了通用系统的能力发展可能是不均衡的事实例如Level 1通用AI“新兴AGI”可能在某些任务子集上具有Level 2甚至Level 3的性能。通用AI的这种能力不均匀性可能为其特定优势对齐的特定任务解锁更高的自主性等级。5.4 无AI范式的重要性研究团队强调无AI范式在许多情境中的重要性包括教育、享受、评估或安全原因。例如在自动驾驶领域当Level 5自动驾驶技术广泛可用时可能仍有理由使用Level 0无自动化车辆。这些包括指导新驾驶员教育、驾驶爱好者的乐趣享受、驾驶员执照考试评估或在传感器无法依赖的条件下如技术故障或极端天气事件安全。虽然Level 5自动驾驶车辆在研究团队的分类法中可能是Level 4或5窄AI但关于人类与计算机自主性的相同考虑也适用于AGI。我们可能开发AGI但选择不自主部署它或根据上下文考虑在不同情况下以不同的自主性等级部署。5.5 通用性与交互范式的关系通用性的某些方面可能是使特定交互范式理想化的必要条件。例如自主性等级3、4和5“协作者”、“专家和代理”可能只有在AI系统还在某些元认知能力上表现出强大性能时才能良好运行如学习何时向人类寻求帮助、心智理论建模、社会情感技能。研究团队对自主性等级5“AI作为代理”的定义暗示这样的完全自主AI可以在没有持续人类监督的情况下以对齐方式行动但知道何时咨询人类。支持通过更好的任务规范、过程鸿沟弥合和输出评估来实现人机对齐的界面是一个重要的研究领域。6 研究贡献与理论意义6.1 统一的AGI讨论语言研究团队提出的AGI等级框架为AI研究社区提供了一个统一的讨论语言。在此之前AGI的定义和讨论往往缺乏共同的基础导致不同研究者、政策制定者和公众之间的沟通障碍。通过提供明确的等级划分和量化标准该框架使得关于AGI进展的讨论能够更加精确和有意义。这一框架的价值类似于SAE国际组织制定的自动驾驶等级标准。在自动驾驶等级标准被广泛采用之前关于自动驾驶的讨论往往模糊不清难以准确描述系统的能力和限制。同样AGI等级框架为描述和比较不同AI系统的能力提供了共同的语言和标准。6.2 渐进式风险评估方法传统的AGI讨论往往聚焦于奇点或存在性风险等极端场景而忽视了通往AGI路径上的渐进风险。研究团队的框架通过等级划分使得每个阶段的风险都能够被识别和评估。这种渐进式的风险评估方法对于政策制定和风险管理具有重要意义。例如胜任AGI等级可能带来的经济破坏和工作替代风险虽然不如存在性风险那样极端但对社会的影响可能更为直接和广泛。通过识别每个等级的特定风险政策制定者可以更有针对性地制定应对措施而不是仅仅关注遥远的极端风险。6.3 能力与自主性的解耦研究团队的一个重要贡献是将AI能力与自主性解耦。这一区分对于理解和应对AGI风险至关重要。一个具有高水平能力的AI系统并不意味着必须以高自主性方式部署。系统设计者和政策制定者可以根据具体情境选择适当的自主性等级即使底层系统具有更高的能力。这一观点与Shneiderman的观察一致即自动化不是零和游戏高水平的自动化可以与高水平的人类控制共存。研究团队的框架考虑了通过人机伙伴关系不同风格的视角来看待自动化而不是简单地追求最大程度的自动化。6.4 对AI安全研究的指导意义研究团队的框架对AI安全研究具有重要的指导意义。通过明确每个AGI等级的能力要求和相关风险该框架为AI安全研究提供了清晰的路线图。研究者可以针对特定等级的风险开发相应的安全措施而不是泛泛地讨论AI安全问题。此外框架中对元认知能力的强调为AI安全研究指明了重要方向。学习新技能的能力、知道何时寻求帮助的能力、心智理论能力等元认知能力不仅是AGI的重要组成部分也是确保AGI系统安全和对齐的关键因素。7 局限性与未来研究方向7.1 基准测试的具体实现研究团队在论文中没有提出具体的AGI基准测试而是聚焦于阐明基准测试应尝试测量的本体论。这是一个明智的选择因为开发具有高生态效度的AGI基准测试需要跨组织和多学科的广泛合作。然而这也意味着框架的实际应用仍有待具体基准测试的开发和验证。未来的研究需要解决几个关键问题如何定义构成通用性标准的任务集系统需要在这些任务上达到什么比例才能被认为具有给定等级的通用性如何确保基准测试的生态效度如何处理基准测试可能被游戏化的问题7.2 性能评估的复杂性研究团队的框架假设性能可以相对于人类表现进行量化评估。然而实际操作中性能评估面临诸多复杂性。不同任务可能需要不同的评估方法某些任务如创造力、情感智力的评估本身就具有主观性。此外系统在不同任务上的性能可能不均匀如何综合评估这种不均匀的性能也是一个挑战。研究团队提到当前前沿语言模型在某些任务上表现出胜任水平的性能但在大多数任务上仍处于新兴水平。如何将这种不均匀的性能映射到等级框架中需要更详细的指导原则。7.3 动态性与适应性AGI基准测试应该是动态的能够适应技术的发展和新任务的出现。然而动态基准测试也带来了挑战如何确保不同时间点的评估结果具有可比性如何防止基准测试被特定系统或方法过拟合如何平衡基准测试的稳定性和适应性此外随着AI技术的快速发展某些任务可能变得不再具有区分度。例如如果所有前沿AI系统都能在特定任务上达到超人水平该任务就不再能够区分不同等级的系统。基准测试需要不断更新以保持其区分能力。7.4 跨文化与跨领域适用性研究团队的框架主要基于西方学术界对智能的理解可能需要调整以适应不同文化和领域的视角。例如不同文化对智能的定义可能有所不同某些任务在某些文化背景下可能被认为更重要或更不重要。此外框架主要聚焦于认知任务对物理任务的处理相对有限。虽然研究团队认为物理能力不应是AGI的必要前提但随着机器人技术的发展物理能力可能成为AI系统通用性的重要组成部分。未来的研究可能需要更深入地考虑物理能力在AGI框架中的位置。8 结论与展望8.1 核心贡献总结Google DeepMind研究团队提出的AGI等级框架是AGI研究领域的重要贡献。通过系统分析现有AGI定义的优势和局限研究团队提出了AGI定义应满足的六大原则聚焦能力而非过程、聚焦通用性和性能、聚焦认知和元认知任务、聚焦潜力而非部署、聚焦生态效度、聚焦通往AGI的路径而非单一终点。基于这些原则研究团队引入了AGI等级本体论通过考虑通用性窄或通用与五个性能等级新兴、胜任、专家、卓越和超人的结合提供了定义通往AGI进展的更细致方法。研究团队反思了当前AI系统和AGI定义如何适应这一框架讨论了该框架对开发生态效度AGI基准测试的意义并论证了虽然这一努力肯定具有挑战性但参与其中至关重要。最后研究团队考虑了其原则和本体论如何重塑围绕AGI相关风险的讨论。值得注意的是研究团队观察到AGI不一定等同于自主性。研究团队引入了由AGI等级进展解锁但非决定的自主性等级并说明了将AGI等级与自主性等级联合考虑如何能够提供对AI系统相关风险的更细致洞察强调了在人机交互研究中与模型改进同步投资的重要性。8.2 对研究社区的影响研究团队的框架有望对AI研究社区产生深远影响。首先它为AGI研究提供了统一的讨论语言使得不同研究者之间的沟通更加精确和有效。其次它为AGI进展的评估提供了明确的标准使得研究进展能够被客观地追踪和比较。第三它为AI安全研究提供了清晰的路线图使得安全措施能够针对特定等级的风险进行开发。研究团队希望其框架将被证明是可适应和可扩展的。例如如何定义和测量通往AGI的进展可能随着技术进步而改变如可解释性的改进提供对模型内部工作的洞察。此外本体论的某些部分如人机交互范式和相关风险可能随着社会本身适应AI进步而演变。8.3 对政策制定的启示研究团队的框架对AI政策制定具有重要的启示意义。通过提供明确的AGI等级划分该框架使得政策制定者能够更有针对性地制定监管措施。不同等级的AGI可能需要不同的监管方法而不是一刀切的政策。此外框架中对自主性等级的区分也为政策制定提供了重要视角。政策制定者可以考虑限制特定情境下的自主性等级即使底层AI系统具有更高的能力。这种方法可以在利用AI能力的同时降低相关风险。8.4 未来研究展望AGI研究仍处于早期阶段许多问题有待解决。未来的研究需要在以下几个方向继续努力开发具有高生态效度的AGI基准测试研究如何评估和处理不均匀的性能分布探索动态基准测试的设计和实施考虑跨文化和跨领域的适用性深入研究元认知能力在AGI中的作用开发针对每个AGI等级风险的安全措施。研究团队的框架为这些研究方向提供了清晰的理论基础和方法论指导。随着AI技术的快速发展AGI研究将变得越来越重要。研究团队的框架为这一领域的研究者、政策制定者和公众提供了共同的语言和工具有助于推动AGI研究朝着安全、负责任的方向发展。参考文献[1] Morris M R, Sohl-Dickstein J, Fiedel N, et al. Levels of AGI: Operationalizing Progress on the Path to AGI[C]//Proceedings of the 41st International Conference on Machine Learning. PMLR, 2024: 5202-5218.[2] Turing A. Computing Machinery and Intelligence[J]. Mind, 1950, LIX: 433-460.[3] Searle J R. Minds, Brains, and Programs[J]. Behavioral and Brain Sciences, 1980, 3: 417-424.[4] Gubrud M. Nanotechnology and International Security[C]//Fifth Foresight Conference on Molecular Nanotechnology. November 1997.[5] Legg S. Machine Super Intelligence[D]. Doctoral Dissertation submitted to the Faculty of Informatics of the University of Lugano, June 2008.[6] Goertzel B. Artificial General Intelligence: Concept, State of the Art, and Future Prospects[J]. Journal of Artificial General Intelligence, 2014.[7] Shanahan M. The Technological Singularity[M]. MIT Press, August 2015.[8] Marcus G. Dear Elon Musk, here are five things you might want to consider about AGI[J]. “Marcus on AI” Substack, May 2022.[9] OpenAI. OpenAI Charter[R]. 2018.[10] Mustafa Suleyman and Michael Bhaskar. The Coming Wave: Technology, Power, and the 21st Century’s Greatest Dilemma[M]. Crown, September 2023.[11] Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models[J]. arXiv preprint arXiv:2206.07682, 2022.[12] Bengio Y, Hinton G, Yao A, et al. Managing AI Risks in an Era of Rapid Progress[J]. arXiv preprint arXiv:2310.17688, 2023.[13] Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4[J]. arXiv preprint arXiv:2303.12712, 2023.[14] Silver D, Huang A, Maddison C J, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search[J]. Nature, 2016, 529: 484-489.[15] Silver D, Schrittwieser J, Simonyan K, et al. Mastering the Game of Go Without Human Knowledge[J]. Nature, 2017, 550: 354-359.[16] Jumper J, Evans R, Pritzel A, et al. Highly Accurate Protein Structure Prediction with AlphaFold[J]. Nature, 2021, 596: 583-589.[17] Campbell M, Hoane A J, Hsu F. Deep Blue[J]. Artificial Intelligence, 2002, 134(1-2): 57-83.[18] Chollet F. On the measure of intelligence[J]. arXiv preprint arXiv:1911.01547, 2019.[19] Shevlane T, Farquhar S, Garfinkel B, et al. Model evaluation for extreme risks[J]. arXiv preprint arXiv:2305.15324, 2023.[20] Anthropic. Anthropic’s Responsible Scaling Policy[R]. September 2023.[21] SAE International. Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles[S]. April 2021.[22] Shneiderman B. Human-centered artificial intelligence: Reliable, safe trustworthy[J]. arXiv preprint arXiv:2002.04087, 2020.[23] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[J]. arXiv preprint arXiv:1706.03762, 2017.[24] OpenAI. GPT-4 Technical Report[J]. arXiv preprint arXiv:2303.08774, 2023.[25] Anil R, Dai A M, Firat O, et al. PaLM 2 Technical Report[J]. arXiv preprint arXiv:2305.10403, 2023.[26] Touvron H, Martin L, Stone K, et al. Llama 2: Open Foundation and Fine-Tuned Chat Models[J]. arXiv preprint, 2023.[27] Terry M, Kulkarni C, Wattenberg M, et al. AI Alignment in the Design of Interactive AI: Specification Alignment, Process Alignment, and Evaluation Support[J]. arXiv preprint arXiv:2311.00710, 2023.[28] Morris M R, Cai C J, Holbrook J, et al. The Design Space of Generative Models[J]. arXiv preprint arXiv:2304.10547, 2023.[29] Liang P, Bommasani R, Lee T, et al. Holistic Evaluation of Language Models[J]. arXiv preprint arXiv:2211.09110, 2023.[30] Srivastava A, Rastogi A, Rao A, et al. Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models[J]. arXiv preprint arXiv:2206.04615, 2023.

相关新闻