AI安全与启蒙时代的挑战：模型监管与技术开放的平衡-程序员充电站

AI安全与启蒙时代的挑战：模型监管与技术开放的平衡

摘要
严格的AI模型许可和监控提案可能适得其反，导致权力以不可持续的方式集中，并可能逆转启蒙时代以来取得的社会进步。在保护社会与赋予社会自我保护能力之间需要微妙的平衡。我们应当倡导开放性、谦逊和广泛协商，以制定更符合我们原则和价值观的应对措施——这些措施可以随着我们对这项技术更深入的了解而不断演进。

执行摘要

人工智能技术发展迅速，我们尚不清楚其未来可能达到的潜力。某机构CEO Sam Altman认为AI可能“捕获宇宙所有未来价值的视锥”。但事情也可能出错，一些专家警告“AI可能带来灭绝风险”。

这促使许多人提出AI监管方案，包括白皮书《前沿AI监管：管理新兴公共安全风险》（以下简称“FAR”）以及欧盟AI法案的议会版本，其核心是：

为AI模型的开发和部署制定标准
建立确保符合这些标准的机制

然而其他专家反驳说：“对存在性风险的过度关注……‘挤压了更紧迫问题的空间’，并暗中给关注其他当前风险的研究人员带来社会压力。”

尽管当前风险重要，但人类灭绝的威胁是否意味着我们应该推行此类监管？

或许不应该。正如我们将看到的，如果AI最终强大到构成灾难性威胁，这项提案可能并无实际帮助。事实上，它可能让情况变得更糟，因为会制造出如此严重的权力不平衡，以致引发社会的崩溃。这些担忧适用于所有试图确保模型本身（“开发”）安全，而不仅仅是其使用方式的监管措施。这些监管的影响可能无法撤销，因此在立法前我们应当极其谨慎。

FAR和AI法案旨在监管的模型开发类型是“基础模型”——这种通用人工智能能够处理（以不同程度的成功）你提出的几乎所有问题。无法确保任何通用设备（比如计算机或笔）永远不会被用于造成伤害。因此，确保AI模型不被滥用的唯一方法是确保没有人能直接使用它们。相反，它们必须被限制在一个严格控制的狭窄服务接口（如ChatGPT这样的GPT-4接口）中。

但那些能够完全访问AI模型的人（如在托管服务的公司内部的人员）相对于那些仅限于“安全”接口的人拥有巨大优势。如果AI变得极其强大，那么对模型的完全访问权对于需要保持竞争力的人以及希望造成伤害的人都至关重要。他们可以简单地从零开始训练自己的模型，或者通过勒索、贿赂或盗窃来窃取现有模型。这可能导致一个社会，只有拥有海量资源训练基础模型的团体，或者道德上不介意窃取它们的团体，才能接触到人类最强大的技术。这些团体可能变得比任何国家都更强大。历史上，巨大的权力差异曾导致整个社会的暴力和屈服。

如果我们现在以“安全”为名增加权力集中化的监管方式，我们可能逆转启蒙时代取得的成果，反而进入一个新纪元：反启蒙时代。相反，我们可以坚持开放和信任的启蒙思想，例如支持开源模型开发。开源通过广泛参与和共享促进了巨大的技术进步。也许开放的AI模型也可以做到同样的事情。广泛参与可以让更多拥有不同专业知识的人帮助识别和应对威胁，从而提高整体安全性——正如我们在网络安全等领域曾经看到的那样。

我们现在可以采取一些干预措施，包括欧盟AI法案中提出的“高风险应用”监管。通过监管应用，我们专注于真实的危害，并能让最直接负责的人承担相应责任。AI法案中的另一个有益方法是监管信息披露，确保模型使用者拥有恰当使用所需的信息。

AI的影响是复杂的，因此不太可能有单一的万能解决方案。在创造出先进的AI之前，我们无法真正理解其影响。因此我们不应急于监管这项技术，应谨慎避免解决方案比问题本身更糟的情况。

核心问题

日益强大的AI的快速发展让许多人要求得到保护，也有许多人提供这种保护。最新的是一份白皮书：《前沿AI监管：管理新兴公共安全风险》（FAR）。该论文的许多作者与某机构和某中心有联系，并与受某机构和某中心投资者资助的各种组织有关。FAR声称“政府介入将确保此类‘前沿AI模型’为公共利益服务”。但我们真的能确保这样的事情吗？代价是什么？

FAR未能解决一个巨大的、显而易见的根本问题。

任何能够完全访问强大AI模型的人，比那些只能通过受限服务访问该模型的人拥有更大的权力。但只有极少数人能够完全访问模型。如果AI确实变得极其强大，那么这种巨大的权力差异是不可持续的。

表面上，FAR所推进的监管制度似乎勾选了各种安全选项，但最终导致大量权力落入根基深厚的大公司手中（凭借它们能够访问原始模型），使它们对所有其他参与者——包括试图监管或约束它们的政府——形成信息不对称。这可能引发社会的崩溃。

原因如下：因为这些模型是通用计算设备，不可能保证它们不会被用于有害应用。这就像试图制造一台不能被滥用的计算机（例如用于发送勒索邮件）。完整的原始模型比任何基于它的“确保安全”的服务都要强大得多。完整的原始模型是通用的：它可以用于任何事情。但如果你给某人一个通用计算设备，你无法确保他们不会用它来造成伤害。

因此，你只给他们访问一个提供通往完整模型的小窗口的服务。例如，某机构向公众提供了一个严格控制和调整的基于文本的GPT-4对话接口，但并未提供对GPT-4模型本身的完全访问权限。

如果你控制着一个强大的模型，它调解着所有信息的消费和生产，并且是专有秘密，那么你可以塑造人们的信仰、行为方式——并审查任何你愿意审查的内容。

FAR所倡导的理念最终会导致AI的前沿对所有不在少数几家公司工作的人变得不可及，而这些公司的统治地位将因这些理念而得以巩固。这对社会来说是一条极其危险和脆弱的道路。

竞赛

那么，让我们回顾一下在这些监管提案下会发生什么。我们拥有世界上最强大的技术，且一直在快速发展，但只有少数大公司能够以不受限制的方式使用该技术的最强大版本。

接下来会发生什么？

显然，现在每个关心权力和金钱的人都迫切需要找到一种方法来获得对这些模型的完全访问权限。毕竟，任何无法接触人类历史上最强大技术的人都不可能参与竞争。对他们来说好消息是，模型实际上只是一堆数字。它们可以极其容易地被复制，一旦你获得它们，你就可以免费把它们传给你所有的朋友。（FAR中有一个关于此的完整章节，称之为“扩散问题”。）

世界上有很多数据窃取专家，他们知道如何利用勒索、贿赂、社交工程以及其他经验证明非常有效的方法。对于那些有分寸不使用此类不道德方法、但拥有资源的组织来说，他们也可以通过花费大约1亿美元左右加入AI能力拥有者的行列。即使是《财富》全球2000强中最小的公司也有70亿美元的年收入，使这样的支出完全在其预算范围内。当然，大多数国家的政府也能负担得起这样的费用。当然，这些组织都不能在不违反拟议法规要求的情况下直接向公众提供这些模型，但根据定义，每个组织中至少会有一些人能够访问完整模型的权力。

那些渴望权力和财富，但未能获取模型权重的人，现在有了新的目标：进入那些拥有大模型组织的权力职位，或者进入那些做出这些决策的政府部门的权力职位。那些起初本着开发AI为社会造福的良好意愿而成立的组织，很快会发现它们变成了所有公司在成长过程中都会加入的企业追逐利润的机器的一部分，并由那些擅长追逐利润的人来运营。

事实是，这种试图控制AI使用的整个努力是徒劳和无效的。不仅模型的“扩散”无法控制（因为数字信息太容易被窃取和复制），而且对训练模型计算量的限制也无法执行。这是因为现在世界各地的人们可以虚拟地联合起来共同训练一个模型。例如，某组织创建了一个完全去中心化、开放、可扩展的AI云，最近的研究表明，这种方法可以走得很远。

用于训练模型的图形处理单元（GPU）硬件，与用于玩电脑游戏的硬件完全相同。目前全球用于玩游戏的计算能力比用于AI的还要多。世界各地的游戏玩家只需在他们的电脑上安装一个小软件，就可以选择帮助训练这些开源模型。组织如此大规模的活动将很困难，但并非没有先例，如Folding@Home和SETI@Home等项目的成功所示。

开发人员已经在思考如何确保普通人能够继续训练这些模型——例如，在最近与Lex Fridman的一次采访中，某机构创始人George Hotz解释了他的新公司如何致力于“微型机架”，其动力设计基于一个前提：“在不引起怀疑的情况下，你能给家里接入的最大功率是多少？其中一个答案是电动汽车充电器。”因此，他正在构建一个使用与汽车充电器相同功率的AI模型训练系统。

AI安全社区很清楚这个问题，并提出了各种解决方案。例如，AI政策专家Yo Shavit最近发表的一篇有影响力的论文（研究可以添加到计算机芯片中的监控机制）指出：

“随着先进机器学习系统的能力开始在 geopolitics 和社会秩序中发挥重要作用，可能变得势在必行的是：（1）政府能够在其境内对高级ML系统的开发执行规则，以及（2）国家能够验证彼此对潜在未来关于高级ML开发的国际协议的遵守情况。”

任何解决此问题的方法都必须确保要求每家此类芯片制造商在其芯片中包含该监控功能，因为显然，如果有一家公司不这样做，那么每个想要训练自己强大模型的人都会使用该公司的芯片。Shavit指出：“在硬件层面彻底执行此类规则将需要监控和监管个人公民对其个人计算机的使用，这在伦理上是完全不可接受的。”然而现实是，此类规则对于实现集中化和控制的有效性是必需的，因为个人计算机可以通过简单地连接互联网来训练大型模型。

当自称AI安全运动先驱的Eliezer Yudkowsky提议空袭未经授权的数据中心，并以核战争威胁来确保未能控制计算能力未经授权使用的国家遵守规定时，许多人感到震惊。但轰炸数据中心和对所有计算机的全球监控是确保FAR所提议的那种安全合规性的唯一途径。

监管应用，而非开发

Alex Engler指出了一种替代强制安全标准或许可模型的方法，即“监管风险应用，而非开源AI模型”。这是大多数监管的运行方式：通过责任。如果有人做了坏事，那么他们就会有麻烦。如果有人创造了一个通用工具，而其他人用它做了坏事，工具制造者不会因此惹上麻烦。“双重用途”技术，如互联网、计算机、笔和纸，并未被限制只能由大公司使用，任何人都可以制造计算机或自己造纸。他们不必确保他们所制造的东西只能用于社会利益。

这是一个关键区别：监管使用（即，通过将模型作为系统的一部分来实际投入使用——特别是像医学这样的高风险系统）与监管开发（即，训练模型的过程）之间的区别。

这个区别之所以关键，是因为这些模型实际上仅仅是数学函数。它们输入一堆数字，计算并返回另一堆不同的数字。它们本身不做任何事——只能计算数字。然而，这些计算可能非常有用！事实上，计算机本身仅仅是计算器（因此得名“计算机”）。它们在被使用时——即连接到某个实际能做某事的系统时——才是有用的。

FAR讨论了这一区别，声称“AI能力的改进可能是不可预测的，并且通常需要密集测试才能完全理解。因此，不要求模型在部署前经过充分测试的监管可能无法可靠地防止已部署模型构成严重风险。”这是不合逻辑的推论。因为模型在被使用前不会造成伤害，开发模型不可能是一种有害活动。此外，因为我们讨论的是通用模型，我们无法确保模型本身的安全性——只能试图保障模型的使用安全。

另一种有用的监管方法是考虑保护对敏感基础设施（如化学实验室）的访问。FAR简要考虑了这个想法，称“对于前沿AI开发，特定行业的监管可能有价值，但可能无法解决一部分高度严重和大规模的风险。”但FAR没有进一步研究，而是基于一个假设的“可能”剩余风险子集，来推进一种我们已看到的可能逆转数个世纪的文化、社会和政治发展的方法。

如果我们能够构建先进的AI，我们应该期望它至少能帮助我们识别需要强化的敏感基础设施。如果有可能使用此类基础设施造成伤害，那么很可能可以识别出来——如果AI无法识别它，那么它也无法使用它。当然，实际处理已识别的威胁可能并不简单；例如，如果事实证明一个台式DNA打印机可以用来制造危险病原体，那么强化所有这些设备将是一项艰巨的任务。但这仍然比限制世界上所有计算设备的工作要小得多、侵入性低得多。

这引向了另一条有用的监管路径：部署披露。如果你考虑将使用AI的自动化系统连接到任何类型的敏感基础设施，那么我们应该要求披露这一事实。此外，某些类型的连接和基础设施应要求提前进行仔细的安全检查和审计。

通往集中化的道路

更好的AI可以用来改进AI。这一点在早期能力较弱、资源较少的算法时代就已经多次出现。某中心曾使用AI改进数据中心能源使用、创造更好的神经网络架构，以及创建优化这些网络参数的更好方法。模型输出已被用于创建训练新模型时使用的提示，用于为这些提示创建模型答案，并用于解释答案的推理过程。

随着模型变得更强大，研究人员将找到更多方法来使用它们改进数据、模型和训练过程。没有理由相信我们已经接近这项技术的极限。没有数据可以用来对它能走多远或接下来会发生什么做出明确的预测。

那些能够完全访问模型的人比那些不能的人可以更快更好地构建新模型。一个原因是他们可以充分利用像微调、激活以及直接研究和修改权重等功能。例如，最近的一篇论文发现，微调可以使模型用比基础模型少几个数量级的参数解决具有挑战性的问题。

这种反馈循环会导致集中化：大公司变得更大，其他参与者无法竞争。这导致集中化、竞争减少，从而价格更高、创新减少、安全性降低（因为存在单一故障点，以及更大的利润动机鼓励冒险行为）。

还有其它强大的力量推动集中化。以某中心为例。某中心拥有比地球上任何其他组织都多的数据。更多的数据直接导致更好的基础模型。此外，随着人们使用其AI服务，他们正在获取越来越多关于这些交互的数据。他们使用AI改进产品，使其对用户更具“粘性”，鼓励更多人使用，从而导致他们获得更多数据，从而进一步改进他们的模型和基于这些模型的产品。同时，它们日益垂直整合，因此很少有强大的供应商。他们制造自己的AI芯片（TPU），运行自己的数据中心，并开发自己的软件。

对前沿模型开发的监管鼓励更大的集中化。尤其是许可制度，这是FAR提出的一种强有力的集中化推动力。许可前沿模型的开发要求新进入者必须申请许可，才能开发与当前最先进水平相当或更好的模型。这使得与根深蒂固的参与者竞争更加困难。并且它开启了一条通往监管俘获的极其强大的路径，因为它导致一个不民主的许可委员会拥有最终决定谁有权构建地球上最强大技术的权力。这样的机构，其本身可能因此成为世界上最强大的团体。

开源与AI启蒙的新时代

与渴望控制和集中化带来的安全感和确定性相反，另一种选择是再次承担我们数百年前承担过的风险：相信人类和社会的力量与善良。正如启蒙运动的思想家们提出了诸如“如果每个人都接受教育会怎样？如果每个人都有投票权会怎样？”等难题，我们应该问：“如果每个人都能完全访问AI的力量会怎样？”

需要明确的是：提出这样的问题可能不受欢迎。反启蒙运动是一场持续了一百年的强大运动，它反对“对进步的信仰、所有人类的理性、自由民主以及社会日益世俗化”。它依赖于一个关键假设，正如法国哲学家约瑟夫·德·梅斯特尔所阐述的：“如果人类完全靠自己，他们太过邪恶而不配享有自由。”

我们可以从启蒙运动的结果看到，这个前提是错误的。但这个观念就是挥之不去。几十年来，社会学家一直在研究和记录“精英恐慌”——精英阶层倾向于认为普通人在灾难面前会反应糟糕，因此必须加以控制。但那也是错误的。事实上，它不仅仅是错误，正如Rebecca Solnit所解释的：“我认为这些危机时刻是大众权力和积极社会变革的时刻。在我的书中的一个主要例子是墨西哥城，那里1985年的地震促使公众对一党制产生不满，因此，公民社会得以重生。”

当我们应对AI滥用的威胁时，体现对进步和所有人理性的信仰是什么样子的？许多专家正在研究的一个想法是，开源模型可能是关键。

模型仅仅是软件——它们是体现为代码的数学函数。当我们复制软件时，我们通常不称之为“扩散”（像FAR那样）。这个词通常与核武器相关。当我们复制软件时，我们称之为“安装”、“部署”或“分享”。因为软件可以自由复制，它激发了一场巨大的开源运动，将这种分享视为一种道德上的善。当所有人都能受益时，为什么要将价值限制在少数人手中？

这个想法一直很强大。今天，你使用的几乎每个网站都在运行开源网络服务器（如Apache），而它又安装在开源操作系统（通常是Linux）上。大多数程序都是用开源编译器编译的，并用开源编辑器编写。像维基百科这样的开源文档具有变革性。最初，这些都被视为疯狂的想法，遭到许多怀疑，但最终证明它们是正确的。简单来说，你今天使用的大部分计算机和互联网世界，如果没有开源就不会存在。

如果最强大的AI模型是开源的会怎样？仍然会有坏人想要利用它们伤害他人或不公正地使自己致富。但大多数人不是坏人。大多数人会使用这些模型来创造和保护。有什么比让人类社会中拥有广泛多样性和专业知识的群体全力以赴识别和应对威胁，并拥有AI的全力支持更安全的方式呢？如果世界顶尖的网络安全、生物武器和社交工程学者正在利用AI的优势研究AI安全，并且你可以自己访问和使用他们所有的研究成果，与只有营利性公司的少数人能够完全访问AI模型相比，你会感到安全多少？

为了获得完全模型访问的更好功能，并减少对以前具有分享文化、开放的研究社区的商业控制，开源社区最近介入并训练了一些相当强大的语言模型。截至2023年7月，其中最好的模型水平与第二梯队的商业廉价模型相似，但不如GPT-4或Claude。它们的能力正在迅速提高，并吸引着来自富有的捐赠者、政府、大学以及寻求避免权力集中并确保获得高质量AI模型的公司的越来越多的投资。

然而，FAR中关于安全保证的提案与开源前沿模型不兼容。FAR提议“在安全部署被证明可行之前，避免将前沿AI模型的潜在危险能力开源可能是审慎的”。但即使开源模型以与监管批准的闭源商业模型完全相同的方式、从完全相同的数据训练而来，它也永远无法提供相同的安全保证。这是因为，作为一种通用计算设备，任何人都可以将其用于他们想要的任何用途——包括使用新数据集和新任务对其进行微调。

开源不是万能的。这仍然需要谨慎、合作以及深入细致的研究。通过让所有人都能使用这些系统，我们确保整个社会既能从其能力中受益，也能努力理解和应对其潜在危害。某中心和某机构的顶级AI和政策团队联合回应了美国政府关于AI问责制的征求意见，指出：

“为了让基础模型促进公共利益，其开发和部署应确保透明度、支持创新、分配权力并最小化伤害……我们认为开源基础模型可以实现所有这四个目标，部分原因在于开源的内在优点（支持透明、支持创新、反集中化）”

此外，他们警告：

“如果闭源模型无法被研究人员和技术专家检查，安全漏洞可能在造成损害前无法被识别……另一方面，各领域的专家可以检查和评估开源模型，这使得安全漏洞更容易被发现和解决。此外，限制谁能创建基础模型会减少有能力的模型的多样性，并可能导致复杂系统中的单点故障。”

访问最佳AI模型对于研究AI安全至关重要这一想法，实际上是当今两家最先进AI公司——某机构和某组织——起源故事的核心。许多人惊讶于这些公司的高管大声警告AI潜在的生存风险，然而他们自己却在构建这些模型。但这并不矛盾——他们解释说，这样做的原因是他们认为，如果没有访问最佳可用模型，就不可能正确地理解和减轻AI风险。

今天，访问开源模型正面临严重风险。欧盟AI法案可能基于与FAR类似的原则，有效地禁止开源基础模型。技术创新政策分析师Alex Engler在他的文章《欧盟试图监管开源AI适得其反》中写道：

“理事会监管开源的尝试可能会创建一套错综复杂的要求，危及开源AI贡献者，且可能无助于改进通用AI的使用。开源AI模型通过挑战大型技术公司对通用AI的统治地位，并实现关于AI功能的公共知识，提供了巨大的社会价值。”

首先，不造成伤害

FAR得出结论：“关于应对前沿AI模型挑战的最佳监管方法的不确定性不应阻碍立即行动”。但或许他们应该谨慎。事实上，AI政策专家Patrick Grady和Daniel Castro恰恰建议——不要急于采取监管行动：

“对新技术的恐惧遵循一个可预测的轨迹，称为‘技术恐慌周期’。随着公众对技术及其益处的熟悉，恐惧会增加、达到顶峰，然后下降。的确，创意领域中其他先前的‘生成’技术，如印刷机、留声机、电影放映机，也遵循了同样的过程。但与今天不同的是，政策制定者当时不太可能做太多事情来监管和限制这些技术。随着对生成式AI的恐慌进入最动荡的阶段，政策制定者应该深吸一口气，认识到我们正处于一个可预测的周期中，并将任何直接针对生成式AI的监管努力暂时搁置。”

也许监管者反而应该考虑希波克拉底的医学指导：“首先，不造成伤害”。医疗干预可能有副作用，有时治疗方法可能比疾病本身更糟。一些药物甚至可能损害免疫反应，使身体过于虚弱而无法抵抗感染。

监管干预也是如此。“确保安全”所带来的集中化和监管俘获影响不仅会对社会造成直接伤害，甚至可能导致安全性下降。如果只有一个大型组织掌握着巨大技术力量的钥匙，我们会发现自己处于一种脆弱的境地，因为社会其他部分无法获得同样的力量来保护自己。争夺权力的斗争甚至可能成为触发滥用AI导致社会崩溃的导火索。

AI监管的影响将是细微、复杂且难以预测的。保护社会与赋予社会自我保护能力之间的平衡是极其微妙的。急于监管似乎不太可能成功地走好这根钢丝。

我们还有时间。人类社会所有能力的总和是巨大的，AI要超越这种能力是一项艰巨的任务。某机构的技术专家Ted Sanders（曾赢得多项技术预测竞赛）与某机构的AI总监Ari Allyn-Feuer合作完成了一份长达114页的关于AI发展时间表的深入分析，得出结论：“我们估计到2043年出现变革性通用人工智能（AGI）的可能性小于1%。”

重要的是，时间越久，我们了解得越多。不仅是对技术的了解，还包括社会对它的反应。我们不应急于实施可能导致社会走上一条可能无法摆脱的反乌托邦之路的监管变革。

对高级语言模型AI安全的担忧并非新鲜事。早在2019年初，我就写了《关于AI零日威胁与某机构GPT-2的一些思考》，作为对某机构当时有争议且（在当时）不寻常的决定——不发布其新语言模型权重——的回应。在考虑这一决定时，我指出：

关于这个话题最深入的分析是论文《人工智能的恶意使用》。这篇论文的主要作者现在在某机构工作，并深度参与了关于模型发布的决策。让我们看看那篇论文的建议：

政策制定者应与技术研究人员密切合作，调查、预防和减轻AI的潜在恶意使用。
人工智能领域的研究人员和工程师应认真对待其工作的双重用途性质，让与滥用相关的考虑影响研究重点和规范，并在可预见有害应用时主动联系相关行为者。
应在研究方法更成熟的领域（如计算机安全）中确定最佳实践，并在适用的情况下引入AI领域。
积极扩大参与这些挑战讨论的利益相关方和领域专家的范围。

《人工智能的恶意使用》由来自14个机构的26位作者撰写，涵盖学术界、民间社会和产业界。其第一作者现在是某机构的政策负责人。有趣的是，看到作为FAR共同创建者之一，某机构已经与这些最初的理念相距多远。《恶意使用》论文的四项建议充满了谦逊——它们认识到有效的风险应对涉及“主动联系相关行为者”，向“拥有更成熟方法应对双重用途问题的研究领域（如计算机安全）学习”，以及“扩大参与讨论的利益相关方和领域专家的范围”。重点不在于集中化和控制，而在于外展与合作。

机器人末日的想法引人注目且吸引人。FAR警告我们必须“防范模型可能具有情境意识和欺骗性”，并链接到一篇文章，声称我们当前的路径“最终很可能导致全面的AI接管（即AI系统可能发动暴力起义或政变）”。这种想法可以推动我们去做任何让我们感觉更安全的事情。要抵制这种反应需要成熟和冷静的头脑。

古希腊人教导我们傲慢（Hubris）的危险：过度的骄傲、傲慢或自信。当我们过度自信地认为自己知道未来会发生什么时，我们很可能会反应过度，创造出我们试图避免的未来。如果我们为了避免AI末日，集中控制世界上最强大的技术，注定未来社会回归到一种封建状态，其中最宝贵的商品——算力——由少数精英拥有，那会怎样？我们将像俄狄浦斯王一样，被预言会弑父娶母，结果却因试图逃避这一命运的行为而最终恰恰实现了预言。或者像法厄同一样，过于自信能够控制太阳战车，偏离了父亲赫利俄斯为他规划的中间路线，结果差点毁灭地球。

《人工智能的恶意使用》指向了一种基于谦逊的不同方法：与多领域专家协商，与技术影响者合作，在一个从经验中学习的迭代过程中进行。

例如，如果我们采纳他们的建议并向计算机安全专家学习，我们会了解到该领域的一个关键理念是“通过隐匿实现安全”——即，以隐藏秘密作为安全和保障的基础——是无效且危险的。网络安全专家、某机构信息技术政策中心主任Arvind Narayanan和Sayash Kapoor在最近的分析中详细说明了许可和类似监管（“只有少数公司能够开发最先进的AI”）将导致的五种“主要AI风险”：

单一文化可能加剧安全风险
单一文化可能导致结果同质化
定义可接受言论的界限
影响态度和观点
监管俘获

我们如何走到这一步？

我认识的每个花时间使用GPT-4和Bard等工具的人都被它们的能力所震撼——包括我自己！尽管它们有许多错误（或称为“幻觉”），但它们几乎能在任何主题上提供各种帮助。我每天都用它们来做各种事情，从获得编程帮助到我女儿的玩耍点子。

正如FAR所解释的：

“基础模型，如大型语言模型（LLM），在大量、广泛的自然语言和其他文本（例如计算机代码）语料库上进行训练，通常起始于预测下一个‘token’的简单目标。这种相对简单的方法产生了具有惊人广泛能力的模型。因此，这些模型比许多其他类别的AI模型具有更通用的功能。”

它继续说：

“在关注可能具有危险、涌现能力的基础模型时，我们对前沿AI的定义排除了窄模型，即使这些模型可能具有足够危险的能力。例如，优化化合物毒性或病原体毒性的模型可能导致有意（或至少可预见的）伤害，因此可能更适合用更有针对性的监管来覆盖。我们的定义侧重于可能——而不仅仅是确实——拥有危险能力的模型。”

因此，作者提议“为负责任的前沿AI开发和部署制定安全标准”以及“授权监管机构识别和制裁不合规行为；或者通过许可前沿AI的部署甚至开发”。他们提议这样做是为了“确保”模型“为公共利益服务”。

假设这些提议被接受并制定了相应的法规。接下来会发生什么？有两种可能性：

AI能力的增长遇到瓶颈，虽然AI可能成为一项非常重要的技术，但我们未能达到可能摧毁社会的超级智能水平，或者
AI能力持续发展，直到成为人类历史上迄今为止最强大的技术力量。某机构CEO Sam Altman的预测被证明是有先见之明的，拥有这项技术的人可以“或许捕获宇宙所有未来价值的视锥”。

在第一种情况下，没有更多可讨论的。FAR中提出的监管在最坏的情况下是不必要的，并可能导致对一个相当有价值的产品领域产生一些监管俘获。那将是一种遗憾，但我们可以忍受。但这不是FAR提案旨在处理的情况——对于像我们已经拥有的常规技术的滥用风险，我们已经有大量简单、易于理解的方法，通常基于对滥用的责任（即，如果你使用某项技术做了坏事，你会有麻烦；制造该技术的人通常不会有麻烦，除非他们存在疏忽或以其他方式清楚直接地导致了坏事）。

因此，我们应该专注于第二种情况——即AI确实变成了一件大事的情况。需要明确的是，没有人确定这一定会发生，但许多长期研究AI的人认为这是一种真正的可能性。

人类最强大的技术

由于“通用”或“基础”模型，如某机构的GPT-4、某中心的Bard和某组织的Claude，我们现在已进入“通用人工智能”（GPAI）时代。这些模型是通用计算设备。它们能够回答（以不同程度的成功）你提出的几乎所有问题。

随着基础模型变得更强大，我们应该期望研究人员找到更多方法来使用它们改进数据、模型和训练过程。当前的模型、数据集创建技术和训练方法都相当简单——基本理念用几行代码就能概括。有很多相当明显的路径可以大大改进它们，没有理由相信我们已经接近这项技术的极限。因此，我们应该期望在未来几个月和几年内看到越来越快的技术发展周期。没有数据可以用来对它能走多远或接下来会发生什么做出明确的预测。许多研究人员和AI公司高管认为可能不存在实际限制。

但这些模型的训练成本很高。得益于技术进步，训练相同规模的模型成本越来越低，但模型本身变得越来越大。GPT-4的训练可能花费了大约1亿美元。所有当前最强大的模型，GPT-4、Bard和Claude，都是由美国（分别是某机构、某中心和某组织）和某国的大型公司训练的。

共同构建

已经存在许多监管举措，包括某机构科学与技术政策办公室的《AI权利法案蓝图》、某研究所的《AI风险管理框架》以及旨在保护美国人免受算法歧视的行政命令14091。

AI社区也开发了共享重要信息的有效机制，例如用于数据集的数据表、用于模型报告的模型卡以及生态系统图。法规可以要求数据集和模型包含关于它们如何构建或训练的信息，以帮助用户更有效、更安全地部署它们。这类似于营养标签：虽然我们不禁止人们吃太多垃圾食品，但我们努力为他们提供做出良好选择所需的信息。拟议的欧盟AI法案已经包含了对此类信息的要求。

尽管我们可以在此基础上进行很多有益的工作，但还有更多事情要做。AI世界发展迅速，我们每天都在学习。因此，重要的是要确保我们所做的选择保持未来的可选择性。现在选择一个单一路径并决定以不可阻挡的势头冲下去还为时过早。相反，我们需要能够作为一个社会，在新机遇和威胁出现时，迅速且以知情的方式做出回应。这意味着需要让来自所有相关领域的广泛专家以及受影响社区的成员参与进来。

我们能在政策制定机构中建立的能力越多越好。如果决策者没有对AI的深刻理解，他们几乎没有选择，只能听从行业意见。但正如某机构网络安全政策中心的国际政策主任Marietje Schaake所说：“我们需要让CEO远离AI监管”：

“想象一下，某金融机构CEO向国会解释说，因为金融产品太复杂，议员们无法理解，所以银行应该自行决定如何防止洗钱、启用欺诈检测和设定流动性贷款比率。他会被嘲笑出房间。愤怒的选民会指出，在金融危机期间，自我监管的效果有多好。从烟草巨头到石油巨头，我们已经从惨痛教训中认识到，企业无法制定无私的法规。它们既非独立，也无法创建与其自身权力相抗衡的力量。”

我们还应注意，不要让引人入胜的科幻场景分散我们对当下真实伤害的关注。变形金刚神经网络架构的共同创造者（该架构支撑着包括GPT-4在内的所有顶级语言模型）Aiden Gomez警告说：

“这项技术确实存在真实风险。有理由害怕这项技术，以及谁在使用它、如何使用。因此，把所有时间都花在辩论我们的物种是否会因为超级智能AGI的接管而灭绝上，是对我们时间和公众注意力的荒谬浪费……我真的希望公众知道，一些关于风险的更奇幻的故事[是没有根据的]。它们分散了应该进行的对话的注意力。”

反启蒙

如果面对一种新力量、面对不确定性、面对对我们安全的威胁，我们退缩到集中化、控制、将权力限制在少数人选手中，会怎样？这就是反启蒙。这是对带来启蒙时代的原则的逆转。

我们将创造一个“拥有者”和“未拥有者”的世界。“拥有者”（大公司、有组织犯罪、政府、所有说服朋友和家人为他们复制权重的人、所有访问黑客分发这些权重的暗网网站的人、所有复制它们的人……）可以构建越来越好的模型，这些模型（根据FAR）可以用于大规模宣传、生物和网络威胁开发，或者仅仅是为了确保你击败所有竞争对手并垄断最具战略性和盈利性的行业。

“未拥有者”对社会提供的价值微乎其微，因为他们只能通过狭窄的、提供有限（但“安全”）应用的入口访问AI。

对AI能力的商业控制的推动是危险的。创造了“休克疗法”一词（指“利用公众在集体冲击后的迷茫……来推行激进亲企业措施”的残酷策略）的Naomi Klein现在警告说，AI“很可能成为一种可怕的进一步剥夺和破坏的工具”。

一旦我们走上这条道路，就很难回头。事实上，这可能是不可逆的。技术政策专家Anja Kaspersen、Kobi Leins和Wendell Wallach在他们的文章《我们正在自动制造平庸和激进的邪恶吗？》中指出，部署糟糕的解决方案（如设计不当的监管）可能需要数十年才能撤销，如果该解决方案被证明对某些人有利可图的话：

“AI工具的快速部署与含铅汽油的部署有强烈的相似之处。汽油中的铅解决了一个真正的问题——发动机爆震。含铅汽油的发明者Thomas Midgley知道铅中毒，因为他自己患有此病。有其他危害较小的方法可以解决这个问题，只有当立法者最终介入，创建正确的激励措施来对抗销售含铅汽油所获得的巨额利润时，这些方法才被开发出来。”

随着集中化，我们将创造“拥有者”和“未拥有者”，“拥有者”将能访问一项使他们比其他人强大得多的技术。当巨大的权力和财富差异被创造出来时，它们会被那些最渴望权力和财富的人攫取，历史告诉我们，暴力是唯一能够消除这种差异的方式。正如约翰·F·肯尼迪所说：“那些使和平革命成为不可能的人，将使得暴力革命不可避免。”也许，凭借AI的力量以及为维持控制而创建的监控，即使是暴力也将成为一种无效的解决方案。

如果我们确实开始朝这个方向走，让我们睁大眼睛，明白它将带我们走向何方。

启蒙时代的脆弱性

在人类历史的大部分时间里，未来是可怕的。它不安全。它是未知的。我们以最简单和最明显的方式回应：集体地将信任寄托于比我们更强大的他人来保护我们的安全。大多数社会将教育和权力等危险工具限制在少数精英手中。

但后来情况发生了变化。一种新的思想在西方生根发芽。如果有另一种方式可以确保安全：信任整个社会的普遍善，而不是寄希望于强大的精英，会怎样？如果每个人都能接受教育呢？都能投票呢？都能使用技术呢？这——尽管需要再过几个世纪的进步才能完全实现其承诺——就是启蒙时代。

现在，我们中许多人生活在自由民主国家，很容易忘记这是多么脆弱和罕见。但我们可以看到，世界各地的国家现在正滑向威权领导人的怀抱。正如赫尔曼·戈林所说：“人民总是可以被引导去听从领导人的命令。这很容易。你只需要告诉他们，他们正在受到攻击……”

让我们明确一点：我们并没有受到攻击。现在不是放弃我们通过艰苦努力取得的平等和机遇进步的时候。没有人能保证你的安全，但我们可以共同努力，与AI一起构建一个为所有人服务的社会。

附录：背景

本文始于对《前沿AI监管：管理新兴公共安全风险》的红队评估。尽管红队评估在政策提案中并不常见（主要用于计算机安全），但它可能是需要的，因为政策提案可能存在未经仔细分析难以预见的风险。随着欧盟AI法案议会版本的发布（其中包含了对基础模型开发的全面新监管），以及其他司法管辖区要求我审查的其他类似的私人监管提案，我决定扩展我们的分析，以覆盖对模型开发的更普遍的监管。

在撰写本文期间，我与来自监管、政策、AI安全、AI能力、网络安全、经济学和技术转型社区的70多位专家讨论了这些问题，并查阅了300多篇学术论文。Eric Ries和我一起录制了几次专家访谈，我们将在未来几周内发布。

我们的观点是，社会成功过渡到AI未来最重要的基础是让全社会参与、参与并知情。因此，我们正在努力构建一个跨学科的社区资源，以帮助那些应对先进AI潜在机遇和威胁的人们。这个资源将被称为“AI解答”。您正在阅读的评估是该项目开发过程中产生的第一个公开成果。如果您是这一领域的政策制定者或决策者，或者您在任何领域进行的研究，觉得其成果可能对这一领域有用，我们希望听到您的声音！

致谢

Eric Ries在本文的整个开发过程中一直是我亲密的合作者，我非常感谢他的智慧、耐心和坚韧。非常感谢我们热心的审稿人提供的详细反馈：Percy Liang, Marietje Schaake, Jack Clark, Andrew Maynard, Vijay Sundaram, and Brian Christian。特别感谢FAR的作者之一Yo Shavit，他非常慷慨地花时间帮助我加强这篇对他自己论文的批评！我也非常感谢与Andy Matuschak进行的多次深入对话，他深思熟虑的分析对本文思想的形成至关重要。我还要感谢Arvind Narayanan, Sayash Kapoor, Seth Lazar, 和 Rich Harang，感谢Eric和我与他们进行的精彩对话。感谢某机构的Jade Leung和Governance.ai的Markus Anderljung同意审稿过程，并为我们提供了FAR的预发布版本以供研究。

脚注

尽管对论文作者公平起见——这是我未见在其他地方提及或解决的问题。
如果AI能力继续无限制地发展，将会发生这种情况。
前沿模型的成本可能继续上升。生成式AI初创公司最近筹集了13亿美元，并计划将大部分资金用于GPU。但仍有数百家公司即使在这样的成本下也能负担得起训练模型。（即使他们负担不起，这也意味着盗窃成为竞争的唯一途径。这并不意味着模型不会扩散。）
尽管FAR中未讨论这些问题。
至少，在AI最终强大到足以证明此类监管是合理的情况下。
这并不意味着模型开发不应考虑伦理或影响。诸如开源、负责任的创新、知情对话和民主决策等概念都是模型开发的重要组成部分。但这确实意味着我们不需要在开发阶段确保安全性。
截至2023年7月，唯一提供微调和激活功能的商用模型是较老、能力较弱的模型，且没有任何主要商用模型提供权重。某机构计划在未来为GPT-4提供一些微调和激活功能，但到那时他们将
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）