数学家所罗门诺夫为大语言模型奠基

科学发展，有时理论先行，有时则工程先出成果。随着大语言模型的成功，工程师们热衷于寻找其数学根据。事实上，特立独行的数学家所罗门诺夫（1926—2009）在20世纪60年代初期就为大模型奠定了数学基础。如今，他的理论开始被重新发现，并被期待能进一步为未来指明方向。毫无疑问，所罗门诺夫可算是大语言模型的先知。

1956年，人工智能两位先驱麦卡锡和明斯基在达特茅斯学院召开夏季研讨会，这标志着AI作为一门独立学科的建立。最认真对待会议的就是所罗门诺夫，他在达特茅斯待了整整一个暑假。

位于美国新罕布什尔州汉诺威镇的达特茅斯学院。

所罗门诺夫1947年进入芝加哥大学随费米主修物理，只获得硕士学位就离开象牙塔，开始了他半工半学、快乐但并不富贵的一生。在芝加哥求学期间，对他影响最大的是哲学家卡尔纳普。卡尔纳普的《概率的逻辑基础》一书被所罗门诺夫深研，受其影响，归纳推理成为他毕生的研究方向。顺便说一句，另一位AI开拓者司马贺（中国科学院外籍院士、诺贝尔经济学奖获得者）也听过卡尔纳普的数理逻辑课，从而萌生对机器定理证明的兴趣。

1952年所罗门诺夫结识了麦卡锡，那时后者还是普林斯顿大学数学系的博士生。麦卡锡认为所有数学问题都可以表达为图灵机求逆，而这正是所罗门诺夫想解决的归纳推理问题。所罗门诺夫认为麦卡锡的问题可以转化成“给定一个序列的初始段，求这个序列的后续”，即通过为已知数据建模，预测未来数据。反过来，麦卡锡则把所罗门诺夫的思想通俗解释为“假设发现一座老房子里有一台计算机正打印你说的序列，并接近序列的末尾，马上就要打印下一个字符，你敢打赌它会打印正确的字符吗？”用今天ChatGPT的术语来说，这就是“预测下一个词元”。

不久，所罗门诺夫又认识了语言学家乔姆斯基，这是他后来把语言作为研究例子的起点。

法国数学家博雷尔1913年考虑过这样一个问题：让猴子在打字机上随意敲字，能敲出《哈姆雷特》吗？博雷尔认为概率极小，但不是绝对不可能，这被称为“无限猴子定理”。阿根廷作家博尔赫斯的短篇小说集《小径分岔的花园》中收录了一篇哲理小说“巴比伦图书馆”，文中设想一个完美的图书馆，可以收藏由字母枚举产生的所有可能的书。这些思想实验都可以被看作是所罗门诺夫归纳法的特例。

达特茅斯会议结束前，所罗门诺夫写好一篇关于归纳推理的备忘录，给参会人员传阅。明斯基2011年回忆：“正是这篇文章让我从神经网络转向符号的思想”。但值得玩味的是，明斯基这一转向使得神经网络的研究停滞了20年，而最终又是神经网络首先实现所罗门诺夫归纳法。所罗门诺夫经过10年的深思熟虑，在1964年正式发表《归纳推理的形式理论》一文，奠定了60年后大语言模型的理论基础。

20世纪50年代，苏联数学家柯尔莫格罗夫对信息论和概率论有过深刻评价：“信息论在逻辑上先于概率论，而不是以后者为基础。”他认为图灵机比信息论更基础：一段信息所包含的信息量，可用最短生成这段信息的程序的长度衡量。这就是所谓“柯尔莫格罗夫复杂性”，它和所罗门诺夫归纳法是等价的。柯尔莫格罗夫在文章中引用所罗门诺夫的理论，使得他在苏联的名声比在西方更响亮。柯尔莫格罗夫的几位学生设立柯尔莫格罗夫奖章，第一届获奖者就是所罗门诺夫。

出生于阿根廷的犹太裔美国理论计算机科学家格里高里·蔡廷，只上了一年大学就辍学了。他19岁时独立地把所罗门诺夫和柯尔莫格罗夫的思想又“发明”了一遍。他的论文审稿人已知道柯尔莫格罗夫的工作并告知蔡廷，于是，蔡廷在1966年发表论文时，以脚注形式承认了柯氏的工作。

所罗门诺夫、柯尔莫格罗夫和蔡廷等人发明算法信息论的过程，颇有点像上世纪30年代，哥德尔、丘奇和图灵等人发现丘奇—图灵论题的过程：每项独立工作都是等价的。

时间到了2024年，理论计算机科学家李明获得了有信息科技诺贝尔奖之誉的麦克道尔奖，颁奖辞中提到李明对所罗门诺夫—柯尔莫格罗夫—蔡廷理论的推广。李明和另一位科学家维特涅合著的《柯尔莫格罗夫复杂性及其应用》则被誉为该领域的《圣经》。

大语言模型成功后，人们困惑为什么其底层架构的发明者谷歌反而落后于OpenAI。一种解释是谷歌的算法框架缺乏OpenAI框架所具备的坚实数学基础，即所罗门诺夫归纳法。OpenAI首席科学家苏茨凯弗之前对此含糊其辞，直到2023年才明确透露，所罗门诺夫—柯尔莫格罗夫—蔡廷理论正是其数学基础。大语言模型重新激活了这一具有60年历史的理论。值得一提的是，所罗门诺夫很早就意识到人工智能的安全问题，并提出“无限点”概念，该概念后被改称为“奇点”。

20世纪60年代，美国军方停止资助民间的独立科研，所罗门诺夫被迫成立他自己的咨询公司“牛桥”（牛津+剑桥的简称）以获取不多的政府研究经费维持生计，公司只有他自己一个雇员。他的学术自传《算法概率论的发现》历经修订，最新一版在他去世后被收录在为纪念他而设立的网站上。这样一位人工智能历史上最重要的科学家，一生都没有固定工作，也没有子嗣，但他很快乐。他的太太格蕾丝在悼念他的文章中说，认识他的年轻人都认为他是最快乐的长辈。

所罗门诺夫还是学术共同体“通用人工智能”（AGI）的创始人之一，他2008年参加AGI第一次会议，2009年去世。2010年AGI会议就是为了纪念他，会上晚辈们研读了他的最后一篇文章《算法概率论与AGI》。

回顾所罗门诺夫归纳法的发展过程，再来看大语言模型，我们会觉得也许不是理论落后于实践，而是太超前了。

（作者单位：乌镇智库）

数学家所罗门诺夫 为大语言模型奠基