人工智能历史回眸:达特茅斯会议

时间:2024-03-05 09:22:12

 

 

人工智能历史回眸:达特茅斯会议

 
1956年夏天,在美国东部的达特茅斯召开了一次觉有传奇色彩的学术会议,会上正式出现了“人工智能”这个术语。在那里,人们首次决定将像人类那样思考的机器称为“人工智能”。

后来,这被人们看作是人工智能正式诞生的标志。就在这次会议后不久,麦卡锡与明斯基两人共同创建了世界上第一座人工智能实验室——MIT AI LAB实验室。开始从学术角度对AI展开严肃而精专的研究。在那之后不久,最早的一批人工智能学者和技术开始涌现,从此人工智能走上了快速发展的道路。现在一说起人工智能的起源,公认是1956年的达特茅斯会议。殊不知还有个前戏:1955年,美国西部计算机联合大会(Western Joint Computer Conference)在洛杉矶召开,会中还套了个小会:“学习机讨论会”(Session on Learning Machine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(Oliver Selfridge)和纽厄尔 (Allen Newell),塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Pitts)(热爱数学,很聪明的年轻人),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。” 皮茨眼可真毒,这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。

 

 美国 * 达特茅斯学院

 

会议参加者(简介)


 

   开聊达特茅斯会议之前,先说六个最相关的人。首先,会议的召集者麦卡锡(John McCarthy)当时是达特茅斯学院的数学系助理教授。两年前(1954年)达特茅斯数学系同时有四位教授退休,这对达特茅斯这样的小学校真是不可承受之轻。刚上任的年轻系主任克门尼(Kemeny)之前两年才在普林斯顿逻辑学家丘奇(Church)门下得了逻辑学博士,于是跑到母校求援。这么说起来,克门尼算是图灵的师弟,他战时和物理学家费曼一起工作,还一度当过爱因斯坦的数学助理,后来一头扎在计算机里,和麦卡锡一起琢磨出了分时系统,但他最为人知的工作应该是老少咸宜的编程语言BASIC。现在估计已经没人知道BASIC语言发明人曾是LISP语言发明人的老板。克门尼是天生的官僚,后来位居达特茅斯的校长,美国三里岛核电站出事,总统委托他当调查委员会主席,这是后话。克门尼从母校数学系带回了刚毕业的四位博士前往任教,麦卡锡是其中之一。麦卡锡后来发明的LISP语言中最重要功能Eval实际就是丘奇的lambda演算,而且他后半生致力于用数理逻辑把常识形式化,大家由此猜他可能也是丘奇的学生,但其实不是,他压根学的就不是逻辑。他的老师是失去双手的代数拓扑学家所罗门.莱夫谢茨(Lefschetz)。但麦卡锡对逻辑和计算理论一直有强烈兴趣,他1948年刚到普林斯顿读研究生时就认识了冯.诺伊曼,在老冯影响下开始对在计算机上模拟智能发生兴趣。

         本次会议的10位参会人员 

 

 会议的另一位有影响力的参加者是明斯基。他也是普林斯顿的数学博士,和麦卡锡在读书时就相熟。他的主业也不是逻辑,尽管他后来写过计算理论的书,还培养过好几个计算理论的博士,其中就有图灵奖获得者布鲁姆(Manual Blum)。布鲁姆目前和他老婆(就是实数计算模型BSS的B)、儿子一家三口都在卡内基梅隆大学任教。明斯基的理论情结和丘奇关系也不大,他的老师塔克(Tucker)是莱夫谢茨的学生,主要搞非线性规划和博弈论,多年担任普林斯顿数学系主任,是数学世家,儿子、孙子也都是数学家。所以按辈分论,麦卡锡还是明斯基的师叔。塔克的另一名出色的学生后来得了诺贝尔经济学奖,就是心灵美丽的纳什。纳什比明斯基小一岁,但比他早四年拿到博士,也算是明斯基的师兄。明斯基的博士论文做的是神经网络,他在MIT一百五十周年纪念会议上回忆说是冯.诺伊曼和麦卡洛克启发他做了神经网络。有人还找过他麻烦,质疑说神经网络的研究算数学吗,倒是老冯力挺说:现在不算,但很快就得算。倒是明斯基自己后来和神经网络结下梁子,那段故事见我的《“想啥来啥”和“吃啥补啥”的人工智能之争》(《东方早报.上海书评》2014年9月28日)。

塞弗里奇被后人提及不多,但他真是人工智能学科的先驱,他在MIT时一直和神经网络的开创人之一沃伦.麦卡洛克(Warren McCulloch)一起在维纳手下工作,他是维纳最喜欢的学生,但从没读完博士,维纳《控制论》一书的第一个读者就是塞弗里奇。塞弗里奇是模式识别的奠基人,他也写了第一个可工作的AI程序。他后来在麻省理工参与领导MAC项目,这个项目后一分为二:MIT计算机科学实验室和人工智能实验室,分久必合:现在这俩地方又合并了,变成MIT CSAIL。顺便给女读者添点料:塞弗里奇的爷爷就是英国第二大百货店塞尔福里奇(Selfridges)的创始人,塞尔福里奇百货和隔壁的哈罗德百货支撑着牛津街的零售业,现在大概一半顾客来自中国二线城市。

信息论的创始人克劳德.香农(Claude Shannon)被麦卡锡拉大旗做虎皮也请到会上打酱油。其实麦卡锡和香农的观点并不一致,平日相处也不睦。香农的硕士、博士论文都是讲怎么实现布尔代数,当时MIT校长布什(Bush)亲自指导。博士毕业后他去了普林斯顿高等研究院,曾和数学家外尔(Weyl)、爱因斯坦、哥德尔等共事,战争中,他一直在贝尔实验室做密码学的工作,图灵在1943年曾秘访美国,和同行交流破解德国密码的经验,其间和香农曾有会晤,一起聊过通用图灵机。战后香农去英国还回访过图灵,一起讨论过计算机下棋。香农内向,从没说过这段往事,直到1982年接受一次采访时才提起。1950年香农在《科学美国人》发表过一篇讲计算机下棋的文章。香农比其他几位年长十岁左右,当时已是贝尔实验室的大佬。

另外两位重量级参与者是纽厄尔和司马贺(Herbert Simon)。纽厄尔是麦卡锡和明斯基的同龄人,他硕士也是在普林斯顿数学系,按说普林斯顿数学系很小,他们应有机会碰面,但那时纽厄尔和他俩还真不认识。他们的第一次见面,纽厄尔回忆是在IBM,而麦卡锡回忆是在兰德公司,纽厄尔硕士导师就是冯.诺伊曼的合作者、博弈论先驱摩根斯顿,纽厄尔硕士毕业就迁往西部加入著名智库兰德公司。在兰德开会时认识了塞弗里奇,并受到塞做的神经网络和模式识别的工作的启发,但方法论却完全走的是另一条路。

司马贺比他们仨都大十一岁(怀特海比罗素也大十一岁),那时是卡内基理工学院(卡内基梅隆大学的前身)工业管理系的年轻系主任,他在兰德公司学术休假时认识了纽厄尔。司马贺后来把纽厄尔力邀到卡内基梅隆大学,并给纽厄尔发了个博士学位,开始了他们终生的合作。

纽厄尔和司马贺的合作是平等的,司马是纽的老师,但他们合作的文章署名都是按字母顺序纽在前司马在后,每次他们受邀去演讲,都是轮流。司马每次见到别人把他名字放到纽厄尔之前时都纠正。他们共享了1975年的图灵奖,三年后司马贺再得诺贝尔经济学奖。纽厄尔和司马贺代表了人工智能的另一条路线:符号派,他们后来把他们的哲学思路命名为“物理符号系统假说”。简单地说就是:智能是对符号的操作,最原始的符号对应于物理客体。这个思路和英美的经验主义哲学传统接近。他们和当时的数学系主任、第一届图灵奖获得者阿兰.珀里思(Alan Perlis)一起创立了卡内基梅隆大学的计算机系,CMU从此成为计算机学科的重镇。

 

  达特茅斯会议


 

1953年夏天,麦卡锡和明斯基都在贝尔实验室为香农打工。香农那时的兴趣是图灵机以及是否可用图灵机作为智能活动的理论基础,麦卡锡向香农建议编一本文集,请当时做智能研究的各位大佬贡献文章,这本文集直到1956年才以《自动机研究》(Automata Studies)为名出版,这个书名最后是香农起的,他不想花里胡哨,但麦卡锡认为这没有反映他们的初衷。

文集的作者有两类人,一类是逻辑学家(后来都变成计算理论家了),如丘奇的两位杰出学生马丁.戴维斯和克里尼,后者的名著《元数学导论》国内有逻辑学家莫绍揆先生的译本。明斯基、麦卡锡也都有论文录入,香农本人贡献了一篇讲只有两个内部状态的通用图灵机的文章,文集录入的一篇冯.诺伊曼的论文后来开创了容错计算。文集的另一类作者几乎都是维纳的信徒,如阿什比(Ross Ashby)等,以控制论为基础。麦卡锡素不喜控制论和维纳,既不想把维纳当老大,也不愿和他见面争执,其中原因不详,或许和维纳与麦卡洛克吵翻了有关。麦卡洛克和皮茨两位为维纳《控制论》思想贡献多多的人物,在维纳的自传里压根没被提及。麦卡锡同时又觉得香农太理论,当时他想自立门户,只对用计算机实现智能感兴趣。于是他筹划再搞一次活动。

1955年夏天,麦卡锡到IBM打工(美国教授都是九个月工资,如果没有研究经费,夏天要自己觅食),他的老板是罗切斯特(Nathaniel Rochester),罗切斯特是IBM第一代通用机701的主设计师并对神经网络素有兴趣。他们两人倒是挺对脾气,决定第二年夏天在达特茅斯搞一次活动,他俩遂说动了香农和当时在哈佛做初级研究员(Junior Fellow)的明斯基(哈佛的Fellow还是挺值钱的,历史上人数不多,蒯因、王浩、库恩在变成正式教授之前都做过。乔姆斯基几乎在同时也是哈佛的Fellow)一起给洛克菲勒基金会写了个项目建议书,希望得到资助。美国富豪还是有文化传统,至少知道要资助好东西,值得中国土豪的后代学习,别像他们的父辈即使打着“办大学”的名义还是要骗钱。

麦卡锡给这个第二年的活动起了个当时看来别出心裁的名字:“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。普遍的误解是“人工智能”这个词是麦卡锡想出来的,其实不是。麦老晚年回忆也承认这个词最早是从别人那里听来的,但记不清是谁。后来英国数学家菲利普.伍德华(Woodward)给《新科学家》杂志写信说他是AI一词的始作俑者,麦卡锡最早是听他说的,因为他1956年曾去MIT交流,见过麦卡锡。但麦卡锡的建议书1955年就开始用“人工智能”了,人老了回忆真不靠谱。当事人除了明斯基之外,都已仙逝,这事恐怕要成悬案了。

大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词,以至他们发明的语言就叫IPL(Information Processing Language)。他们从某种意义上说偏功能学派,也就是说找到智能的功能不一定非得依靠结构相同或相似。图灵机和递归函数等价,但结构完全不同,所以他们强调“信息处理”。他们俩一开始颇不喜“人工智能”几个字。1958年,在英国国家物理试验室(NPL)召开了“思维过程机器化”(Mechanization of Thought Process)会议,达特茅斯会议的麦卡锡、明斯基、塞弗里奇都参加了,此外还有致力神经网络研究的麦卡洛克,以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了:巴克斯(Backus)发表了一篇关于他新发明的语言FORTRAN的论文,但他后来一直是函数式语言的倡导者;美国海军女少将格蕾丝.哈泊(Grace Hopper)的文章是讲第一个编译器的,这项工作导致了COBOL语言,中国也有女少将,也是码农。他俩论文的题目里都有Automatic Programming的说法,这在当时就是指高级语言编程,不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”(Artificial Thinking)的说法。司马贺等人由此也逐渐接受了AI的说法,他晚年还写了本书“人工的科学”,倒是把Artificial这个词更加放大了。

 

   AI历史的方法论


 

历史研究素有两种方法,基于事件的,基于课题(issue)的。人和事的八卦都属前种。纽厄尔在1981年为一本颇为有料的文集《信息研究》贡献的一篇文章“AI历史的智力课题”走了第二条路线。他的方法也挺有意思。他把AI历史当作斗争史,把历史分为两个阶级、两条路线的斗争,于是历史成了一串儿对立的议题,如模拟vs数字,串行vs并行,取代vs增强,语法vs语义,机械论vs目的论,生物学vs活力论,工程vs科学,符号vs连续,逻辑vs心理等,在每一议题下有进一步可分的子议题,如在逻辑vs心理下又有定理证明vs问题求解等。

被提到最多的是人工智能vs控制论。在Google ngrams里试试Cybernetics和Artificial Intelligence两个词在Google Books里出现的词频,可以看出学科的起伏跌宕。前苏联,倒是一直用“控制论”指称AI,人工智能和铁幕是一个节奏。美国最早办的一批计算机相关的系科都创办于1960年代中期,那时有些系直接叫“计算机科学系”,而有些则叫“计算机与信息科学系”,带“信息”的都有些“控制论”的背景,如麻省大学计算机与信息系的创办人就有维纳的学生麦克.阿比卜。而密歇根大学则叫计算机与通讯科学系。这些系后来都改名叫计算机系了。而原来的图书馆系现在都纷纷改名叫信息科学系,如伯克利和华盛顿大学的图书馆学院都改名叫信息学院(School of Information),连“科学”都省了。但现在计算机系又有加载信息的趋势,麻省大学和加州大学厄湾分校近年又改名叫信息与计算机科学学院了。大概和现在深度学习及神经网络又峰回路转有关吧。倒是中国的学科简单,一直都有计算机和自动化之分,老死不相往来罢了。

“人工智能”这个词真正被共同体广泛认可是在十年后的1965年,当伯克利的欧陆派哲学家德雷弗斯(Hubert Dreyfus)发表了《炼金术与人工智能》一文之后。这篇文章一开始只是针对纽厄尔和司马贺的工作,几年后这篇文章演变成了那本著名的(或者被AI圈子称为“臭名昭著”的)《计算机不能干什么》一书,则是把整个AI当作靶子。欧陆派哲学家被人诟病数学和科学不通,但德雷弗斯有个数学家的兄弟,和他同一年在哈佛得了应用数学博士,后来又同在伯克利教书,是动态规划的大家,还带过神经网络的博士。哥俩一个立场。有时一个共同体的形成并不是靠内部的团结,而是靠外部的反对。有意思的是《炼金术》一文是德雷弗斯在兰德公司工作时写就的。司马贺后来撰文猛批德雷弗斯,说他滥用兰德公司的标签。德雷弗斯后来抱怨他在MIT和哈佛食堂吃饭,所有AI的人都躲他远远的。学术争执哪儿都一样。

麦卡锡和明斯基的建议书里罗列了他们计划研究的七个领域:一、自动计算机,所谓“自动”指的是可编程;二、 编程语言;三、神经网络;四、计算规模的理论(theory of size of a calculation), 这说的是计算复杂性,明斯基后来一直认为计算理论是人工智能的一部分,他早期对理论问题时不时会动动手,后来一手组建了MIT的计算理论队伍;五、自我改进,这个是说机器学习;六、抽象;七、随机性和创见性。

麦卡锡的原始预算是一万三千五百美元,但洛克菲勒基金会只批了七千五百美元。麦卡锡预计会有六位学界的人出席,会议应该支付每人两个月的薪水一千两百美元,由此可推算出麦卡锡、明斯基当时的年薪在八千美元左右。

除了那六君子外,另外还有四人也参加了达特茅斯会议。他们是来自IBM的撒缪尔(Arthur Samuel)和伯恩斯坦,他们一个研究跳棋,一个研究象棋。达特茅斯的教授摩尔(Trenchard More)也参与了,他后来在工业界混的时间长,少为外人所知。达特茅斯会议中一位被后人忽视的先知是所罗门诺夫(Solomonoff)。

和其他来来往往的人不同,所罗门诺夫在达特茅斯严肃地待了整整一个暑假。他1951年在芝加哥大学跟随费米得了物理硕士就到了MIT。但在芝加哥对他影响最大的是哲学家卡尔纳普。有意思的是神经网络的奠基者之一皮茨也受惠于卡尔纳普。司马贺的回忆录里也讲到自己在芝加哥时听卡尔纳普的课开始启蒙逻辑,从而开始对智能相关的问题感兴趣。这么说来人工智能的两大派:逻辑和神经网络都发源于老卡。这个话题以后有机会再展开。卡尔纳普那时的兴趣是归纳推理,这成为所罗门诺夫毕生的研究方向。所罗门诺夫后来结识了明斯基和麦卡锡,在他们的影响下研究逻辑和图灵机。达特茅斯会议时,他受麦卡锡“反向图灵机”和乔姆斯基文法的启发,发明了“归纳推理机”。他的工作后来被万能的苏联数学家柯尔莫格罗夫(Kolmogorov)重新但又独立地发明了一遍,就是现在俗称“柯尔莫格罗夫复杂性”和“算法信息论”的东西。来自中国的计算理论学者李明现在是这领域的大牛,曾有专著。柯尔莫格罗夫1968年开始引用所罗门诺夫的文章,使得后者在苏联的名声比在西方更加响亮。所罗门诺夫的另一个观点“无限点”(Infinity Point)后来被未来学家库兹维尔改名“奇点”窃为己有。目前AI中广泛用到的贝叶斯推理也可见到所罗门诺夫的开创性痕迹。他一生并没有大富大贵,大部分时间都是在自己的咨询公司Oxbridge(牛津+剑桥,汉语俗称“清北”)拿*(空军、海军、ARPA和NIH——NIH资助了很多AI研究,以后有空再聊)的研究经费,那公司只有他自己一个雇员。伦敦大学皇家哈洛威学院(Royal Holloway)后来在前苏联学者领导下搞柯尔莫格罗夫奖,他是第一届获奖人,并在那里兼职教授。他的学术自传1997年发表在计算理论杂志《计算机与系统科学》上。明斯基所谓AI孵化出计算理论的说法不是没有道理。

按照麦卡锡和明斯基的说法,这十个人参加了达特茅斯会议,但现在有证据表明会议也有其他的列会者,后来一直做神经网络硬件研究从而躲过AI几十年过山车的斯坦福大学电机系教授维德罗(Bernard Widrow)后来回忆他也去了达特茅斯并且在那儿待了一周。

麦卡锡原来的计划是两个月闭门研讨,但并非所有人都对那个事那么上心。纽厄尔和司马贺只待了一周。纽厄尔后来回忆说达特茅斯会议对他和司马没什么影响。

尽管是“十仙过海”,但给所有人留下最深印象的是纽厄尔和司马贺的报告,他们公布了一款程序“逻辑理论家”(Logic Theorist),这个程序可以证明怀特海和罗素《数学原理》中命题逻辑部分的一个很大子集。司马贺回忆录里说自己学术生涯最重要的两年就是1955和1956年。这篇文章后来成了AI历史最重要的文章之一。一段有意思的插曲:这篇文章最早是投给逻辑学最重要的刊物《符号逻辑杂志》的,但惨遭主编克里尼退稿,理由是:把一本过时的逻辑书里的定理用机器重证一遍没啥意思。纽厄尔和司马贺给罗素写信报告这一成果,罗老不咸不淡地回复说:“我相信演绎逻辑里的所有事,机器都能干哈。”

值得注意的是“逻辑理论家”对人工智能后来的一个分支“机器定理证明”的影响并不大。哲学家王浩1958年夏天在一台IBM-704机上,只用九分钟就证明了《数学原理》中一阶逻辑的全部定理。当然《数学原理》中罗列的一阶逻辑定理只是一阶逻辑的一个子集,目前,一阶逻辑的机器定理证明比起五十年代已有长足进展,但仍然没有高效的办法。毕竟,王浩证明的是一阶逻辑而“逻辑理论家”只能处理命题逻辑。数学家马丁.戴维斯和哲学家希拉里.普特南合作沿着王浩的思路进一步提出了戴维斯-普特南(DP)证明过程,后来进一步发展为DPLL。王浩对“逻辑理论家”一直持鄙视的态度,认为这是一个不专业的东西。王浩在1983年被授予定理证明里程碑大奖,被认为是定理证明的开山鼻祖。司马贺在他回忆录里则对此不满,认为王浩的工作抵消了“逻辑理论家”的原创性,他们的初衷并不是要有效地证明定理,而是研究人的行为。这是后话,我后续还会有《机器定理证明简史》。

麦卡锡多年后回忆说:他从纽厄尔和司马贺的IPL语言中学到了表处理,这成为他后来发明LISP的基础。明斯基后来接受采访时说他对纽厄尔和司马贺的“逻辑理论家”印象深刻,因为那是第一个可工作的AI程序。但事实上,明斯基当时为大会写的总结里对“逻辑理论家”只是轻描淡写。麦卡锡和明斯基明显是一伙的,会议是他们发动的,旨在创立一门新学科。但纽厄尔和司马贺却抢了他们的风头。美国上世纪五十年代的学术氛围也不免浮躁,这一帮人又都是年轻气盛、野心十足。

 

  会议之后


 

达特茅斯会后不久,1956年9月IRE(后来改名IEEE)在MIT召开信息论年会上,麦卡锡被邀请做一个对一个月前达特茅斯会议的总结报告,这引起了纽厄尔尤其是司马贺的不满,他们认为麦卡锡只能聊,没干货,而达特茅斯会议唯一的干货是纽厄尔和司马贺的程序“逻辑理论家”(Logic Theorist)。打了一圈架,最后纽厄尔和司马贺做了妥协:麦卡锡先做总结报告,但最后还是由纽厄尔和司马贺讲他们的“逻辑理论家”并发表一篇题为Logic Theory Machine的文章。明斯基认为是他的协调起了作用,但纽厄尔晚年则只对香农的邀请有印象,而司马贺的回忆录则说是大会的主席罗森布利特和司马贺散了很长一圈步才了断。明斯基机敏异常,讲话时带幽默,但在对这段历史的重构中,却给人印象有点太“刁滑”(cynical),原因也不难猜出。研究历史有时必须得全方位,空间或时间上的接近不见得就真实。太接近时,当事人还都活着,还在一个圈子里混,不方便互相揭短。但在接近生命末期,或者功成名就或者人之将死或者对头已死无所顾忌,敞开了说,有时虽有夸张,但一不留神就会流露真话,纽厄尔属于后者。明斯基“刁滑”可能和他身体好有关系,偌大岁数也没不惑,觉得还有好长路要走。

科学达人弗里曼.戴森在他的《一面多彩的镜子》一书中借鉴过以赛亚.伯林“刺猬与狐狸”的比喻:刺猬是那些构建理论体系的人,而狐狸则是那些解决问题的人。在他眼里:爱因斯坦、哥德尔是刺猬;而费米、冯.诺伊曼属狐狸。科学史有时刺猬得势,有时狐狸当道。是不是可以说纽厄尔和司马贺更像刺猬,而麦卡锡和明斯基更像狐狸呢?具体到AI的源头和达特茅斯会议,麦卡锡认为他和明斯基是发起人,纽厄尔和司马贺是“外人”,是搅局者。明斯基的解释是纽厄尔和司马贺一开始的出发点是心理学,这与麦卡锡和他本人的背景不符。但在随后的十年里,他本人更多地走向心理学,而纽厄尔和司马贺更靠近AI,也没什么矛盾。麦卡锡除了和明斯基关系紧密外,和其他AI群体的交流并不多,在所谓其他群体中,最有影响当属卡内基梅隆了。麦卡锡晚年回忆说那时群体之间的沟通主要是通过研究生,研究生就像大佬们的大使。后来斯坦福、CMU、MIT的学生确实互为教授,门户之见随着时间的推移逐渐被抹平了。

总之,1956年IRE信息论年会是个值得纪念的会议,除了纽厄尔和司马贺发表的那篇文章之外,心理学家乔治.米勒(George Miller)发表了《人类记忆和对信息的储存》(Human Memory and the Storage of Information),这是那篇著名的文章《魔力数字七》(The Magic Number Seven)的另一个版本,不知算不算一稿多发。同在此会上,伟大的乔姆斯基则发表了《语言描述的三种模型》(Three Models for the Deion of Language),该文证明了有限状态句法不能表达某类语言,这是乔姆斯基分层的起源,文中引用了还没出版的不朽名著《句法结构》。乔姆斯基当时刚刚到MIT现代语言学系(该系后来演变为语言学与哲学系)出任助理教授并在MIT电子实验室做机器翻译的研究。尽管乔老爷后来是反*斗士,但有点反讽的是他的早期研究经费都来自美国空军和海军。

从参与者的角度看,大家会认为这次IRE的信息论年会比达特茅斯会议更重要,影响也更深远。乔治.米勒回忆说他当时直觉认识到实验心理学、理论语言学、认知过程的计算机模拟,都是一个大家伙里面的组成部分。这个所谓的大家伙就是现在的人工智能加认知科学吧。

明斯基回忆自己在达特茅斯会议期间,在纸上画了一个几何定理证明器的设计,并手动模拟证明了等腰三角形的一个定理。会后的1956年9月,IBM招了新毕业的物理博士格兰特(Herb Gelernter)实现明斯基的几何定理证明器。麦卡锡此时受到纽厄尔和司马的影响,建议在Fortran里实现表处理语言,作为实现语言。这个项目在1959年实现后,IBM削减了AI的投入,把这项目砍掉了,理由是IBM不想给人以机器可以替代人的印象。IBM再次资助AI是二十几年后的1983年了,现在好像IBM百年老店只能靠AI系统Watson翻身了。

麦卡锡1958年离开达特茅斯去了MIT,他帮助创立了MIT的MAC项目。他和明斯基一起领导了MAC项目中的AI实验室,1962年他再次跳槽到斯坦福。之后明斯基又和帕伯特(Papert)合作。计算机操作系统里“分时”的概念是由麦卡锡在MAC项目中首创的。他回忆说当时机器太少,但等着上机的学生很多。于是就发明了分时系统。按说分时系统的贡献要比麦卡锡后来的AI贡献彰显得多,但麦卡锡得图灵奖可不是靠“分时”,这就像爱因斯坦得诺奖没靠相对论一样。从这个意义上AI有点像哲学:由此衍生出很多问题,而对这些问题的解决产生出许多子学科;一旦这些子学科独立,就不再待见AI了。现在计算机科学已成为成熟的学科,每个计算机系大都有三拨人:理论、系统和AI。二十年前的美国计算机圈子曾有一种说法:理论和系统的人互相看不起,但又同时看不起AI的人。AI这几年火了,但曾几何时,AI人是被压迫者。哲学曾经孕育了科学,但一旦问题被确定,就分离成为单独的科学,最新的例子是逻辑学,现在的逻辑学家都在数学系和计算机系,哲学系被彻底空洞化。哲学家丹尼尔.丹尼特曾说:AI就是哲学。MAC项目孕育了计算机科学中很多原创的概念。以至于明斯基后来认为UNIX系统是反动落后的东西,因为他们丢掉了很多Multics中的精华。

1968年,参议院多数党领袖曼斯菲尔德对“先进研究项目局”(ARPA)的资助方向不满,他认为国防部的钱不能被用于军事目的之外,非军事目的的项目应该由美国国家科学基金会NSF负责。于是,ARPA遂改名DARPA,更强调“国防”。七十年代初期在海尔梅尔(George Heilmeirer)任内,DARPA大砍AI预算。协调*和AI实验室的工作变得头绪繁多,明斯基决定从AI实验室退位,让他刚毕业的学生温斯顿(Patrick Winston)接手。

尽管明斯基说他不喜事务性工作,但他的采访和回忆中,触及的话题总是和联邦*的资助有关。温斯顿后来回忆时说,管理一个成功的实验室要管理好三个圈的交集:出资人(主要是*)、科学上有创建、有国计民生的价值。他试图说服几任ARPA的头别把AI当作一个几年一次的项目,而是长期而独立的一门学科。另外他对比了早期ARPA和NSF的不同,NSF给钱少,而且都是同行评议制,结果是越有成就的(established)拿的钱越多,但很少会有根本性的原创性贡献,ARPA早期都是头们说了算,好处是如果管事的头们品味好,肯定会支持好东西。这点也值得中国科技人的借鉴:大型项目决策者的品味可以超越“透明计算”吗?

再说回海尔梅尔,他以AI不能帮助造武器打仗为理由。削减了对AI的大规模经费,但同时却重金资助了隐形飞机和空间武器技术,使美国在相关领域一直保持领先。ARPA资助的这类项目要是通过同行评议是很难实施的。ARPA几乎在同时也支持了ARPAnet,后来演变成互联网。有意思的是,海尔梅尔从ARPA离任后去了德州仪器(TI)做CTO,在TI却大力提倡AI。ARPA对AI的资助在克柔克(Steve Crocker)手里才逐步回复。大家知道克柔克是互联网的先驱之一。再后来的ARPA信息技术办公室(IPTO)的负责人中还有图灵奖获得者萨瑟兰(Sutherland),也对AI继续投入。精英制风格的ARPA,更适合做大型开创性项目,成功取决于少数决策者;而以*制为基础的NSF,历来就是小规模资助基础研究。

 

预测未来:会有奇点吗?


 

司马贺1957年曾预言十年内计算机下棋会击败人。1968年麦卡锡和象棋大师列维(David Levy)打赌说十年内下棋程序会战胜列维,最后赔了列维两千块。乐观的预言总会给对手留下把柄:德雷弗斯后来每年都拿此事嘲讽AI,说计算机下下跳棋还行,下象棋连十岁的孩子都干不过。这便宜话一直说到1997年,IBM的下棋程序“深蓝”击败了卡斯帕罗夫。这真是“四十年太久,只争朝夕”啊。在1995年卡斯帕罗夫还在批评计算机下棋缺乏悟性(insights),但1996年时他已经开始意识到“深蓝”貌似有悟性了。而两年间“深蓝”的计算能力只不过提高了一倍而已。有没有悟性其实就是人的能力的极限。量变到质变的临界点就是人的解释能力,人解释不了的东西就有悟性,解释了的东西就没有悟性。司马贺和日本计算机科学家宗像俊则(Munakata)合写了篇解气的文章《人工智能的教训》(AI Lessons)登在《ACM通讯》上。现在两台普通计算机对弈,人类高手都看不懂了,所有棋手现在都用机器做教练。

当然,德雷弗斯们还可以将“计算机仍然不能干什么”加上若干个“仍然”接着批评。明斯基1968年在库布里克的电影《2001太空漫游》的新闻发布会上曾大放厥词说三十年内机器智能可以和人有一拼,1989年又预言二十年可以解决自然语言处理。现在我们恐怕还不能说机器翻译器令人满意吧。过分乐观的另一个原因,照明斯基自己的说法是,一门年轻的学科,一开始都需要一点“过度销售”(excessive salesmanship)。但是过头了不免被人当作狗皮膏药或炼金术。

2006年,达特茅斯会议五十年,十位当时的与会者有五位仙逝,活着的五位:摩尔、麦卡锡、明斯基、塞弗里奇和所罗门诺夫在达特茅斯团聚,忆往昔展未来。参会人之一霍维茨(Horvitz)现在是微软实验室的头目,他和他老婆拿出一笔钱在斯坦福捐助了一个“AI100”的活动:在下面一百年里各路豪杰聚会,每五年出个AI进展报告。第一期原定于2015年底出版,我们拭目以待。

乔姆斯基晚年边做学问边做斗士。2015年3月他和物理学家克劳斯对话时被问及“机器可以思维吗?”,他套用计算机科学家戴客斯特拉(Dijkstra)的说法反问:“潜艇会游泳吗?” 如果机器人(300024)可以有意识(consciousness)的性质,机器人可以被认为有意识吗?他进一步说“意识”是相对简单的,而“前意识”(preconsciousness)是困难的问题。他把AI分成工程的和科学的。工程的,如自动驾驶车等,能做出对人类有用的东西;科学的一面,乔老爷明显不认可。他引用图灵的话:这问题too meaningless to deserve discussion(没有讨论的意义)。当一帮奇点理论的粉丝带着正面的期望采访乔姆斯基时,他却对人工智能这个被他深刻影响过的学科没太当回事,他认为气候和毁灭性武器是比奇点更紧迫的问题。这算有意回避吧。

明斯基在2012年接受他的学生、预言家、奇点理论炮制者库兹维尔的采访时说,他相信奇点的到来,可能就在我们的有生之年。两位“斯基”在MIT一百五十年纪念会上分在一个小组讨论里,却只打了下太极,并没有针锋相对。他们尽管年长,但身体都挺好,如果他们能在2016年达特茅斯会议六十年时面对面掐一架,肯定会很精彩,反正住得也不远。

       暮年再聚首

2006年,当年的10个主要人物,只有5个人参加了, 参加者从左到右依次为:摩尔、麦卡锡、明斯基、赛弗里奇、所罗门诺夫。

2016年,达特茅斯会议,60周年。基本的人物,都物是人非,深度学习重新成为技术的热点。从应用计算,到了智能计算的回归。

 

 

附录: 1956年AI会议的7个主要议题


 关于人工智能的发展,如果谈到起源,大部分的人都会聊到Dartmouth Workshop,发起人主要有四位,J. McCarthy、ML Minsky、N. Rochester、CE Shannon。此会议的全名为Dartmouth Summer Research Project on Artificial Intelligence(达特茅斯夏季人工智能研究计画),会议名称中加入Summer整个让人很青春,实在是很想坐个时光机去体验体验。

「人工智能」这个名词在会议中确实成为正式的学术用语,在参考此会议的相关资料时,我找到了会议的文献,下载点我

下列是会议中提到人工智能在各方面的议题:

1. 自动计算机(Automatic Computer)

假如一个机器能够工作,自动计算机就能被编程而模拟这种机器。现有的电脑执行速度与记忆体容量或许不足以模拟许多更高端的人脑功能,但主要的障碍并不是机器缺乏容量,而是我们撰写程式的能力不足,没办法发挥我们拥有的所有优势。

2. 如何为计算机编程使其能使用语言(How Can a Computer be Programmed to Use a Language)

我们推测人类的思想大部分由语言的运用组成,语言的运用又根据推理与假设的规则。以这样的观点而言,形成推广能力(generalization)是藉由接收到新的字词与一些规则,这些规则来自字词在句子中的使用,或他人的使用。上述这样的观念从来没有被精确的公式化,也没有实作的案例。

3. 神经网路(Neuron Nets)

如何安排一堆假想的神经元,进一步形成思想?相当多的理论性质与实验性质的研究已经着手处理这样的问题,投入的学者有Uttley、Rashevsky与他的团队、Farley和Clark、Pitts和McCulloch、Minsky、Rochester和Holland等人…,已经拥有部分的研究成果,但此类问题仍然需要更多理论研究。

4. 计算规模理论(Theory of the Size of a Calculation)

假如我们接收到一个明确的(well-defined)问题,这类问题可以机械性的检验且不论它的答案是否有效,其中一种解决方法就是依序测试它所有可能的答案。此种方法是低效率的,除非我们能够对此种解法提出计算效率的标准。一些想法说明了,若要取得效率计算的测量结果,拥有测量复杂度的计算方法是必须的,这样的问题在复杂度函数的理论基础下得以完成。Shannon和McCarthy拥有这类问题的部分研究成果。

5.自我改进(Self-Improvement)

大概一个真的智能机器会执行的活动,它最好的描述就是自我改进。这方面的问题已有提出一些方案,值得未来研究。这类问题似乎也值得理论性地研究。

6. 抽象(Abstraction)

“抽象”的种类有许多种,一些可以明确定义,一些则否。我们强烈的企图是区分这些”抽象”而且描述机器是如何透过一些方法使感知或其他资料形成”抽象”,而我们的企图似乎是值得的。

7. 随机性与创造性(Randomness and Creativity)

创意思考与缺乏创意的务实思考,它们之间的差异是受到一些随机性的刺激,这个想法相当吸引人而且尚未有完整的推测。随机性必定是牵制于直觉与效率。换句话说,在指导机器猜测或做出直觉,应该是试图掌握随机性,而非规律性地思考。

 在自动计算机的议题中,提到

The speeds and memory capacities of present computers may be insufficient to simulate many of higher function of the human brain, but the major obstacle is not lack of machine capacity, but our inability to write programs taking full advantage of what we have.

这段叙述将「电脑现有的能力不足」这个命题否定,将人工智能的发展责任放回人类本身。在现代的趋势中,电脑的效能确实能够越来越好,但整个人类社会能够驾驭电脑的能力,是不足以使电脑,甚至人类自身发会完全的优势。叙述中显示了学者对于人工智能的积极思想,以及承认了,在人工智能的发展过程中,人类也是需要向前迈进的。

  •  在如何为计算机编程使其能使用语言中,描述了一个自然语言处理的雏型,

Forming a generalization consists of admitting a new word and some rules whereby sentences containing it imply and are implied by others.

  • 在翻译的过程当中,我一直在思考generalization的意思,因为这个词让人感觉并不浅白,也难以用小篇幅解释。个人是用皮亚杰的认知发展理论来理解这个词汇。如何为计算机编程使其能使用语言的议题中,就是探讨人类学习语言的方式在电脑上是否能够执行。然而,上述这段话是在叙述人类是透过新字词的使用与观察他人的使用方式,建立起规则,进而形成推广能力。
  •  在随机性与创造性的议题当中,我认为这段话,不只是让学者了解研究方向,更是给所有现代社会一种处世态度。

The educated guess or hunch include controlled randomness in otherwise orderly thinking.

看来人工智能是朝向「控制随机」的方向发展,而不是「规律思考」。虽然世界上各式各样的人都有,思考方式也相当多元,但能够走得长远的思想,到底要具备哪些条件?何种思想,才称得上「智慧」?Dartmouth Workshop是赞成「控制随机」是「智慧」,这给了身在人工智能领域的人一个启示,如果一个电脑是一直规律地执行既定的程序,那么就不是人工智能。那么,至于人生呢?你认为「控制随机」是「智慧」吗?

 

 最后附上会议中很重要的一句话。

The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.

此研究基于一个推测,任何面向的学习与智能都能被精确地描述,使得人们可以制造一台机器来模拟它。

这段话让我联想到「深度学习之父」Geoffrey Hinton所说的,要理解一部汽车,可能需要着手制造它,那么要了解人类的心智,也同样需要着手试试。

Geoffrey Hinton的相关影片分享,点我