当然,还有很多更复杂的系统,比如水车、磨坊,它本身也是进化的,开始很简单慢慢变得复杂,建造或者维护它的人是很多的,那么但是你仔细想,它是所有参与人的延伸。那么这样的话, Chinese Room所谓的悖论就更好理解了。约翰·塞尔(John Searle)想说的是,一个屋子里头关着一个人,他不懂中文,但是他有一个rulebook,能把中文字符翻译成英文。你问一个中文问题,塞一个纸条进来,然后他就能写一个中文字条出去。你会发现他能回答我的中文问题,所以你觉得这个中文屋子是懂中文的。你看这里没有一样的东西是真的懂中文的,我们的计算机实际上也是这样子的,它也是不懂中文的。这个例子恰恰证明,作为一个整体它是懂中文的。那么这个懂中文是哪个意义上懂的?你这个房子里头,假如说你的铅笔坏了,外面的人就会怀疑他懂不懂中文;假如这个懂英文的人,他不懂物理、不懂数学,你问他物理问题,这些问题他回答不了,你也会怀疑他懂不懂中文的,对不对?更重要的就是说,如果rulebook是100年前的,你问现在的问题,它很多词汇都没有。就是说它假如不够完美的话,它也回答不了这个问题。所以你会怀疑它不懂中文,所以需要一个完美的配合才懂中文。而且在这个rulebook里头最重要的是什么?就是说这个词典某种意义上是懂中文的,因为是根据它的字符来翻译的,那么词典的编纂者是懂中文的,只是他不在场而已。所以这个懂是这么迁移过来的。我们一旦迁移过来之后,他可以不在场。我们所有的人造物都是这样的,我们做一个钟表,实际上我们的意图是要让它报时,纯粹的自然的过程是要毁灭它的,是要让它有摩擦力,让它不准,让它锈掉。但是我们在造一个好的钟表的时候,我们尽量要采取措施,摩擦力尽量小,给它补充能量不让它生锈,尽可能维持它。我们是把我们的这个意图在它这里实现了。
所以我们说生命或者意识是反的,non-locality,它不是局限在那个点上,比如说我,我自己不是局限在某一个细胞上,至少是我整个身体代表我,甚至我周围的东西,甚至我写的东西、我讲过的东西,都是我的一个延伸。比如说孔子的东西,几百年后、1000年后还在那里,它可以延伸很远,它是超越时空的。所以在这个意义上,所有的东西就变得更好理解了,变得可理解了。实际上我们的后代本身也是我们的延伸,首先说这个基因传过去,但是他出生之后,我们的行为对他的影响,我们教他或者他受到各种周围的人和社会的影响,所以他不是一个孤立的个体,很多意识的内容都是迁移过来了,在他这儿连接起来,这也是人类意识的凝聚,只是说它凝聚的是哪一部分。其中有一个很重要的就是母语。母语实际上可以看作是一个操作系统。因为语言学里头的人,包括查尔默斯,你说他是天生的,但是即使父母讲中文,你把出生的小孩放在英文环境,他学的全是英文;那么你说他完全是后天的,也不完全对,因为有的系统就装不进去,不是说所有的东西都能教给他。所以我们从可迁移的角度才能更好地理解这些东西。我们最早写文章的时候是讲diffusion of consciousness,就是“意识的扩散”,当使用的“扩散”,也用“凝聚”。但是我现在更想讲说“迁移和凝聚”。“迁移”更有指向性,有方向。当然,我们的人造物,我们的计算机或者人工智能都是人造的。
GDP很明确就是把所有的人类的语料都放进去了,然后从某种意义上消化,然后凝聚在那里。它的本体世界,就是人类的语料,就是人类的意识内容。然后你再问它,它能给你回答那些东西。那么它更像是一个我们的直觉系统。所以大语言模型有这两件事很重要,一个是它是语言能力;另外一方面实际上它实现了直觉的系统。我们原来觉得直觉是很神秘的,直觉是没法计算的,但是某种程度上,大语言模型是实现了直觉的,至少是一部分。我猜想这基本上都是可以的。当然,它的代价是很大,我倒是不觉得它最终的形态是那个样子。这里头会遇到一个问题,就是我们能不能构建一个最小单元的mind。现在就是回到我们生命的过程,我们的意识进化的过程,实际上我们没有办法说一个最小单元的mind,这个mind也是一个广谱的,很简单的到很复杂的。最简单的可能就是钟表,钟表就是一个mind,只是它就只是指时间。我们人也可以很简单,一根筋。所以说它是很广谱的。AlphaGo、AlphaZero,再到AlphaFold,都是mind,都是在重构,把真实的物理世界重构了,或者它想象出来的一些路径。它已经是以很大程度上超乎了我们经典物理世界、经典的时空对它的限制,所以它就是mind。我们换一个视角的话就会这样看了。我们的GPT,3.0、4.0、5.0就是不同的mind,那么它的复杂度、它的能力就不一样。我们人也是这样的,不同的人就不一样。我们后面就简单讲一下可能的实现路径。一个就是说深度学习为什么那么成功?实际上就是比如反向传播或者是Self-Attention,就是attention of all your need,还有强化学习,这些东西都是在摆脱时空的约束。我们在调这些参数的时候,实际上是在找因果链。你给它一个图片,然后它给你一个猫狗的这个答案,你同时给了很多,然后你试图再调整,就是在找因果链。而且这个强化学习,就是我拿结果来标注前面的过程,这也是个因果链重构,但是它的毛病就是说它抓起的特征太多,它的可迁移性太差。我们人说鼻子,那你是一只鸟,鸟的鼻子在哪里?你可能找半天也找不到,但是你去找没准还真找到了。