蔡恒进 | 智能的起源、进化与未来

阿里 · 发表于 2024-11-4 22:02:45

意识和智能在生命一开始就展现出来，只有拥有了自我意识，有了主体性，有偏向地达成某个目标，智能才有意义。随着意识与智能的进化，主体逐渐脱离物理世界必然性的掌控，因果链重构能力逐渐提升。当下人工神经网络的深度学习过程也是对因果链进行重构的过程，因此很成功。大语言模型已经继承了人类意识和智能，实现超越也有可能。人机之间已无真正壁垒，超级人工智能近在咫尺。未来元宇宙可以作为人类进入AI世界的入口，个人的分身可以作为元宇宙中的节点，与其它机器节点共生共业，形成人类世的超级智能。

6月24日，智酷371期，武汉大学计算机学院教授蔡恒进分享《智能的起源、进化与未来》。以下根据蔡恒进老师发言内容整理而成：感谢王俊秀老师的介绍。非常荣幸有这个机会在这里来做分享。实际上是6个月前就计划的，因为有变故推迟了半年。非常感谢各位来参加，特别是晓力老师、十三维老师、王中老师、李斌老师。我今天可能更focus在更基础的地方，大概这三个方面，意识与智能的起源、意识与智能的凝聚、AGI的可能实现路径。意识与智能的起源我几年前就画了这张图（图1），后来随着图灵奖的更新又在更新。这个图实际上看起来是很奇怪的，原来的数字更奇怪，差不多是等差数列上去然后等差数列下来，但是左边跟右边明显是不对称的。图灵奖得主都是1965年之前的。而且1961至1965年才一个人，最多的是1941年到1945年的。

图1 图灵奖得主统计

这个图我想说明什么？我们中国人工智能领域跟西方最大的差别在哪里？大家有时候说我们现在落后半年，有的说落后两年，有的说我们的数据不好，有的说我们的算力被卡脖子。当然，我觉得更重要的就是理念上很不一样。在我看来，现在做 AI的这些人都是看科幻小说长大的。我觉得得图灵奖的这些人很多早期都受这个影响，比如说50年代是阿西莫夫的黄金10年，阿西莫夫是写科幻小说的一个标志性的人物。而且1957年是第一次苏联的人造卫星上天，这些人40年代出生的都还是teenager或者年纪更大一点的。

我们以为还有什么好的新的技术没出现，我们在等着新的技术、新的思想出现。但实际上从图灵奖的分布早就出现了，他们一直是在做这个事了，反而是后面的这些年轻的很难有新的思想。这里明显有一个断层，1945年前面出生的更容易得奖，后面更不容易得奖，显然这不是一个正态分布。所以我觉得在理念上讲，我们真正落后的是，他们早就有这些思想准备，而我们没有。到现在我们很多人都不相信AGI能很快实现，很抵触。他们的思想里头有一个很重要的就是，他们相信AGI会很快实现，实际上是基于一个强还原主义的理念，或者是强计算主义，这两个是手拉手的。

一个重要的人物就是David Deutsch。他是一个典型的代表。他说“人工通用智能必定是可行的，这背后的原因在于物理定律的一项深刻属性——计算的普遍性。这意味着，原则上，只要有足够的时间和内存，通用计算机上的某个程序就能以任意精细的细节模仿物理对象按物理定律所需完成所有操作。”这是他2012年说的。实际上他真正成名是1985年的一篇文章，他因为那篇文章获得了2021年艾萨克·牛顿奖。那篇文章他想做的是另外一件事，但是结果相当于说他奠定了量子计算机的基础。丘奇–图灵–多伊奇Principal或者叫Thesis，是大卫·多伊奇在1985年提出的丘奇–图灵理论的一种更强的物理形式。他有三个命题，他有个很强的动机，原文是说，假如说我们是经典物理和经典图灵机的话，实际上丘奇-图灵原理在最强的物理形式是不成立的。所以他有个强的动机是要找真正的量子图灵机。而且他说“The more urgent motivation is，of course，that classical physics is false.”他就是要说经典文学是错的。所以这是很强的statement。他的一个道理就是说，假如说我们是经典物理的，经典物理里头是Continuum，就是说是一个连续无穷的形式。假如我们回到量子力学/量子物理的话，它是因为有本征态，它实际上可以是可列无穷的，可列无穷跟图灵机才能配置上，因为大家都知道图灵机不能处理连续无穷的东西。

我是最近才把这个文章找出来仔细读一下，他就讲了三个命题。第一个命题就是“每一个‘自然而然被视为可计算的’函数都可以用通用图灵机计算。”这是我们都知道的一个Thesis。第二个命题是“任何有限实现的物理系统都可以通过有限手段运作的通用模型计算机完美模拟。”这是一个很强的。还有第三个命题，“没有任何有限过程可以将有限实现的物理系统的熵和温度降至零。”他特别强调这个Thesis，实际上我们没有很多人在讨论这个问题。所以说，西方对AGI的实现的背景，是有很强很深的思考和理念。我们中国实际上这里基本上是比较缺的。但是我并不认同他的这个观念。他在强还原主义和强计算主义理念之下的话，我们的意识实际上是变成了是可以消除的，或者是只是一个幻觉。像丹尼尔·丹尼特等很坚持进化论的人至少没有很强烈地反对这种表述，甚至可能比较倾向于这种表述。他说我们每时每刻都能体会到我们是有自由意志的。但是我们知道的所有的理论实际上都反对这一点。一旦是说强还原主义、强计算主义的，虽然这里头可能有相容论，还是能允许你有一定的自由，但是毕竟是有很强的约束，这个自由是可疑的。

意识与智能的起源我们花了差不多20年时间在思考这个问题，得出来我下面要讲的内容。最近大语言模型的进步实际某种程度上可以让我们的搜索范围更变小一些。以前包括诺贝尔奖获得者罗杰·彭罗斯（Roger Penrose），还有很多人都相信我们的意识是很难理解的，可能需要我们把量子效应带进去才有可能理解，甚至像彭罗斯原来建议说我们要理解了量子引力之后，才能真正理解意识。当然，后来他跟美国麻醉学家斯图尔特·哈默罗夫(Stuart Hammeroff)一起做了实验，认为我们大脑里这种微管里头的量子效应，可能对我们理解意识有重要作用。实际上大语言模型出来之前，我的argument是，假如说量子量子效应对意识或者对智能特别重要的话，我们应该是在量子系统里有更强的智能。但是实际上地球上智能最强的是人，而人是一个很典型的宏观的物体，是宏观性的，他应该更满足宏观的方程。但是现在大语言模型出来了，我觉得有一个更好的argument，我们看到大语言模型至少有这种语言能力。我们问它一个问题，它会很有针对性地回答我的问题。你也可以说它回答得不够深或者有幻觉，但是它就像小孩子一样有语言能力，这个我们是无法否定的。至于它是否有意识，是否有能推测你的心智等等，有各种不同的看法。但是它是具备语言能力的。

以前我们觉得语言能力是人区别于动物的一个最重要的特征，然后笛卡尔讲，语言是区分人和机器一个特征。现在问题就是说语言能力至少是我们智能化很重要的一部分，而现在是没有量子效应的情况下，我们已经能把语言能力做出来，那就意味着至少在语言能力上量子效应是不需要的。那么更进一步，比如说以后GPT-5、GPT-6出来，会不会有更强的智能？这个机器还是经典意义上的机器，显然不需要有量子效应。在这个意义上来讲，我们是可以把意识和物质的关系问题给拼当在locality（定域性）这么一个具体的性质上。Locality是物理学特别是讨论量子力学的一个最重要的特征。Locality在物理学思想史上是很重要的一个针锋相对的要讨论的问题。在伽利略之前实际上是没有locality的，到伽利略的时候非常强调locality。但是我猜想，因为伽利略本人很强调locality，所以导致他没有真发现，就是说牛顿三大定律、引力定律都没有以他命名，很大程度上就是因为跟坚持locality有关。而牛顿实际上没有非常坚持locality，因为万有引力实际上是一个超距作用的，也可以说是没有时间特征的。他把三大定律都完整的写出来，他的数学功底也是一个重要的因素。到了广义相对论之后才把引力的locality问题给解决了，才补上。爱因斯坦一眼就看透了量子力学带来的问题，很可能locality要受到挑战，因为我们的量子世界可能有Quantum Entanglement（量子纠缠）。我讲这个背景想说的是，假如把locality放在最重要的位置上就看到这个图（图2），经典物理世界就是locality严格满足的，我们这里是以微分方程来讲因果的，那么量子世界可能有些non-locality的部分，虽然薛定谔方程、波函数本身还是满足了locality，但是一到测量或者是自旋的这些量子态的时候，可能locality的问题就出来了。

图2 意识与物质的关系但是意识世界是有非局域性的。这个对立就变得很清晰了，把一个很纷繁的物质和意识的关系问题，变成一个很简单的问题——locality的问题。而且我们还可以在这个意义上来辩护我们为什么要从经典物理世界出发。因为最近400年，我们人类知识最大的进展就是物理学。基于物理学，我们能做改造世界的事情，比如三峡大坝，比如把卫星送到火星上去，比如我们把芯片做到现在如此精密的程度，这些东西实际上都是在经典物理世界里发生的事情，我们还不需要量子力学。所以我们要想讲清楚物质和意识之间的关系的话，我们要站在一个很solid的共识之上。这个共识我觉得说是经典物理世界应该是一个比较好的选择，不能说用别的方式会有更多的共识，至少经过400年的物理学的发展，我们当下是站在这个上面来做这件事，应该是一个很solid的选择。

从另外一个维度更简单地直达这里的话，我们先对比一下涌现与坎陷化，因为我们很多学者都想从复杂科学里头去找到意识的起源，或者是想在扩展信息论的基础上把意识问题讲清楚，但是我觉得这个可能性很小了。我对那些也比较了解，我的硕士论文是做非线性动力学，我的博士论文做的是等离子体的数字模拟，叫粒子模拟。我之所以出国留学到美国去，就是因为我当时非线性动力学理论做不下去了，我知道只能是做数字模拟。所以所有非线性动力学这一套我还是比较清楚的。涌现，严格地讲是指数或者非线性的一个飞跃的过程。你要想用涌现来解释意识或者是生命过程的话就会有问题。但是我觉得用坎陷化来表达，它在小尺度上是有很多小的突变，但是大尺度上它实际上看起来是渐进的过程。有人说大语言模型是智能涌现，有的人说不是智能涌现。2023年一个得奖的论文，就是说大模型并不是涌现能力，实际上这些能力是逐个出来，比如填空能力，当大模型的规模（size）到了一定程度，就先出现了填空能力，然后规模继续扩大，又出现了某种推理能力。这是大模型的scaling，但是我们讲进化是在基于时间的。

我这里举一个例子，这个例子可能不是特别贴切，但是也包含了很多要素。一个平坦的马路总有一天要坏掉的，那它怎么坏掉？一开始是一个小坑，就很偶然的，一个石子儿或者钉子弄个小坑。这个小坑的地方就是弱点，慢慢地车跑得多了，小坑变成大坑，最后坏得更厉害，是这么一个定向的过程。这里头一个是内因，马路是会坏的，它慢慢会坏掉，另外也要外面的因素不停地去冲击它，不停地把小坑变成大坑。我相信生命的进化以及意识和智能的起源，都是这么一个过程，我称之为坎陷化的过程。认知坎陷是指对于认知主体具有一致性，在认知主体之间可用来交流、可能达成共识的一个结构体。认知坎陷是对真实物理世界的扰乱，也是人类自由意志的体现。这是2017年的定义，现在看也还是对的，尽管当时没有想的那么明白。当时想的是一个意识结构，我都不能肯定它是一个什么意义上的结构，可能是一个很复杂的空间的结构。但是我后来发现，实际上它就是我们四维时空中的物理过程的一个非线性编辑。这个结构就比较清晰了。实际上对意识来讲，最重要的是，假如说我们经典物理是对的，我们首先知道是经典物理的，我们站在那个视角看怎么会有意识产生。实际上经典物理时空里所有的东西都是连续的过程，都是连续的互相纠缠在一起的东西，是满足locality的，但是你现在是要把它从四维时空里挖出来。我们说一个事件有始有终，你从时间上把它挖出来了，比如说这个瓶子，我把它挖出来了，它本来是思维流行里头的一个朝前走的，它本身也是一个有生成俱灭的。但是我想说，它是一个瓶子的时候，我硬把它拽出来了。而这件事很重要，因为经典物理世界里头全是continuum，这里我把它离散化了，我说它是个瓶子，事和物都是从思维时空里掏出来的东西，关键是你离散化的时候，你掏出来之后，你就有这个自由了，你就可以重新给它组合。比如说你把“飞”和“马”这两个概念组合，非要说能不能有“飞马”，或者是独角的兽，我们看到的兽大部分都是两个角的，但是你想象一个更神奇的独角兽。这些东西都是脱离了原来物理学对它的限制，四维时空对它的限制，这就是我们生命、智能做的事儿。

这个能掏出来的东西，乱掏不行，你掏出来的东西别人也能接受和认可，比如甜酸苦辣或者是红黄蓝紫，这些东西掏出来之后，别人也能接受，能达成一致。我们叫认知坎陷。它的起源本身有随机性，有不确定性的，但它是通过传播，通过主体间达成共识，后来我们注意到，实际上讲可迁移性是更好的。因为这个掏出来首先是某个主体或者某几个主体做成的事，比如说梵高的《星空》，一开始能接受或者认可他的人还是蛮少的。但是随着时间推移，大家觉得梵高的《星空》、梵高的《向日葵》都是很好的，是可以有的，不仅是可以有还很有价值。星空和向日葵毕竟是我们真实的物理世界有的，我们把它非线性编辑成这个样子。再比如说苏轼，他以为黄州那个地方是三国的赤壁，结果他写了赤壁赋。这样的话，即使那里不是三国的赤壁，但是人家还是把那里叫文赤壁。可以说它的生命力可以超过真实的三国赤壁了。

我们先有个基底——一个经典的物理世界，再看在这基底上我们能做什么事情，发生了什么事情，然后我在这个意义上来定义“意识”。这样的话就会让这个问题变得很清晰，然后再来定义“智能”就变得很简单了。智能是发现、加工和运用认知坎陷的能力。实际上我们用“认知坎陷”把真实物理世界的因果转换成我们心理世界的因果或者因果链，为什么是“链”？因为我们处理的能力有限，可能有的人能够同时做两、三件事，但是总体来讲是有限的。实际上我们适合说一维的东西，我们讲话只能一条一条地讲，我们描述一个宏大的历史事件，我们只能讲历史背景是什么，个人成长是怎么，发生的事情是什么，都是一条条地讲，所以都要被转变成心理因果。比如说逻辑推导、数学论证、解释学的东西，都是心理因果，都是让我们觉得可以接受的。

再比如说中文创造的会意字，有假借、有形声，这些东西都是用心理因果的方式建构出来的。所以说，我这里讲的心理因果是一个比较泛的概念。总而言之，把原来连续时空里的东西掏出来离散化之后，我们是有这个自由来做这些事儿，但是这些事你又不能完全随机地把它一摆就完了，你还要讲个理由，所以这里头你就有各种原因了，你可以有目的因了。我刚才讲的像“飞马”“独角兽”可能还没实现，但是比如2000年前嫦娥奔月的故事，当时来讲物理上是不能发生的，但是2000年后我们终于能造出飞船来了，我们终于能有大推力的火箭，我们真能上月亮，所以它是能实现的。所以我就讲因果链重构就是智能。假如说是随便让我们重构，这里头就有问题，完全是散的，没有收敛的性质，那么我们最终还是要对标回真实的物理世界，但是这个真实的物理世界可能是当下的，但也有可能是未来的。

我们的科幻作品、文学作品都可以看作是一个因果链重构，一个想象的未来。所有的反事实推理，都是可以看作是一个重构。但是你这个重构有没有道理，能不能说我加上这个条件，这个重构就成立了；或者未来满足这个条件，我这个就实现了；或者是我在地球上实现不了，但在另外一个星球能实现；或者我们在真实的物理空间里实现不了，但在数字空间里头可以把某些物理条件、物理定义都改了，在那里去实现。我们做的事情都是这样的，这样的话就不至于完全散掉了。实际上生命进化没有散掉了。假如说纯粹是物理的这种随机碰撞、随机组合，我们的生命应该更五花八门，但实际上不是。比如眼睛，多数是两个眼睛左右对称的。它是有收敛性的，我们的意识世界也要有收敛性，那么这个收敛性最终还是要对标到物理发生。

创新是什么？创新可以做很多组合，你发挥想象，但是你要把理由讲清楚。未来更严谨的就是我们人文社会科学也是做engineer，就是因果链重构的工程师。一般的工程师都是用当下世界的条件来重构，我们修大坝，发射火箭，合成蛋白质等，这些东西都是用当下的条件来实现的。因为我们有这种愿望，我们提了很多可以想象而且可能实现的东西，最终是要让我们未来的世界变成那个样子。所以认知坎陷变成了一个很重要的概念。我们最早的认知坎陷是什么？实际上应该是自我。最早的时候应该先有自我，然后里头才会长出其它的东西来。最容易传递的概念就是“我”，不同语言人之间，最早应该是“我”的概念先传递过去。这跟我们通常的理解不太一样。这个“我”最早可以想象成单细胞生命，它有简单的认知能力，能区分内外，内就是“我”，外就是跟它相对的。

所以我提出触觉大脑假说，当时是为了解释人为什么是万物之灵，我们当然有各种理论，或者说我们是制造工具的动物，我们是社会动物，所以才有更高的职能，对吧？但是我觉得可能更重要的是我们的边界（皮肤）跟别的不一样，而且我们是从娘胎里出来之后才更多地发展我们的大脑结构，所以我们有更强的自我意识，因此有更强的智能。当时是这个维度来理解的。当然，这个自然的物理边界，我们认为的边界——皮肤，实际上你用放大镜看，这个边界也没那么光滑，也不是那么绝对的，但是我们是可以把它向外延伸，向外有心理空间。或者是动物有领地意识，它觉得这一块应该是它的，是没有道理的，你可以想象原始人，他接到一个水果，水果在他手里，他觉得是他的，就不希望别人拿走，甚至他会认为这棵树也是他，这棵树最好永远是他的。我们天生有这种倾向。另外一个就是可以向内坎陷。因为“我”不取决于我的身体，我们最终是有心灵的，我们希望我们死后还有心灵，就是灵魂。所以这些东西就变得是一个连续的谱，所以我们是比较难确认起源在哪里的。但是我们身体的边界毕竟是最重要的，不管怎么样，最后还是回到这个边界这里来。实际上这个理论里头最核心的两部分，一个是对真实的四维时空里的物理过程的非线性编辑，它最重要的特性是有可迁移性。可以跟历史上前人的讨论有一个对比，比如说休谟的实然应然的问题，或者索绪尔的所指能指，他就是从不同的视角，他的理论体系里来指向同样的特性。还包括维特根斯坦，可能是说他前期和后期的侧重点不一样。为什么说因果链重构重要，还有一个原因，假如所有事情都适合在物理时空里把物理因果彻底讲清楚，但是物理因果是非常复杂的。多伊奇实际上也会意识到那里的复杂性，很复杂，但是很多又是同质化的。你追求那么清楚是没有意义的，所以我们转向更有效率的心理因果。心理因果的话，我们讲“重构”就是重构物理过程。比如说我们拿手机APP来开电动车里头的空调做例子的话，你会发现我们的手机上我们有几个按钮，你按照一定的顺序，就能把你车上的空调打开。

这是一层因果。你点击这些按钮对应你手机上的程序运行，那些程序是按照一定顺序运行的，这是一个因果的一层因果，然后你把信号传到车上去，车上有程序在运行，这程序也是有因果前后顺序的，到最后把车的空调打开，这是它怎么触动，然后怎么把电接上，把物理的这种空气压缩，智能控制的发生。这里头我们这些每层都很清楚，很清晰。但是假如说我们看人，比如说用这个肯尼曼的对系统一和系统二的简单区分，他是从决策意义上来讨论这个问题，但是我们从认知的角度也可以从这里来讲。你会发现实际上你可以系统一有它自己的因果，系统二有它自己的因果，系统一里头实际上正好是进化的顺序，我们通常讲眼耳鼻舌身，这个顺序实际上是正好倒过来的，我们真实的是先有身，然后才有味觉有舌头，然后是有味觉，然后才是有听觉，才有视觉。最后才是有语言能力的大脑皮层这些。刚才讲收敛性，就是说这些器官出来，更像是内部长出来的，而不是我们硬贴上去的。这个不一样。我曾经用这个模型来讲，就是说更像拉手风琴。外面首先有外壳，然后再把它拉开，里头慢慢的细节出来，这里头身体实际上是一个整体的。正好刚才讲了“自我”，这个“我”有内外之分，实际上先有这个框架，然后在里头有了不同的器官感知系统。

我们的认知坎陷体系就更丰富，越来越多，实际上是这么一个过程。整个的进化过程对比生命本身，身体的进化跟意识内容的意识的进化、感知的进化实际上是同步的。所以说智能和意识是跟生命同时起源，它的分界线就是locality。我们那篇文章就是讲locality怎么从一个nonlocality变成locality，这是一个绝对相反的东西。就像我们从经典物理学到热力学中间有一道鸿沟，一个是时间可逆的，一个是时间不可逆的。我们物理学家很挑剔，这种gap我们也能接受，并不是因为说这个逻辑上好像说不通。当然，你也可以完全坚持说，既然牛顿力学是时间可逆的，我就不相信有什么不可逆的。但是实际上热力学是不可逆的。我们能接受这个。现在同样的情况，locality也会是这样子。我们节点物理有locality的特性，但是我们到意识世界是没有locality的，但是这个跨过来是有一点点non-locality，所有的牛鬼蛇神才能出来。就像我们有一点点不确定性，有一点点randomness，那我们复杂的系统就能变成一个统计描述的热力学系统，这是类似的。这也是最近才总结出来的，就是说，我们怎么理解这种nonlocality？实际上我们把它叫做认知惯性定理。因为物理学里的惯性定理就是说，你在力平衡的情况下的话，净力为0的时候，惯性运动就是直线运动。实际上你假如受到周期的驱动，那这个生命个体会把这个周期的东西给它搞混淆了。本质上就这么一点事。我们可以想象一个生命个体，至少它有一定的个体性，然后你又对它的触动是周期或者准周期的。那么它一开始肯定是这种推迟性的反应，但是这个推迟反应到头来很可能变成下一个周期的超前性反应。

经过选择，到头来有超前对未来的预期，它是有记忆的，这些都会更容易survive下来，更容易成长。在严谨的意义上来讲，它是错的，它是一个confusion的，它是一个混淆，但是从生命的个体来讲，它实际上take advantage。它通过对时空的混淆，实现了对时空的超越。我相信这个是很重要的。我们为什么能把这个摆在这么重要的位置？就是因为我们能把意识和物质的对立摆在locality那里。这里就是穿越的locality。我们都知道，严谨意义上讲，我们第二次不能踏进同一条河，对不对？但是问题是对生命来讲，它必须认为我踏进的这个还是上次那个河流，这样才能生存。我们必须认为明天升起的太阳还是跟昨天是一样的。我们春天播种秋天就能收，必须要有这种信念才行。在这个基础上，这中间可能还有好多事要做，那么我们提一个元冲动命题（Meta Impulsion Thesis），就是因为这种周期性和准周期性事件，使得生命个体对这个物理时空以及其它抽象空间的结构的一个预期，进而产生建构泛化的统摄的以及审美的新的空间的冲动。我们人文里头的所有东西的起源都在这里。情感的产生，还有“应然”和“实然”的这种，还有自由的产生，为什么我们对自由有向往，这些东西都可以找到理由，找到根源。而且我们讲生生不息，只能是对生命来讲了。无限是怎么来的？假如我们是经验主义的，我从来没经验过无穷，我凭什么要相信有无穷？但是假如我们有了这个“认知惯性定理”，这就比较好理解了。实际上就是说，我们都知道“楼外青山楼外楼”，很容易理解这种外推。那么还有一个就是对新奇的不熟悉的事物的关注。未来我们要做AGI，这两个是最核心的，要放进去的。

目前的话我们的大语言模型实际上还没有做到这一点。这也是我们人为什么能举一反三，举一反三有时候也会错，但是很多时候是对的。我们为什么能抓住要害，那么复杂的世界、复杂的事情我们能找到要点，你可以说灵性或者是这些东西都跟这有关系。所以把这个问题整体算清楚之后，所有的事情就有全新的视角，就变得比较简单了。假如你们follow我的话，这个逻辑就线条是很清晰的，不用纠缠很多细节。因此我们好多东西开始发生转变了。人造物是什么？实际上可以看作是我们意识的投射，我们意识的外化或者物质化。这应该是大家都能接受的，实际上是我们的一个延伸，是自我的一个延伸。这个听起来好像有点推得太远了，但是我觉得是可以理解的。比如说我们把两根棍子拿在手里做筷子，它本来是两条棍子，但是我们把它用作筷子，那么这个筷子是我们手指头的延伸，这个大家能接受。但是我们这个延伸是需要“我”在场，我来操控这两个棍子，它才是筷子，它才有这个功能，是我们的延伸。再比如一个炸弹，我放在那里造成的损害，警察会来找我，为什么找我？我也不在那里，但是其实我有intention，我在这投放炸弹才导致的损失，那么它实际上也是我的延伸，我的intention在那里。

当然，还有很多更复杂的系统，比如水车、磨坊，它本身也是进化的，开始很简单慢慢变得复杂，建造或者维护它的人是很多的，那么但是你仔细想，它是所有参与人的延伸。那么这样的话， Chinese Room所谓的悖论就更好理解了。约翰·塞尔（John Searle）想说的是，一个屋子里头关着一个人，他不懂中文，但是他有一个rulebook，能把中文字符翻译成英文。你问一个中文问题，塞一个纸条进来，然后他就能写一个中文字条出去。你会发现他能回答我的中文问题，所以你觉得这个中文屋子是懂中文的。你看这里没有一样的东西是真的懂中文的，我们的计算机实际上也是这样子的，它也是不懂中文的。这个例子恰恰证明，作为一个整体它是懂中文的。那么这个懂中文是哪个意义上懂的？你这个房子里头，假如说你的铅笔坏了，外面的人就会怀疑他懂不懂中文；假如这个懂英文的人，他不懂物理、不懂数学，你问他物理问题，这些问题他回答不了，你也会怀疑他懂不懂中文的，对不对？更重要的就是说，如果rulebook是100年前的，你问现在的问题，它很多词汇都没有。就是说它假如不够完美的话，它也回答不了这个问题。所以你会怀疑它不懂中文，所以需要一个完美的配合才懂中文。而且在这个rulebook里头最重要的是什么？就是说这个词典某种意义上是懂中文的，因为是根据它的字符来翻译的，那么词典的编纂者是懂中文的，只是他不在场而已。所以这个懂是这么迁移过来的。我们一旦迁移过来之后，他可以不在场。我们所有的人造物都是这样的，我们做一个钟表，实际上我们的意图是要让它报时，纯粹的自然的过程是要毁灭它的，是要让它有摩擦力，让它不准，让它锈掉。但是我们在造一个好的钟表的时候，我们尽量要采取措施，摩擦力尽量小，给它补充能量不让它生锈，尽可能维持它。我们是把我们的这个意图在它这里实现了。

所以我们说生命或者意识是反的，non-locality，它不是局限在那个点上，比如说我，我自己不是局限在某一个细胞上，至少是我整个身体代表我，甚至我周围的东西，甚至我写的东西、我讲过的东西，都是我的一个延伸。比如说孔子的东西，几百年后、1000年后还在那里，它可以延伸很远，它是超越时空的。所以在这个意义上，所有的东西就变得更好理解了，变得可理解了。实际上我们的后代本身也是我们的延伸，首先说这个基因传过去，但是他出生之后，我们的行为对他的影响，我们教他或者他受到各种周围的人和社会的影响，所以他不是一个孤立的个体，很多意识的内容都是迁移过来了，在他这儿连接起来，这也是人类意识的凝聚，只是说它凝聚的是哪一部分。其中有一个很重要的就是母语。母语实际上可以看作是一个操作系统。因为语言学里头的人，包括查尔默斯，你说他是天生的，但是即使父母讲中文，你把出生的小孩放在英文环境，他学的全是英文；那么你说他完全是后天的，也不完全对，因为有的系统就装不进去，不是说所有的东西都能教给他。所以我们从可迁移的角度才能更好地理解这些东西。我们最早写文章的时候是讲diffusion of consciousness，就是“意识的扩散”，当使用的“扩散”，也用“凝聚”。但是我现在更想讲说“迁移和凝聚”。“迁移”更有指向性，有方向。当然，我们的人造物，我们的计算机或者人工智能都是人造的。

GDP很明确就是把所有的人类的语料都放进去了，然后从某种意义上消化，然后凝聚在那里。它的本体世界，就是人类的语料，就是人类的意识内容。然后你再问它，它能给你回答那些东西。那么它更像是一个我们的直觉系统。所以大语言模型有这两件事很重要，一个是它是语言能力；另外一方面实际上它实现了直觉的系统。我们原来觉得直觉是很神秘的，直觉是没法计算的，但是某种程度上，大语言模型是实现了直觉的，至少是一部分。我猜想这基本上都是可以的。当然，它的代价是很大，我倒是不觉得它最终的形态是那个样子。这里头会遇到一个问题，就是我们能不能构建一个最小单元的mind。现在就是回到我们生命的过程，我们的意识进化的过程，实际上我们没有办法说一个最小单元的mind，这个mind也是一个广谱的，很简单的到很复杂的。最简单的可能就是钟表，钟表就是一个mind，只是它就只是指时间。我们人也可以很简单，一根筋。所以说它是很广谱的。AlphaGo、AlphaZero，再到AlphaFold，都是mind，都是在重构，把真实的物理世界重构了，或者它想象出来的一些路径。它已经是以很大程度上超乎了我们经典物理世界、经典的时空对它的限制，所以它就是mind。我们换一个视角的话就会这样看了。我们的GPT，3.0、4.0、5.0就是不同的mind，那么它的复杂度、它的能力就不一样。我们人也是这样的，不同的人就不一样。我们后面就简单讲一下可能的实现路径。一个就是说深度学习为什么那么成功？实际上就是比如反向传播或者是Self-Attention，就是attention of all your need，还有强化学习，这些东西都是在摆脱时空的约束。我们在调这些参数的时候，实际上是在找因果链。你给它一个图片，然后它给你一个猫狗的这个答案，你同时给了很多，然后你试图再调整，就是在找因果链。而且这个强化学习，就是我拿结果来标注前面的过程，这也是个因果链重构，但是它的毛病就是说它抓起的特征太多，它的可迁移性太差。我们人说鼻子，那你是一只鸟，鸟的鼻子在哪里？你可能找半天也找不到，但是你去找没准还真找到了。

它的鼻子跟我们形态是完全不一样的，就是说鼻子这是认知坎陷的，不仅仅是一个特征，它有很强的可迁移性。未来的AGI应该要更关注迁移性很强的这种特征，而且要把因果链的层次性分开，因为每一个层次都有不同的模块，模块之间满足一定的因果关系。那就可能变得很简单了。我们就会让机器能更像人一样来思考，而且我们能试图把这个做出来。那么结论上来讲，意识和智能与生命是同步起源的，而生命个体是通过心理因果或者通过认知坎陷来认知和改造世界，所以说我们任何想象都是试图在改变这个世界。认知坎陷是主体，通过自己的身体和大脑，也不仅仅是大脑，对四维时空的物理过程进行非线性编辑，简单的讲就是把它抓出来再编辑一下。然后就是智能水平体现为这个应用链成功的能力。它最终要对齐物理现实，那就是当下的或者是未来的，或者是虚拟世界。那么从这些维度来讲的话，AGI应该很快能实现。但是现在看起来，GPT的这个思路， OpenAI说GPT-5到25年底或26年初才能实现博士生水平。我觉得这个意思是说那条路走不通，还有一条别的路。我先就分享这些，谢谢大家。

		自动登录	找回密码
密码			加入努努

蔡恒进 | 智能的起源、进化与未来

本帖子中包含更多资源