大家好,这里是最佳拍档,我是大飞
今天带大家看一篇可能颠覆整个人工智能产业的论文
题目叫做
《语言主要是一种交流工具
而不是思维工具》(《Language is primarily a tool for communication rather than thought》)
这篇由麻省理工学院MIT
发表在顶级学术期刊《Nature》杂志的文章
提出了一个可以颠覆整个大语言模型研究的观点
那就是人类大脑生成和解析语言的神经网络
并不负责形式化推理
并且提出推理并不需要语言作为媒介
如果这项研究被坐实
我们或许就可以解答
为什么GPT5迟迟憋不出来、以及为什么用语言以外的数据训练GPT-4
能让它变得更聪明的问题
难道整个研究方向早就走上了歪路了么?
还是说真的如语言学家乔姆斯基所言
追捧 ChatGPT 是浪费资源
大语言模型通向AGI的路线完全错了?
这件事我们还得从根上
也就是人类大脑和语言的关系讲起
语言是人类智能的一个决定性特征
但是它到底在人类智能中
扮演着怎样的作用
或多或少一直存在争议
各个学科之间也有很大的认知差异
山头林立
大飞就以心理学界对语言的四种看法为例
简单介绍一下思维和语言之间的争论
传统的行为主义心理学主张
思维等于语言
有学者提出,当人进行思考活动时
发音器官肌肉会同步表现出类似说话时的收缩变化
并认为这种联动证明了二者本质上是同一件事
这个学派的开创者之一
约翰·布罗德斯·华生John B
Watson
就是那个拿着毛绒玩具吓唬小孩的小艾伯特实验的设计者
他坚信思维与自言自语之间没有丝毫不同
他把思维完全看成是无声的语言
只是因为这时身体的活动是隐蔽而微弱的
所以通过常用的方法难以观察
后来的新行为主义者伯尔赫斯·弗雷德里克·斯金纳Skinner
B
F
也采取了类似的立场
他认为思维是无声的、隐蔽的、微弱的言语行为
与这些行为主义学者立场类似的
是“语言决定思维”论
又称萨丕尔-沃尔夫假说
这个假说认为
不同的语言能够决定母语者的思维
语言不仅反映了我们对世界的认知
还会影响我们对世界的感知和思考方式
对于用某个单词表示的某个事物
使用不同语言的人会有不同的理解
而这种看待现实世界的方式之所以不同
正是由于语言本身的差异
上述两点,我们可以粗略地总结为
语言大于思维
而与之相对的
是思维大于语言的理论
思维决定语言的观点称得上是历史悠久
可以一路追溯到2500年前
当时亚里士多德就提出思维范畴决定语言范畴
不少西方心理学家继承了这一观点
著名的瑞士心理学家
认知阶段论的提出者
让·皮亚杰 Piaget,J
就是其中的一个
他认为
从语言和思维发生的起源来看
不能把语言当成是逻辑的起源
因为逻辑运算的起源要比语言深远得多
而且发生得更早,也就是说
“语言并非是构成逻辑的根源
恰恰相反,语言是由逻辑所构成的”,
逻辑运算从属于普遍的动作协调规律
这些协调控制着所有的活动
包括语言本身在内
另外,皮亚杰也承认
语言在动作内化于表象和思想方面
起着主要作用
但是他又认为这只是许多象征作用
比如延迟模仿、心理表象、象征性游戏、初期绘画
它们虽然能增强思维的速度和广度
但是似乎不是逻辑运算发展的动力
只不过是服务儿童智力发展的各种符号工具中
最重要的一种而已
上述两种观点
基本是在计算机出现之前就已经存在了
而在计算机出现之后
一种全新的理论加入了战场
那就是语言和思维相互独立论
这个理论的主要代表人物是美国的哲学家和认知科学家杰瑞·福多 Fodor
J
A
他一上来就打了一通王八拳
对传统两派都提出了质疑
如果思维离不开语言
那么没有语言的人便不能思维
由此推论
没有语言的儿童便不能思维
但是实际上他们却表现出了有规则的理性行为
如果思维决定语言
那么为什么许多人没法完整表达自己的思想?
人们不总是能够完全成功地描述一种气味、表达一种情感
或者说出一种复杂的观念
如果思维产生于语言之中
那么任何思想应该是容易表达出来的
在福多看来
人类的智能行为可不只是说话
还包括看东西、闻味道、使用运动机能等等
在这些形形色色的智能行为中
人类的思维都参与其中
但是不能证明是语言编码了这些行为
因此,福多认为
思维不是内部的语言
而是一种独立的中枢加工系统
它调整由感觉系统接收到的信息
并通过语言、手势、面部表情
或者其他运动行为表达出来
为了进一步证明自己观点正确
福多把人的思维和计算机加工作了类比
他说
我们可以通过多种方式向计算机输入信息
比如穿孔卡片、磁带、电打字机等等
在每一种情形中
计算机都把信息转换成了一种叫做机器语言的中枢加工语言
并且在这个系统中进行操作加工
然后
加工的结果被转换成数字、英语或其他系统而输出
而人类的思考过程和上述的计算机加工流程是差不多的
人可以在像视觉密码、听觉密码或者嗅觉密码
这些不同的知觉系统中接收信息
这些密码中的信息随后被转换到我们称之为思维的中枢加工系统中
进行进一步的加工
加工的结果再被转换成语言或者另外的运动密码
从而表达出来
因此
可以把思维和语言看成是相互独立的两个系统
而今天我们要说的
这篇MIT论文的作者
就持有和福多相似的立场以及类似的方法论
在论文的开头
作者花了大量篇幅去回顾语言和思维双重分离的证据
并且讨论语言的几种特性
这些特性表明语言是为了交流而优化的
作者认为「语言主要是用于交流的工具
而不是思考的工具
它对于任何经过测试的思维形式都不是必需的」。
接下来
这篇论文为福多的理论提供了生物学上的证据
在生物学家看来
想要揭开思维和语言的联系
最直接有效的方式
就是直接观察大脑对于语言的各种反应
人脑的语言结构主要位于支持语言生成和语言理解的、左半球一组相互连接的大脑区域
通常称为语言网络
语言网络有两个非常重要的特性
首先
语言区域表现出的输入和输出模态是互相独立的
举个例子,人类可以接收肢体语言
然后以口语的形式输出
如果一个人对你比中指
那你大可以找点儒雅随和的词汇骂回去
而不必苦恼于找不到比中指更加侮辱性的肢体语言
用学术点的话来说
就是大脑区域内彼此互相独立的输入和输出
支持了跨模态的语言输入
在语言生成的过程中
无论我们是通过口语还是书面语言来产生信息
这些区域都是活跃的
划重点,无论是口头还是书面
也就是说
这些脑区很可能存储了我们所有关于语言的知识
可以做到灵活编码和解码各种类型的语言信息
有观众可能要问了
既然包含了所有的信息
那么语言区是不是还要负责词义和句法结构呢
还真的是这样
脑磁图和颅内记录的研究表明
语言网络的所有区域
都对词义、词间句法和语义依赖性是敏感的
而且非常活跃
这对于探索思维和语言的关系可以说是一个重大利好
既然你什么功能都有了
那我也不必监测整个大脑了
学者们只需要盯着语言网络做实验就可以了
于是,语言网络的跨模态能力
以及对语言意义和结构的敏感性
让它成为了评估语言在思维和认知中作用假设的明确实验目标
接下来
论文作者使用了功能性磁共振成像fMRI 技术
观察了语言网络的活跃情况
结果发现,在执行推理任务的过程中
语言网络并不活跃
反过来,在语言网络活跃期间
负责推理的脑区也不活跃
两边突出一个各玩各个的,搭不上边
这可以说是论文里最硬的一锤了
fMRI成像得出的证据表明
参与多种形式的思考和推理并不需要语义网络
除了直接的实验证据以外
作者还找到了大量病例
作为自己观点的支撑
在缺乏相关设备的时代
人们对于脑部的探索依赖于比较实验
传统的方法一般是找个脑部受损的病人和正常人做对比
通过研究大脑损伤或者疾病个体的行为变化
来推断大脑各区域功能与行为之间的关联
在一系列的对比实验中,学者们发现
有许多语言网络遭到心理创伤的个体
在语言能力上有严重的障碍
难以理解普通的句子和单词
但是他们仍然表现出了许多思考形式上的完整能力
比方说,他们可以解决数学问题
执行规划和遵循非语言的指令、参与多种形式的推理
包括形式逻辑推理、关于世界的因果推理和科学推理
除了物理上受到伤害的患者
一些没有明显外部损伤的失语症患者
尽管他们失去了语言能力
但是仍然能够进行所有测试形式的思考和推理
也就是说,虽然无论是对语言生成
还是对语言理解
他们都根本无法将这些想法
映射到语言表达上
既无法通过语言向他人传达自己的想法
也无法从他人的单词和句子中提取意义
但是他们脑子转得很快
普罗大众对于失语症患者
通常会具有智力障碍的印象
认为很可能是脑损伤带来的并发症
毕竟语言系统到底还是一个脑部的系统
与其他的高级认知系统紧密相连
但是作者通过病例研究,并没有发现
失去语言能力和认知能力低下之间的强关联
另一个例子是聋哑儿童
他们长大以后很少、或者根本没有接触过语言
因为他们听不见说话
而他们的父母或看护人也不懂手语
可以预料到的是
缺乏语言接触会对认知的许多方面产生有害的影响
因为语言是了解世界的重要信息来源
尽管如此,这些语言被剥夺的个体
还是表现出了复杂的认知功能能力
他们仍然可以学习数学、进行关系推理、建立因果链
并且获得丰富而复杂的世界知识
换句话说,缺乏语言表征
并不会让人从根本上无法进行复杂的思考
尽管在推理的某些方面确实回表现出延迟
因此,作者得出结论
在传统的认知发展理论中
语言和推理是平行发展的
以上证据表明
迄今为止测试的所有类型的思维
都可以在没有语言的情况下实现
在澄清了语言与产生思维不存在强关联性之后
论文作者又讨论了语言和思维双重分离的另一面
那就是与语言编码思维的观点相反
完整的语言系统似乎并不意味着完整的推理能力
还是老办法,上病历
一些来自发育性和后天性脑部疾病的证据表明
即使语言能力基本完好
也可能存在智力障碍
比方说
有些遗传疾病会导致智力受到程度不同的损害
但是这些患者的语言能力似乎接近正常水平;
还有一些精神层面有缺陷的人
虽然会影响思考和推理能力
但是同样不会影响他们的语言能力
最后,许多患有获得性脑损伤的个体
在推理和解决问题方面表现出了困难
但是他们的语言能力似乎完好无损
著名的“一根筋”菲尼亚斯·盖奇(Phineas P
Gage)就是个很好的例子
他的一根筋可不是形容脾气的词
一根一米多长的铁棍结结实实地打穿了他的脑袋
虽然这位工头奇迹般地活了下来
代价却是众叛亲离
这根贯穿大脑的铁棒改变了他的性格
从一个温文尔雅的人变成了性情暴戾的酒鬼
无法进行完整的推理任务
也就是说,他的思维受到很大的影响
但是他的语言能力完好无损
直到去世
他都可以与人交流并且理解他人的话语
换句话说,拥有完整的语言系统
并不意味着自动具备了思考能力
反过来说,即使语言能力完好无损
思考能力也可能受损
二者之间不具备强关联的关系
总的来说
这篇论文继承了福多的思路
通过寻找不需要完整思维的语言和不需要完整语言的思维
来反驳语言和思维之间的关联性
作者回顾了过去二十年间的种种脑部病例
其中失语症的研究证据表明
所有经过检验的思维形式
在没有语言的情况下都是可能的
而fMRI 成像的证据表明
参与多种形式的思考和推理
并不需要语言网络
因此
语言不太可能成为任何形式思维的关键基础
在MIT这项研究得出结论的同时
顶尖AI领域学者最近也发表了对大模型发展的担忧
虽然不久前发布的Claude 3.5 sonnet
号称自己拥有了研究生水平的推理能力
提升了行业的标准,但是也有人表示
经过实际测试
它仍然具有 Transformer 架构的局限性
对此,图灵奖得主 Yann LeCun 表示
问题不在于 Transformer
而是因为 Claude 3.5 仍然是一个自回归大模型
无论架构的细节如何优化
使用固定数量的计算步骤
来计算每个token 的自回归大模型
都无法进行推理
好了
以上就是对于这篇MIT论文的简要介绍
大飞觉得
知性的关键在于批判和思考
而不是立场,因此
一直以来
我都试图提供尽可能多的视角来解读AI
如果一味的秉持大语言模型就是未来
或者AI就是泡沫的立场来看待问题
就不免有些狭隘了
那看完这篇论文之后
大家对于大语言模型
有没有什么新的想法呢
欢迎在评论区发表自己的看法
感谢大家的观看
我们下期再见
发表回复