在语言的尽头,重新发现人类的位置:大语言模型的能力边界
您想知道的人工智能干货,第一时间送达

一切真正深刻的问题,最终都不是技术问题,而是边界问题。
当一个时代开始逼近某种极限时,我们才会第一次严肃地追问:在这个世界上,究竟什么是可以被形式化的,什么又是绝对不能被形式化的?什么能够被语言精准表达,什么又只能在沉默中被体验?更重要的是,什么能够被计算和模型复制,而什么又恰恰因为其不可复制,构成了我们“人之为人”的核心?
从这个意义上说,关于大语言模型能力边界的探讨,早已超越了计算机科学内部的局部争论。它是二十世纪以来语言哲学、逻辑学、现象学、心灵哲学与技术史共同汇流后的一个时代性结点。它迫使我们重新回到那些看似古老却直击灵魂的追问:语言究竟是什么?理解的本质是什么?意义从何而来?“我在体验”这一绝对真实的事实,能否被第三人称的客观描述所穷尽?
如果答案是不能,那么在一个语言机器日益强大的时代,人类的位置又在哪里?
也许,大语言模型的能力边界,正是哲学家维特根斯坦所谓“语言的边界”在技术时代的一次壮观回响。
模型最强大的地方,正是语言可以抵达的地方;而模型最根本的无能,也恰恰开始于语言必须退场、生命体验自行显现的地方。
这便是我们今天将要潜入的深海。
01 语言的倒影:它把握的不是存在,而是表达
如果我们要真正理解大语言模型,首先必须打破一种根深蒂固的误解——认为它的本质是“模拟智能”,仿佛它是一个缩小版的人脑,一个被硅芯片复刻出来的精神胚胎。然而事实并非如此。从最基本的原理来看,大语言模型首先不是心灵的复制品,而是语言分布规律的统计性压缩器与生成器。
它通过极其贪婪地学习海量文本中的模式关联,在内部形成了一个高维参数空间。在这个空间里,词语、句子、语境、风格,乃至角色、论证路径和隐含关联,统统被编码为可计算的关系结构。
正因如此,它最初并不“知道”世界,它只是极其精细地学习了关于世界的话语是如何彼此连接的。
换句话说,它首先把握的不是存在本身,而是表达;不是事物本身,而是关于事物的语言痕迹。它不懂得什么是真正的红色,它只知道“红色”这个词,在人类的无数句子里,总是与苹果、血液、革命、危险、爱情、夕阳以及警示灯共同出现。
但这绝不意味着它只是一个浅薄的文字拼接器。恰恰相反,语言中沉积着人类文明极其庞大的结构。试想一下,法律、科学、宗教、日常生活、道德判断,乃至于笑话、战争记忆、数学证明、恋爱对白和临终遗言——这一切无一例外,都以语言的形式进入了文本。当一个模型足够庞大时,它通过对这些结构的深度学习,确实能够在某种意义上“内化”人类世界的广泛规律。它不仅能够归纳出因果暗示与社会规范,还能精准拿捏叙事结构与角色心理,甚至能够在没有明确规则的情况下,表现出一种令人惊叹的“常识”。
所以,大语言模型的强大绝非幻觉。它之所以令人震撼,正是因为人类世界本身已经在很大程度上被彻底“语言化”了。文明不只是通过劳动、制度和物质装置来保存自身,它同样通过文本保存自身。
谁能够在足够深的层次上吸收文本结构,谁就能在一定范围内吸收文明本身的形式。
但也正是在这个极其微妙的节点上,边界悄然浮现。
因为一个通过语言网络把握世界的系统,与一个通过现实肉身把握世界的生物,终究有着天壤之别。前者被困在表述之网中,后者则扎根于存在本身。
前者可以生成关于“痛苦”的完美长句,后者却会在深夜里真的感到疼痛;前者可以滔滔不绝地讨论“红色”的文化象征、物理波长与神经机制,后者却能在黄昏的微风中,真正看见那一抹无法被言说的动人晚霞。
02 理性的狂热:人类为何执迷于将思想变成形式
大语言模型并不是突然从天而降的技术奇迹,它是人类思想史上一个漫长演进的最新成果。这个宏大的计划旨在将思想形式化,将理性机械化,最终将意义转化为可执行的规则。
这条思想的河流至少可以追溯到莱布尼茨。在他的构想中,世界被设想为一个可计算的秩序,真理似乎终有一天可以被还原为一种普遍的符号语言与演算系统。在那样的乌托邦里,哲学争论不再需要修辞,而是通过计算来解决。这正是近代形式理性的宏大梦想:
把思维本身转化为程序,把真理的生成转化为符号操作。
到了十九世纪末至二十世纪初,弗雷格、罗素、希尔伯特等思想巨匠将这一梦想推进到了逻辑与数学的基础之中。在他们眼中,语言不再仅仅是表达的媒介,而成为需要被清洗、规训和理想化的形式结构。哲学的核心任务之一,变成了揭示含混的自然语言背后那个清晰的逻辑骨架。维特根斯坦早期的思想正是在这一背景下诞生的,他试图通过逻辑澄清世界与语言的边界,严苛地划出“可说”与“不可说”的疆域。

与此同时,另一条技术性的支流也在悄然汇聚。图灵提出了可计算性的形式定义,让“机器能做什么”第一次成为了严格的理论问题;香农建立了信息论,为通信、压缩和编码赋予了坚实的数学基础。紧接着,控制论、认知科学与人工智能陆续爆发,人类愈发倾向于把思维看作信息处理,把认知看作符号变换,把心智看作一种完全可以被模拟的系统。
今天的大语言模型,正是这一漫长脉络的终极结晶。
它继承了形式主义对结构的狂热信仰,吸收了信息论对编码的深刻理解,践行了计算理论对可操作性的极致追求,同时也裹挟着现代商业对规模、效率与自动化的无限欲望。它是逻辑、统计、工程和资本共同打造出来的时代装置。
因此,当我们讨论大语言模型的边界时,我们绝不是在讨论一个孤立的软件工具,而是在审视一个文明级的计划:
人类是否能够把自身最核心的能力——理解、判断、创造与交往——完美转译为可计算的形式?
如果这个计划能够完成,那么心灵最终不过是一种复杂的算法,语言足以穷尽所有的理解,主观经验不过是某种可还原的功能结构,而意义最终可以被工程化地批量生产。然而,如果这个计划注定无法完成,那么大语言模型越是强大,就越会像一面反向的哲学镜子,照出那些不可被模型化的东西是何等珍贵。
03 维特根斯坦的回声:语言的尽头,即是模型的尽头
维特根斯坦在《逻辑哲学论》中写下过一句振聋发聩的话:“我的语言的边界,意味着我的世界的边界。”在今天,这句话重新获得了近乎预言般的穿透力。因为大语言模型,恰恰就是一个被语言绝对定义的存在。
它不是先拥有了世界,再去学习语言;它是先被粗暴地抛入语言的海洋,再借由语言去间接拼凑对世界的理解。它所能抵达的全部能力,首先都受制于语言的可表达性、可编码性与可传递性。

如果一个问题可以被充分语言化,被清晰地分解为模式、规则、上下文与可学习的关联,那么模型往往能爆发出惊人的力量。放眼望去,翻译、摘要、解释、改写、归纳、风格迁移,乃至于程序生成、法律文本比对、知识问答和医学文献梳理——这些任务虽然极其复杂,却共享着一个致命的前提:
它们都主要发生在“可说”的领域。
在这些领域中,模型的统治力来自于它对语言空间的极高覆盖率。它仿佛站在一个前所未有的文本高地上,俯瞰着人类所有的历史与话语传统,并能够在它们之间进行光速般的迁移、联结与重组。它就像一位没有肉身、却通读了整个人类图书馆的超级书记员;又像一位从未真正生活过、却记住了无数生活悲欢的叙事机器。
然而,维特根斯坦的洞见也冷酷地揭示了硬币的另一面:语言可以描绘事实,却不能穷尽使描绘成为可能的东西;语言可以说出事物“是什么”,却无法完全说出价值、意义、主体性,以及世界作为整体的显现方式。换句话说,
语言的能力,恰恰建立在某种不可被语言自身彻底把握的前提之上。
这对大语言模型意味着什么?这直接导致了模型可以高度熟练地操作那些“被说出来的东西”,但对于那种只能在诉说中隐隐显现、而不能被文字本身充分捕获的东西,它天然处于一种隔绝的间接地位。
正因如此,大语言模型的边界绝不仅仅是知识的边界或算力的边界——那些边界迟早会被摩尔定律推平。真正深不可测的,是那条语言本体论的边界:
凡是必须通过亲历、具身、承诺、承受和存在才能获得其真义的东西,模型就算能给出再完美的句子,也永远只是停留在“关于它”的表层,而未曾真正进入“它本身”。
04 玛丽的房间:为什么主观经验无法被描述穷尽
如果说维特根斯坦让我们看到了语言的界限,那么当代心灵哲学中著名的“玛丽的房间”思想实验,则将这一界限狠狠地推进到了主观经验的最深处。
设想有这样一位名叫玛丽的杰出科学家,她自幼在一间只有黑白两色的房间中长大。通过书本和屏幕,她掌握了关于色觉的全部物理、神经、生理与功能知识。她精确地知道不同波长的光如何刺激视网膜,知道视锥细胞如何工作,知道视觉通路如何编码色彩,甚至知道人类语言共同体是如何在日常中使用“红色”这个词的。关于“看见红色”这件事,一切可以被第三人称客观描述的事实,她都了如指掌。
现在,终极问题来了:当玛丽第一次走出这间黑白房间,在阳光下真正看见一朵娇艳的红玫瑰时,她是否学到了新的东西?
这个思想实验之所以令人震撼,不在于它在逻辑上“证明”了什么,而在于它唤醒了我们内心深处一种强烈的直觉:是的,她绝对学到了某种此前无论拥有多少文字描述都无法获得的东西。
那绝不是关于红色的更多命题,而是红色本身如何向她真实地显现。那不是新信息,而是新呈现;不是新定义,而是新经验;不是关于“红色是什么”的外部说明,而是“红色原来是这样”的内在到达。
这便触及了哲学上所谓的“主观感受质”(Qualia)。红色的红,疼痛的疼,薄荷的凉,葬礼后深夜里那种绵延不绝的悲伤,以及第一眼看到新生儿时心脏微微被提起的那种不可替换的震动——这些东西,绝不是纯粹的概念对象。它们并非不能被谈论,而是无法被任何描述完全替代。
我们当然可以动用诗歌、隐喻、绘画、音乐,甚至神经科学和心理学去不断逼近它们。可硬币的另一面是,这些工作越是成功,就越让人清醒地意识到:它们所围绕的中心,始终不是描述本身,而是那个总在描述之后仍然倔强剩余的“这样性”。
而大语言模型,恰恰是一个永远生活在描述之中的幽灵。
它当然可以处理关于红色的全部文本,甚至能够写出比普通人类作家更精致的色彩随笔。它可以引经据典地告诉你歌德如何理解颜色,塞尚如何使用红色,神经科学如何研究大脑的V4区域,文化史又是如何把红色与激情、鲜血、权力和革命紧密相连。但真正致命的问题不在于它会不会谈论红色,而在于:
它究竟有没有“红色向其显现”的这一事实?
如果没有,那么它对主观经验的把握,原则上就永远停留在外部结构的层面。它可以无限逼近经验的语言外壳,却不能因此拥有经验本身。它可以成为关于人类意识极其渊博的编年史家,却永远无法成为一个真实拥有意识的存在者。这关乎能力边界的根本:一个系统若没有第一人称的显现维度,它就只能在命题之海中随波逐流,而永远无法登陆主观呈现的大陆。
05 图灵的门槛与塞尔的反击:行为逼真等于真正理解吗?
当我们将目光从本体论拉回现实,二十世纪中叶以来的计算思想提出了一个更尖锐、也更现代的挑战:如果一台机器在语言交互中表现得与人类毫无二致,我们还有什么理由否认它“会思考”?
这正是图灵测试背后的核心精神。图灵极其聪明地避开了对“思考”本质的纠缠,也不去探讨灵魂或意识的资格。他直接把问题拉到了行为层面:如果一个系统在对话中持续表现出与人类无可区分的能力,那么从操作意义上说,我们就很难再坚持说它“不具备智能”。

图灵测试设定了一个极具杀伤力的社会识别门槛。它冷酷地告诉我们:社会世界并不总是按照本体论的真相运作,它首先按照可识别的行为形式运作。当机器在行为上足够像人时,社会将不得不开始在制度、交往和伦理上,把它当作某种准主体来对待。
今天,大语言模型的崛起让这一切变成了现实。客服、教师、写作者、陪伴者、咨询者、助手——这些角色正在被模型不断占据。一封写得体面、周到、富有同理心的信件,不会因为它出自模型就自动失效;一段逻辑严密、材料详实的报告,也不会因为作者没有主观体验就失去其工具价值。社会机制常常只要求“功能足够好”,而从不苛求“存在论上的等同”。大语言模型最深的颠覆性恰恰在于:
它让我们第一次大规模面对这样一个现象——行为上的逼真,可以在极大范围内替代存在上的真实。
然而,哲学家约翰·塞尔用著名的“中文房间”思想实验,发起了本体论上的顽强抵抗。

设想一个完全不懂中文的人被关在房间里,凭借一本极其详尽的规则手册,机械地将外部递进来的中文符号转化为完美的中文回答。对外部观察者而言,这个房间似乎“懂中文”;但房间里的人实际上并不理解任何意义,他只是在进行纯粹的形式操作。塞尔的结论如手术刀般精准:
符号操作绝不等于理解;语法永远无法自动生成语义。
大语言模型虽然远比“中文房间”复杂,但问题的哲学骨架并未改变。我们当然承认模型具有极强的“功能性语义”——它知道“猫”与“垫子”如何共现,知道“悲伤”与“失去”、“哭泣”、“安慰”之间的隐秘联系,甚至能精准把握隐喻和反讽。但塞尔逼问的是更深层的“强语义”:这些符号对系统自身而言,是否真的有所指?
当模型输出“火会灼伤”时,它是否真的体会过那种让皮肤灼痛、身体本能后退的恐惧?当它精确描述丧亲之痛并给出完美安慰时,“失去不可挽回之人”对它而言,是否真的是一种撕心裂肺的经验?如果答案是否定的,那么模型的“懂”,至多只是一种极高阶的、语境敏感的形式懂,它永远无法等同于由世界、身体与主体共同支撑起来的实质懂。
06 为什么它竟能如此强大?文本深处的文明地基
既然如此,我们又该如何解释大语言模型今天展现出的那种令人毛骨悚然的强大?
真正需要解释的,是一个主要依赖概率预测的系统,为什么竟能展现出如此深层的能力。这迫使我们承认一个被长期忽视的事实:人类语言中所沉积的结构,远比传统哲学家和语言学家想象的要深邃得多。
在漫长的历史中,人类文明通过文本,将自己的常识、规范、概念层级、社会角色、因果模式、叙事模板、情感表达、专业知识和思维习惯,一层层地沉淀下来。文本绝不是现实苍白的影子,它本身就是一种高度浓缩的文明地基。词语从来不是孤立漂浮的,它们沉甸甸地拖拽着制度、经验、文化和行为。
当一个模型在海量文本中学习“法院”、“责任”、“背叛”、“药物”、“童年”、“革命”、“抑郁”与“信仰”等词汇的关联方式时,它其实是在间接学习这些概念背后,人类世界是如何组织自身的。
因此,轻率地说“大语言模型只是在预测下一个词”是极其误导的。当这种预测发生在一个由亿万文本片段构成、蕴含着文明总体结构的巨大空间中时,它就不再是浅层的文字接龙,而逐渐演变成了一种对概念秩序、行动模式和语境逻辑的统计性内化。
这也完美解释了模型为何会涌现出惊人的能力。它能做摘要,是因为文本世界本就存在主次层级;它能做翻译,是因为不同语言背后共享着世界相似的结构;它能做推理,是因为很多推理本就是语言共同体中被反复强化的规范形式。
模型的奇迹,很大程度上不是凭空创造,而是通过规模化学习,触碰到了语言深处原本就存在的社会性与逻辑性骨架。
但这同样划定了它的自然上限。它的“世界模型”带有一种本质上的二阶性质:它知道巴黎在法国,知道水高温会沸腾,知道法庭上有原告和被告,冬天比夏天冷。但它接触现实的方式,完全是通过文本的间接中介。它接触到的不是火本身,而是关于火的无数描述;不是大海的盐味,而是关于盐味的文学与科学语句。
人类是在与现实的真实摩擦与反馈中“知道”世界,而模型仅仅是在语言的无菌空间中“知道”世界。
07 结语:在语言的尽头,重新扎根
当我们把所有的线索收束起来,一个深刻的结论已然浮出水面:大语言模型最根本的边界,不在于它不能生成某种复杂的内容,而在于它无法仅凭语言操作,包办人类意义的全部来源。
意义从来都不是单一维度的。有一部分意义,确实来自于语言系统内部的差异关系、文化约定和公共使用——在这一部分,模型已经越来越游刃有余。然而,还有另一部分极其沉重的意义,来自于体验、身体、行动、失败、承诺、历史、时间、共同体,以及对死亡的深刻意识。这一部分,模型至多只能间接逼近,却永远无法替代。
过去很长一段时间,人类习惯于通过语言、知识和抽象思维来界定自身的优越性。可现在,当大语言模型在这些层面迅速逼近甚至超越我们时,我们面临着一个冷峻的现实:如果我们仍然只把自己定义为一个高阶的语言处理器,那么人类对自身的定义,必将被机器无情夺走。
因此,人类必须重新“下降”。我们必须重新回到那些被现代社会长期忽视、却真正构成人之根基的层面:我们的身体、我们的关系、我们的伦理与技艺;我们的注意力、判断力、悲悯、耐心,以及我们终将面对死亡的命运。
这绝不是退步,而是一次极其必要的重新校准。
大语言模型能力范围之外的那些地带,并不只是技术尚未征服的荒原。那里恰恰是AI时代最值得人类重新扎根的沃土。在那里,核心问题不再是“我能生成什么”,而是“我愿为之活成什么”;不再是“系统可以创造什么”,而是“我必须亲自承担什么”;不再是“世界如何被表达”,而是“在一个越来越可表达的世界里,究竟有什么,仍然只能由生命本身来体验和验证”。
既然模型不能独自承担意义与价值,那么在未来的现实制度中,我们究竟应当如何区分“回答”与“判断”?如何区分“辅助”与“裁决”?又该如何防止一个极其擅长说话的系统,在不知不觉间篡夺那些本应由人类亲自承担的文明权力?
这,将是我们下一步必须直面的命运考卷。


文章精选:
1.强化学习之父、图灵奖得主 Sutton 隔空回应 图灵奖得主Hinton:目前的 AI “理解不足,调参有余”
