语言学与大语言模型之争 – Jihong Zhang, Ph.D.

1 派系之争

现代语言学的争论，根源于围绕AI及其代表的大语言模型的不同学派观点。以乔姆斯基为代表的“守旧派”认为，大语言模型及其相关技术（如自然语言处理）对科学并无实质性贡献（“not a contribution to science”）。与之相对，史蒂夫·皮安塔多西（Steven Piantadosi）等“革新派”则主张，语言模型为语言学习提供了精确且正式的理论框架（“precise and formal accounts of language learning”）。此外，还有“平衡派”，他们认可语言模型在某些语言学领域的价值，例如利用神经网络或大语言模型来构建语言习得和语言处理的现实模型。

三方争论的核心，集中在大语言模型的局限性上：

大语言模型或许能够熟练掌握语言，但它并不是思想的模型（model of thoughts）。其本质是一种机器学习模型，而非人类语言学习的真实写照。它们擅长生成连贯的文本，能够模仿语言的结构和复杂的人类行为习惯，但在世界知识和语用学等“功能性胜任力”（functional competence）方面却表现不足。
从根本上说，大语言模型与人类的认知和语言能力并无直接关联。其语言生成机制无法映射或解释人类的语言生成过程。试图用大语言模型来理解人类语言本身是徒劳的。将大语言模型视为语言的“生成器”或“模拟器”，并不能帮助我们更好地理解人类语言，就如同研究玩具汽车的构造无法让人真正理解真实汽车的复杂结构一样。

2 语言能力与人类无关

一个词、短语或句子的意义是它所描述的世界中对象或情况的集合（或者其数学抽象）。
--- Manning, C. D. (2022). Human Language Understanding & Reasoning. Daedalus, 151(2), 127–138. https://doi.org/10.1162/daed_a_01905

语言本质上是符号的有序排列与意象之间的映射，其意义体现在它所指向的对象或情境集合之中（即“指称语义学”或“指称理论”）。这与现代自然语言处理中的简单分布式语义（或意义使用理论）形成对比，在这种理论中，一个词的意义仅仅是它出现的上下文的描述。正如Manning教授所言，语言的意义也可以来自于理解语言形式与其他事物之间连接的网络，无论这些事物是世界中的对象还是其他语言形式。

在大语言模型出现之前，这种“连结的网络”所蕴含的创造力——无论是诗歌还是文学作品——似乎都被认为是人类独有、不可复制的。然而，随着大语言模型的诞生，我们发现，哪怕是语言中最具创造性的部分，也可以被数学模型在一定程度上模拟出来。

这不禁引发了一个深刻的问题：我们是否可以持有“人类怀疑论”，认为人类语言的创造力其实也是一种基于生物机制的模式识别？或者说，是否应当采纳“模拟器论”，即机器的创造力只是对人类创造力的模仿？对于这些问题，我认为仍需更多的证据和研究来给出明确的答案。

3 大语言模型的边界

毫无疑问，大语言模型存在两个明显的边界。首先，大语言模型的信息库必须建立在人类已知语言的基础之上。没有人类语言作为参照，就无法构建出人类语言的模拟器。例如，如果全世界只存在英语，人类就很难想象如何训练出能说中文的大语言模型。同理，在我们获得外星语言的信息、并理解其对人类的意义之前，也无法构建出外星语言的大语言模型。

其次，大语言模型生成的语言必须对人类有意义。比如，“狗”这个词及其所指的“地球上的一种四足动物”，这种对应关系只对人类有意义。如果科学家随意让一个模型用“dwev42”来代表“狗”，这充其量只是文字游戏，而不是有实际意义的语言。同样，无论是人类创造的语言，还是大语言模型模拟出来的语言，其意义都只属于人类。即使有一天大语言模型用尽了所有人类语言进行训练，开始用自己生成的语言继续训练（现实中已经出现这种情况），它也不会创造出对人类毫无意义、但对自己有意义的语言。

至于AI的自学习机制是否能够突破人类知识的边界，我认为答案是否定的。AI或许能够突破人类“信息边界”，但无法超越“知识边界”。比如，AI可以生成一个大猩猩的VLOG，这种内容在人类的信息库中可能从未出现过。但这种“创新”本质上只是对已有信息的重新组合（如：大猩猩、举着gopro、说英语、在森林里），而真正赋予这些组合意义的，依然是人类的知识。

4 结语

秦朝人也许不知道汽车的构造，但是他们能够理解轮子。我们不知道100年后甚至20年后的AI会变成什么样子，但是我们肯定它的input和output是有边界。

5 相关文献

Language models and linguistic theories beyond words (2023), Nature.
Manning, C. D. (2022). Human Language Understanding & Reasoning. Daedalus, 151(2), 127–138. https://doi.org/10.1162/daed_a_01905

Excellent work by researchers at the University of Maryland. LLM benchmarks utilizing IRT item calibration demonstrate significant potential. The integration of AI and psychometrics appears to be highly promising.