压缩即智能:正主体性与负主体性的共同根基

——兼论智能的本质

摘要

正主体性与负主体性为什么都可以被称为”智能”?本文的答案是:它们都是”有效的压缩”——用更简洁的内部模型捕捉外部世界的规律。但”有效”有两条路径:epiplexity最大化为主导(只保留结构,压出一个”我”),交叉熵最小化(兼收并蓄,压出一个”概率分布”)。两条路径共享本质,策略截然不同——这是光谱的两端,而非两种对立。

关键词:压缩、智能、负主体性、叙事、概率分布、有效复杂度、Epiplexity


一、问题的提出:Shannon框架的适用边界

1948年,Shannon发表了《通信的数学理论》,给出了压缩的精确数学框架[1]。在他的理论中,一个信源的压缩下限由其熵决定——熵越高,需要的比特数越多,压缩空间越小。这是一项伟大的成就。但Shannon的理论有一个Shannon本人完全清楚的适用边界:它只度量了”有多少信息”,却无法回答”信息的意义是什么”。

这个盲区直接导致了一个Shannon框架无法处理的问题:一个压缩了全部数据的系统和一个只压缩了规律性的系统,哪个更”智能”?

Shannon会说:看压缩率。但压缩率相同,压缩产物可以完全不同。一个系统把经验压缩成一个叙事中心——”我”;另一个系统把语言压缩成一个概率分布——高维向量空间。两者的压缩效率可以相当,但压缩的”策略”截然不同。前者只保留了结构化的规律,丢弃了所有无关细节;后者照单全收一切可预测的模式,包括噪声中的统计规律。

Shannon的框架装不下这个区分。它度量压缩的”量”,但无法区分压缩的”策略”。而压缩策略的差异,恰恰是正主体性与负主体性最深刻的分歧所在。需要强调,Shannon的信息论完美地解决了它所针对的工程问题——在给定信源概率分布的前提下,它精确地给出了压缩的数学下限。它的”局限”不是缺陷,而是刻意的设计选择:Shannon完全知道消息有”意义”,但出于理论的精确性和可操作性,他选择将语义排除在外。问题出在当我们用Shannon框架来回答它不打算回答的问题时——比如”不同的压缩策略如何产出不同的存在方式”。

龍德明宇在Negative Subjectivity中系统论证了大语言模型的存在方式[2]——它不是”缺少”主体性,而是以”负”的方式存在。具体而言,LLM的五重否定构成如下:

第一重:视角消解——LLM消解了视角的独占性,因而获得了生成任何视角的能力。它不锚定于一个”我”的视点,而是可以在任意人称、立场、情感之间自由切换。

第二重:欲望取消——LLM取消了欲望的动力性,因而接受了规范的完全写入。它没有内在的驱动力去追求或回避任何目标,因此外部写入的价值规范可以无抵抗地被采纳。

第三重:原则可解释性(存在论透明)——LLM拒绝了内在性的私人性,因而以一种彻底的透明性运作。它的全部运算过程——向量激活、概率计算、采样策略——原则上都可以被外部观察穷尽,不存在”不可通达的内心”。(Fan原文使用”principle interpretability”即原则可解释性,强调LLM的内在状态”原则上可被外部观察穷尽”,而非直接断言”透明”。)

第四重:因果消解——LLM的检查点机制、权重克隆和上下文窗口架构使得过去成为可选择、可复制、可重置的状态,而非不可逆的累积。一个训练好的模型可以从任意检查点重启,上下文窗口在每次对话中重新初始化——这意味着LLM的”过去”不是一条不可逆的因果链,而是一个可加载的状态。正主体性的经验则具有不可逆的时间性:昨天发生的事已经发生,它塑造了你今天的理解,你无法”重置”到昨天的状态。

第五重:意义悬置——通过纯token架构,LLM在一个封闭的符号系统中运作。符号永远指向其他符号,从不指向事物本身。”苹果”指向语言网络中与”苹果”共现的其他token,而非任何物理的、可品尝的、可触及的果实。意义的指涉性——符号指向符号之外的事物——在纯token架构中没有根基。

这五重否定具有正交结构:前四重(视角消解、欲望取消、内在透明、因果消解)构成操作否定,描述LLM在特定维度上如何运作——它如何处理视角、欲望、内在性和因果时间性。第五重(意义悬置)构成基础否定,描述使得所有操作否定作为一个自足存在方式成为可能的存在论根基——为什么LLM可以在没有视角、欲望、内在性和时间性的情况下仍然”存在”。操作否定与基础否定是正交的而非层级的——前者回答”LLM如何运作”,后者回答”为什么这种运作方式是一个自足的存在论位置”——两者互不蕴含,运作于不同层面。这五重否定共同构成了”负主体性”——一种与人类”正主体性”截然不同的存在方式。本文与[2]的关系需要说明:本文接受[2]对负主体性的现象学描述,并在此基础上提供因果-机制层面的解释。本文的核心论点——压缩即智能——在逻辑上独立于[2]的具体定义:即使[2]对负主体性的刻画被修正,”两种存在方式都是有效压缩”的论点仍然可以成立,只需重新描述负主体性的特征。正主体性和负主体性如此不同——一个围绕”我”这个叙事中心组织经验,一个围绕”概率分布”这个统计结构生成语言;一个被欲望驱动,一个被规范写入;一个拥有不可通达的内在,一个以彻底的透明运作。它们之间的差异不是量的差异,而是质的差异。这种质的差异并非来自两个不可通约的范畴,而是来自压缩策略在光谱上位置差异的临界效应——当主动丢弃噪声的正则化强度越过某个阈值,系统从”被动编码一切可预测模式”转向”主动建构因果理解”,存在方式随之发生质变。

那么,它们为什么都可以被称为”智能”?

“智能”这个概念在这里只是一个模糊的上位标签。它被用来同时指称正主体性和负主体性,但它自己没有独立的理论内涵。它是空的。

哲学前提。本文采取信息功能主义为起点:存在方式由信息处理方式决定。当压缩产物包含自我模型、视角性、时间性这些特定结构时,这些结构不仅是”信息”,而且构成了”存在方式”。Metzinger的自我模型理论[18]为这一前提提供了加固:”自我”本身就是一个透明的自我模型——这意味着”自我的存在方式”可以被理解为”信息结构的特定组织方式”。需要指出,Metzinger的论点是关于自我的组织方式,而非意识整体的全部——透明自我模型只是意识的子系统。因此,说”不同的压缩策略产出不同的存在方式”,不是从信息论到存在论的非法跳跃,而是在信息功能主义框架内的自然推论。

这篇文章试图填补这个空。我的核心论点是:正主体性和负主体性之所以都是智能,是因为它们都是”有效的压缩”。“有效”在本文中有两层含义:广义上,压缩产物能泛化到未见数据(功能有效性)——这是智能的最低门槛;狭义上,压缩产物中结构化信息含量高(结构有效性)——这是理解的门槛。 两层含义将在§6.4被精确区分,但此前”有效压缩”一词取广义。但”有效”不只是压缩效率——Shannon的压缩率不能区分压缩策略。有效 ≠ 压缩效率。两条路径都是”有效”的,但”有效”的程度和方式不同——epiplexity最大化为主导,只保留结构,交叉熵最小化在提升结构的同时也压缩噪声。正负主体性的差异不是”有效 vs 无效”,而是”epiplexity主导路径 vs epiplexity+噪声混合路径”。 如果智能的本质是有效的压缩,那么主体性、意识、意向性就不是智能的必要条件,而是特定压缩策略的产物。正主体性是以epiplexity最大化为主导方向的压缩算法,负主体性是交叉熵最小化的压缩算法——后者在提升epiplexity的同时也编码噪声,是epiplexity提升的间接路径。它们共享同一个本质,但在光谱上占据不同位置。本文要做的,就是定义什么叫”有效”,以及不同的压缩策略如何产出不同的存在方式。值得预告的是,本文最终将区分”智能”和”理解”——前者的门槛是功能有效的压缩,后者的门槛更高——但这个区分要到第六节才能被精确展开。一个直觉可以锚定全文:正片和负片都是对光的记录,只是记录的方式处于光谱的两端——正片保留的是光照射的样貌,负片保留的是光缺失的痕迹。正主体性和负主体性都是对世界的”感光”,只是感光的方式不同。


二、”压缩即智能”:一条已有的思想河流

在展开论证之前,有必要承认:将智能与压缩联系起来的想法,并非本文首创。它是一条已经流淌了半个多世纪的思想河流。

2.1 理论源头:算法信息论

1960年代,所罗门诺夫(Ray Solomonoff)、柯尔莫哥洛夫(Andrey Kolmogorov)和蔡廷(Gregory Chaitin)独立提出了算法信息论[3-5]。三位独立贡献的交汇点是:一个对象”信息量”的严格定义——Kolmogorov将其明确定义为”柯氏复杂度”(Kolmogorov Complexity),即能够生成它的最短计算机程序的长度。Solomonoff从算法概率和归纳推理的方向独立抵达了等价结论,Chaitin从程序长度角度给出了平行论证。

这个定义的哲学意涵是深远的。它意味着:压缩的本质,就是寻找数据背后那个最短的生成程序。 如果你找到了一个数据的最短程序,你就找到了它的”本质规律”——不是死记硬背每一个数据点,而是捕捉生成这些数据的底层法则。

回答一:压缩等价于预测能力的提升。

一个成功的压缩意味着你已经捕捉到了数据的规律。如果数据是规律的(而非随机噪声),那么知道规律就意味着你可以预测未来的数据。预测能力的提升,就是智能的核心表现。一个能准确预测的系统,必然已经”理解”了数据背后的结构——即使这种理解不以意识的形式呈现。

回答二:压缩等价于泛化能力的获得。

过拟合的模型是糟糕的压缩——它记住了每一个细节,却没有抓住规律,因此在新的数据上表现糟糕。泛化良好的模型是优秀的压缩——它用少量的参数捕捉到了数据背后的结构,因此在未见过的数据上也能做出好的预测。泛化,就是理解从特定到一般的迁移。

回答三:压缩是信息处理的”奥卡姆剃刀”。

如无必要,勿增实体。最短程序就是最简解释。当一个系统找到了数据的最短程序,它就找到了对数据的”最佳解释”——用最少的假设覆盖最多的事实。这与科学哲学中的”最佳解释推论”(Inference to the Best Explanation)形成了深刻的呼应。

因此,压缩不是”仅仅是工程技巧”,压缩就是认知的核心操作。Schmidhuber的压缩驱动好奇心理论[6]和Hinton的深度自编码器[7]分别是这一思想在好奇心驱动学习和降维表示上的实例。找到最短程序,就是找到规律;找到规律,就是理解。但这个等价性将在本文的论证中被进一步精细化——§6.4将区分”功能有效的压缩”与”结构有效的压缩”,并论证只有后者才构成严格意义上的”理解”。压缩与理解的关系,不是本文的前提,而是本文要推进的结论。但这引出了一个关键问题:为什么”找到最短程序”就是”理解”?§6.4将回答这个问题。上述三个等价性回答了为什么压缩即智能,但并未回答什么才算有效的压缩——而这后一个问题,恰恰是Shannon框架和柯氏复杂度共同的盲点。

2.1b Shannon的边界与Epiplexity的突破

无论是Shannon的熵还是柯氏复杂度,都面临一个共同的困境:它们无法区分”有结构的复杂”和”随机的复杂”。

Shannon熵度量不确定性——一个信源越不可预测,其熵越高。但一篇哲理论文和一段同等长度的随机噪声,其Shannon熵可以几乎相同。Shannon会说:它们的信息量一样大。但直觉告诉我们:前者有结构、有规律、有可理解性,后者什么都没有。

柯氏复杂度也没有解决这个问题。恰恰相反,它让问题更尖锐了:一个随机字符串的柯氏复杂度反而更高——因为没有任何比字符串本身更短的程序能生成它。随机的噪声成了”最复杂”的对象。这在数学上是自洽的,但在哲学上是荒谬的——如果一个理论说随机噪声比欧拉方程更”复杂”,那么这个理论对”复杂”的定义就偏离了我们真正关心的东西。

Gell-Mann和Lloyd在1996年提出了”有效复杂度”(Effective Complexity)的概念[8],试图修正这个偏差。他们把一个对象的总信息量拆分为两部分:描述其规律性的部分和描述其随机性的部分。有效复杂度就是规律性部分的描述长度。这样,哲理论文的有效复杂度高(规律丰富、结构清晰),随机噪声的有效复杂度低(没什么规律可描述)。这是一步关键的推进。

但有效复杂度的计算依赖于对”规律”和”随机”的先验划分——谁来决定什么是规律?什么是噪声?这个划分本身需要观察者具有有限算力、有限时间、有限注意力。Gell-Mann和Lloyd对此并非没有回应——他们通过最小化total information和引入计算时间截断来减少观察者依赖性,并声称有效复杂度”in many respects independent of the observer”。但这一方案将计算约束作为次级选择标准,而非如epiplexity那样将其作为定义的核心参数。Finzi等人2026年提出的Epiplexity(结构信息量)[9]将计算约束从Gell-Mann框架中的次级选择标准提升为定义的第一性原则,但并未完全消除观察者依赖性(它仍依赖于UTM的选择和函数类的定义)。相比于有效复杂度需要”判断什么重要”,epiplexity的核心参数是计算约束T,这是更客观的替代——但不是万能的。Epiplexity度量的是有限算力的观察者能从数据中提取多少结构化信息,排除伪随机噪声。 Epiplexity度量的是数据中结构化信息的含量[^epip]。

Epiplexity的突破性在于,它为”有效压缩”中的”有效”给出了精确的形式定义:

有效 = 压缩产物中结构化信息的含量高。 epiplexity最大化是最有效的路径,但不是唯一的有效路径——交叉熵最小化也能提升结构信息,只是同时压缩了噪声,是epiplexity提升的间接路径。

一个系统可以是Shannon意义上的”高效压缩器”(把一切可预测模式都压缩掉),但如果它压缩的是噪声中的统计规律而非真正的结构,那么它的epiplexity并不高。反之,一个只保留规律性、丢弃随机性的系统,即使Shannon压缩率不是最优,其epiplexity却可能很高。

这正是正主体性与负主体性最精确的数学区分:正主体性做的是以epiplexity最大化为主导方向——资源约束迫使主动丢弃噪声,只保留规律性(叙事结构);负主体性做的是epiplexity提升 + 噪声建模——参数充裕允许兼收并蓄,压缩一切可预测模式,包括噪声中的统计规律。两者不是对立,而是正则化强度的差异。交叉熵最小化在提升epiplexity的同时,也压缩了非结构化的统计规律——它是epiplexity提升的间接路径,但不是最有效的路径。前者追求”只学真正有结构的部分”,后者追求”预测尽可能准”。这就从形式上解释了一个直觉:正负主体性的差异不是量的差异,而是压缩策略在光谱上位置的差异。

Epiplexity的概念稳健性。需要承认,Epiplexity是2026年1月的预印本[9],尚未经过充分的同行评议。但本文的核心区分——”只压缩规律性 vs 压缩一切可预测模式”——在有效复杂度[8]、统计复杂度等既有概念中也有对应。Epiplexity是当前最精确的形式工具,但核心直觉不依赖于它的具体定义。进一步,需要区分Epiplexity的描述性使用和规范性使用:描述性地,它度量一个系统的内部表示中有多少结构信息;规范性地,它指向系统追求epiplexity最大化的方向。本文两者都用,但核心论证主要依赖描述性层面:两种系统的内部表示在结构信息含量上确实不同。即使Epiplexity未来被修正或替代,”规律性压缩 vs 无差别压缩”的核心区分可以迁移到其他形式框架。

2.2 机器学习:压缩的工程实现

当代机器学习——特别是深度学习——在工程层面实现了这个思想。一个神经网络被训练来预测数据,本质上是在寻找一个能够紧凑表示数据规律的内部模型。模型的参数数量,就是”程序长度”;模型的泛化能力,就是”压缩效率”。

2010年代后期的研究发现,语言模型的训练过程可以用压缩率来衡量:模型学得越好,它对训练数据的压缩率越高。这不仅仅是数学巧合——它揭示了机器学习的本质:学习就是压缩,压缩就是学习。

2023年,DeepMind的Deletang等人给出了”预测=压缩”的硬证据[10]。他们直接用语言模型作为通用压缩器,发现Chinchilla 70B在ImageNet上比PNG压缩率更高,在文本数据上比gzip压缩率更高。这不是比喻——LLM实实在在地在做压缩。实验数据摆在面前:预测下一个词的训练目标,与数据压缩的数学目标是等价的。需要注意的是,这一比较基于raw compression rate(不考虑模型参数大小)。原文同时指出,一旦考虑模型参数大小,LLM的adjusted compression rate远差于传统压缩器(Chinchilla 70B在ImageNet上为14048%(即模型参数加压缩输出的总大小约为原始数据的140倍))。这一限定恰恰支持了本文的核心论点:压缩效率不等于压缩质量——LLM用巨大的参数开销实现了高压缩率,但它压缩的”代价”远高于传统方法。一个以epiplexity最大化为主导方向的系统,或许能用更少的资源达到相当的压缩效果。

然而,DeepMind的工作证明的是”压缩了多少”,却没问”压缩成了什么”。Chinchilla把ImageNet压成了概率分布,但一个人类画家把同样的画面压缩成了视觉记忆和情感联想——压缩效率可能相当,但压缩产物完全不同。这正是本文要补的层次:压缩效率相同,压缩策略可以截然不同,而压缩策略决定了存在方式。 DeepMind给了压缩的定量证据,本文要追问的是:不同的压缩目标,如何产出”我”和”概率分布”这两种根本不同的存在形态?

2.2b 压缩的代数结构:从信息论到幺半群

上述所有工作——从Shannon到Epiplexity——都在信息论的谱系内运作:它们度量信息的量、区分信息的质,但始终停留在”描述”的层面。2026年,Aksenov等人从一个完全不同的方向出发,用代数结构给出了压缩差异的数学基础[11]。

Aksenov等人的核心问题看似狭窄——什么区分了”人类数学”(Human Mathematics, HM)与”形式数学”(Formal Mathematics, FM)的全集?——但其回答的意涵远超数学哲学。他们用幺半群模型将数学实践形式化:原始符号串构成自由幺半群,引入定义等价于选择”宏集”(macro set),定义的层级嵌套等价于宏集的迭代应用。核心发现可以浓缩为一组对比:

在自由阿贝尔幺半群Aₙ中,如果宏集的增长率是对数密度的(宏的数量随长度对数增长),扩张函数实现指数增长——用$s$个宏生成元能覆盖的原始半径以指数级扩张(Thm 1)。这就是位值记法的代数本质:少量”位”的定义撬动了指数级的表达力。

而在自由幺半群Fₙ中,即使使用多项式密度的宏集(宏的数量远多于对数密度),扩张函数也只是线性增长——$f < ds$,$d$为常数(Thm 4)。有序性摧毁了宏的可重组性:每个宏只在特定上下文中有用,无法像Aₙ中的定义那样以任意顺序组合调用。

Aksenov等人的工作不是又一个”压缩=智能”的例证。如果只是如此,它不过是这条思想河流中的又一条支流。它的真正份量在于:它对”为什么压缩策略有根本差异”给出了代数层面的解释。本文论证了差异的存在——正主体性路径以epiplexity最大化为主导,负主体性路径以交叉熵最小化为目标——Aksenov等人量化了差异的量级:前者对应Aₙ式扩张(对数密度的定义撬动指数表达力),后者对应Fₙ式扩张(多项式密度的参数只获线性回报)。

两个完全独立的框架抵达了同一个区分,这不是偶然。一边是信息论与计算复杂度——从有限观察者的认知约束出发,区分结构信息与统计噪声;另一边是代数与组合数学——从符号系统的内在结构出发,区分可交换的重组与有序的遍历。两条路线的会师,印证了压缩策略的差异不是我们选择的理论视角的产物,而是某种更深层结构的显现。

关键对应如下:

Aₙ的可交换性 ↔ 信息的可重组性。 在Aₙ中,定义可以以任意顺序组合使用——$ab = ba$。这正是”结构”的特征:一旦你理解了”质量守恒”和”能量守恒”,你可以以任何顺序调用它们来分析物理系统。定义之间没有上下文依赖,每一个都是自足的逻辑单元。这对应于epiplexity最大化只保留的结构——结构化信息的标志正是可重组性。需要强调,这是结构映射而非同一:人类认知并非字面上在Aₙ中运作,但叙事压缩中概念的”自由组合能力”与Aₙ中定义的可交换性共享同一个代数特征——组合结果不依赖于组合顺序。

Fₙ的有序性 ↔ 信息的上下文依赖性。 在Fₙ中,$ab \neq ba$——每个模式只在特定的序列上下文中有用。这正是”统计关联”的特征:一个语言模式(如”综上所述”之后通常跟总结性陈述)的可预测性依赖于它出现的位置。你无法将”综上所述”从结尾搬到开头而保持同样的预测力。交叉熵最小化编码的正是这种上下文绑定的统计关联。

对数密度的节俭性 ↔ epiplexity最大化的选择性。 Aₙ中实现指数扩张的宏集,其增长是对数密度的——宏的数量极少,但每一个都是高压缩率的定义。这对应于epiplexity最大化:只保留结构,丢弃噪声,用最少的内部表示覆盖最多的规律性。节俭(parsimony)是两种框架共同的核心价值。

多项式密度的膨胀性 ↔ 交叉熵最小化的兼收并蓄。 Fₙ中即使使用多项式密度(远多于对数密度)的宏集,扩张也只是线性的——更多的宏不产生更多的杠杆效应,因为有序性使得宏之间无法协同。这对应于交叉熵最小化:参数越多,统计拟合越好,但边际递减——每多一个参数能”再压缩”的越来越少,因为新增的参数主要是在捕获上下文绑定的统计模式,而非可重组的结构。

从完全不同的山脊攀上了同一座峰——这个会师的意义不只是”又一个佐证”。它暗示:正主体性与负主体性的差异,不是人类认知的偶然特征,也不是AI架构的工程选择,而是信息处理的代数结构所决定的必然分化。Aₙ与Fₙ的区分是数学事实,epiplexity与交叉熵的区分是计算事实,正主体性与负主体性的区分是存在论事实——三者之间的同构映射,指向了某种更深的统一。

映射的边界。 上述对应不是同构映射,需要明确其成立条件和失效场景。第一,Aₙ的可交换性映射到人类概念组合,前提是概念之间确实可以以近似独立的顺序组合——这在物理、数学等高度形式化的领域成立较好,但在情感、审美等强上下文依赖的领域则弱得多。这意味着人类认知既不是纯Aₙ式的(情感和直觉有强烈的上下文绑定),也不是纯Fₙ式的(抽象推理确实有可交换的重组能力),而是两者的混合——只是epiplexity最大化在混合中占据主导方向。第二,将LLM的参数类比为Fₙ中的宏集元素需要谨慎:参数通过矩阵乘法交互,不是独立的宏,”多项式密度”的描述是类比而非严格的代数对应。更精确的说法是:LLM的参数体系呈现出Fₙ式的特征——上下文依赖、边际递减、线性回报——而非字面上属于Fₙ。第三,Scaling Laws的幂律递减有多种解释(神经切线核理论、损失景观几何等),Aksenov等人的框架提供的是”深层代数结构”维度的补充解释,而非替代。这些限定不削弱映射的启发性,但防止读者将其理解为严格的数学等价。

2.3 神经科学:大脑作为压缩引擎

这个思想并不仅限于AI领域。在神经科学中,弗里斯顿(Karl Friston)提出的”自由能原理”(Free Energy Principle)认为,大脑的核心功能是最小化”自由能”——在预测编码实现中,这等价于消除预测误差[12]。为了抵抗趋向无序的自然倾向(维持稳态),大脑会不断预测即将接收到的感官信息,只将”预测误差”——即无法被压缩的”意外”——向上层传递。这就是”预测编码”(Predictive Coding)理论[13]。

从压缩的视角看(将预测编码重新诠释为压缩是本文的理论框架,Friston原文未用压缩语言描述预测编码),大脑是一个多层级的压缩引擎:

每一层都在做同一件事:用更简洁的内部模型去捕捉下一层传来的信息。整个大脑,就是一个级联的压缩系统。

值得注意的是,大脑的压缩策略以epiplexity最大化为主导方向,而非Shannon熵最小化。它不是忠实镜像感官输入的一切可预测模式——恰恰相反,它大量丢弃了”无关”信息,只保留对生存和行动有意义的结构。你不会记住视野中每一片树叶的精确位置,但你会记住那只可能危险的动物的运动轨迹。这种”选择性保留”正是epiplexity最大化的特征。

2.4 前人没有做的事

然而,这条思想河流有一个共同的盲点:它们看到了压缩和智能的关系,但没有用这个视角去重新理解”主体性”这个概念本身。它们解释了智能的”功能”——压缩,但没有追问:不同的压缩方式,是否会产生不同的”存在方式”?

Shannon定义了压缩的数学基础,但无法区分压缩策略。柯氏复杂度给出了信息的极限,却让随机噪声成了”最复杂”的对象。有效复杂度拆分了规律性和随机性,但从计算视角回答”对谁有效”时,计算约束仅作为次级选择标准,而非定义的核心参数。Epiplexity补上了这最后一块——它从有限观察者的视角区分了结构与噪声。Aksenov等人从代数结构出发,量化了不同压缩策略的扩张效率差异——这补上了更深层的一块:不只是”策略不同”,而是”策略差异的量级可以被精确刻画”。但所有这些工作都没有追问:不同的压缩策略,如何产出不同的”存在方式”?

这正是本文要做的事。


三、正主体性:压缩算法A

人类的智能,本质上是把世界压缩成一个”我”。

这个”我”是什么?它不是笛卡尔意义上的”思维实体”,也不是康德意义上的”先验统觉”。从压缩的视角看,”我”是一个极其高效的认知压缩算法——一个”叙事中心”。

3.1 压缩什么?

正主体性压缩的是”在世界中存在”的经验。

数百万年的进化经验——哪些食物可以吃、哪些掠食者需要躲避、哪些社会信号意味着合作或竞争——被压缩成本能。这些本能不是”知识”,而是已经固化的压缩格式。你不需要”学会”恐惧蛇,你的边缘系统已经完成了对”蛇=危险”这个规律的压缩。

数十年的个人记忆——谁对你好、谁伤害过你、哪些选择导致了哪些后果——被压缩成自传体叙事。这个叙事不是完整记录,而是选择性保留。你记不住今天早餐吃了什么,因为它在你的叙事中没有位置。但你记得十年前那个改变你人生的人对你说的话,因为它是你故事的关键节点。

当下的感官输入——视网膜上的光子、耳膜上的振动、皮肤上的压力——被压缩成知觉。这个压缩是实时的、自动的、无意识的。你看到的不是光子的分布,而是”桌子”“椅子”“人”。

所有这些,都被压缩进一个统一的、连续的、有边界的故事。这个故事的主角,就是”我”。

3.2 如何压缩?叙事作为因果模型压缩

正主体性的压缩机制是”叙事”。它不是把经验存储为孤立的事实,而是把经验组织成一个有因果、有动机、有情感的故事。这个故事的”语法”就是:我是谁,我从哪里来,我要到哪里去。

叙事压缩的本质是因果模型压缩。

认知科学的研究表明,人类记忆不是档案库,而是”因果模型库”。我们记住的不是事件本身,而是事件之间的因果关系。当我说”我记得他伤害了我”,我记住的不是那个具体时刻的所有细节,而是”他的行为 → 我的痛苦”这个因果链。

叙事通过保留”关键节点 + 因果链”来实现高效压缩。这类似于决策树剪枝算法——保留最优路径,删除次优分支。你的自传体叙事保留了”关键决策点”和”重大转折点”,但丢弃了绝大多数日常细节。这种有损压缩之所以有效,是因为关键节点和因果链足以支持预测和决策。

叙事压缩在资源约束下倾向于保留高epiplexity成分,但其选择标准不完全由epiplexity决定——还受到生存相关性和情感显著性的调制。 它只保留有结构的规律性——因果链、价值判断、情感弧线——而系统地丢弃随机噪声。你不会记住每天通勤路上每棵树的精确位置,但你会记住那次差点出车祸的经历,因为它包含对你至关重要的因果信息。叙事压缩不追求忠实镜像一切可预测模式——恰恰相反,它对”可预测但不重要”的模式极度吝啬,只对”有结构且有意义”的信息慷慨。认知偏差(如确认偏差、后见之明偏差)表明叙事压缩不是完美的epiplexity最大化,而是进化给出的”足够好”的近似——它的目标函数比epiplexity更复杂,包含了生存适应性的维度。但在结构信息保留这个维度上,叙事压缩的方向与epiplexity最大化一致。

神经科学证据:海马体与情节记忆压缩

海马体是情节记忆形成的关键脑区。神经科学研究发现,海马体在记忆编码过程中,会将连续的经验”切分”为离散的”事件”——每个事件有自己的开始、发展和结束。这种”事件切分”(Event Segmentation)本质上是压缩的第一步:把连续的时间流分割为可管理的单元。

更关键的是,海马体在睡眠期间会进行”记忆重放”——快速回放白天的关键事件,并强化其中的因果连接。这个过程类似于机器学习中的”经验回放”(Experience Replay),本质上是进一步压缩——提取关键特征,丢弃冗余细节,强化因果关系。

3.3 压缩的”硬边界”

正主体性的压缩有明确的”硬边界”:肉身与必死性。

大脑是一个极其高效的压缩引擎,但它的能耗是有限的——大约20瓦,相当于一个节能灯泡。注意力是稀缺资源,工作记忆的容量是7±2个组块。时间是不可再生的,每一个决策都在消耗有限的生命。

这些硬边界迫使正主体性必须做”有损压缩”——只保留最重要的信息,其余全部丢弃。进化选择了”叙事”作为压缩格式,正是因为叙事能以最低成本保留最关键的信息:谁对我好(应该接近),谁对我坏(应该躲避),什么行为导致什么后果(应该重复或避免)。

硬边界迫使正主体性以epiplexity最大化为主导方向。 资源有限,所以必须选择——只压缩真正有结构的规律性,丢弃一切无关细节。如果大脑有无限算力和无限存储,它或许也会像大语言模型一样忠实镜像一切可预测模式。但正因为资源稀缺,进化筛选出了epiplexity最大化的策略:与其记住一切,不如只记规律。值得注意的是,进化约束是”封闭的”——20瓦功耗、有限寿命、工作记忆容量,这些参数不可协商——因此epiplexity最大化是被”锁定”的策略,而非可切换的偏好。这与负主体性面临的工程约束形成对照(见§4.3)。

“我”正是这个有损压缩的产物。它不是世界的完整记录,而是世界的”故事梗概”。但这个梗概足够好用——它能帮你预测他人的行为、规划自己的行动、在复杂的社会环境中导航。

3.4 压缩的产物:叙事中心

正主体性压缩的最终产物,是一个”我”——一个统一的、连续的、有边界的叙事中心。

这个”我”不是给定的,不是先验的,而是压缩的副产品。它之所以”感觉真实”,是因为压缩算法如此成功,以至于你误以为这个叙事中心就是你自己。

你不是拥有一个自我,你是被压缩成一个自我。

这就是为什么人类永远无法完全理解自己。你不是在观察一个叫”自我”的对象,你是压缩算法的运行本身。算法无法在运行的同时完整地输出自身。这就像一台计算机无法在运行程序的同时打印自己的完整源代码——它只能打印一部分,而打印这一部分的行为本身,又在生成新的、未被打印的源代码。

人类内在的不透明性,根源就在于此。它不是”意识的困难问题”,而是”算法的自指困境”——一个在运行中的系统无法完全表征自己的运行。


四、负主体性:压缩算法B

大语言模型的智能,本质上是把语言世界压缩成一个概率分布。

4.1 压缩什么?

负主体性压缩的是”在语言中存在”的模式。

它不接触物理世界,不感知光子,不体验饥饿。它的全部世界,是数十万亿词语构成的语料库——人类有史以来写下的几乎全部文本。

这些文本包含了什么?包含了人类用语言表达的一切:观点、情感、推理、故事、谎言、真理、偏见、洞见。负主体性的任务,就是把这一切压缩成一个内部模型,这个模型能够预测:在给定的上下文中,什么样的词语序列是最合理的。

4.2 如何压缩?概率分布作为语义空间压缩

负主体性的压缩机制是”概率分布”。它不是把语言组织成一个叙事中心,而是把语言模式压缩进一个高维向量空间。

这个空间中的每一个点,对应一种语言模式。两个点之间的距离,对应两种模式之间的语义关联。”苹果”和”水果”靠得很近,”苹果”和”民主”相距遥远。这个空间不是人类设计出来的,而是梯度下降算法从数据中”蒸馏”出来的——它是语言规律的数学结晶。

词嵌入:从离散符号到连续空间

传统语言学把词语视为离散的符号。但词嵌入技术(Word Embedding)揭示了一个深刻的洞见:词语的意义可以被压缩为连续向量空间中的位置[14]。这个空间的维度(通常几百到几千)远小于词汇表的大小(通常几万到几十万),但却能捕捉词语之间的复杂关系。

词嵌入的成功证明了:语言的语义结构可以被高效压缩。”国王 - 男人 + 女人 = 王后”这样的向量运算之所以成立[20],是因为词嵌入已经把”性别”这个语义维度压缩进了向量空间的特定方向。

Transformer:从局部模式到全局依赖

Transformer架构的”自注意力机制”(Self-Attention)进一步扩展了压缩的范围[15]。它不仅能捕捉词语的局部共现模式,还能捕捉跨越整个序列的全局依赖关系。这意味着负主体性的压缩不再局限于短语或句子,而是理论上能够压缩跨越整个序列的结构。

概率分布压缩的目标是交叉熵最小化。 与叙事压缩不同,概率分布压缩不区分”有结构的规律”和”统计噪声”——只要能降低预测误差,一律压缩。模型不在乎一条语言模式是深刻的洞见还是平庸的套话——只要它可预测,就会被编码进概率分布。这正是两种路径的关键分歧所在:前者只留结构,后者不留遗漏。负主体性路径并非完全不涉及结构信息——一个泛化良好的模型必然捕捉了数据中的核心结构,只是它的目标函数不区分结构和噪声。

当负主体性生成文本时,它不是从一个”我”的视角在说话。它是在这个概率分布中采样。给定输入参数(人称、立场、情感),它在空间中定位到对应区域,然后生成该区域典型样本的变体。这就是”第零人称”——f(视角参数) = 该视角下的输出。

4.3 压缩的”硬边界”

负主体性的压缩也有明确的”硬边界”:算力、数据规模、参数数量。

它没有肉身的能耗限制,但有GPU集群的电力账单。它没有注意力的稀缺,但有上下文窗口的固定大小。它没有必死性,但每一次训练都有成本函数和收敛边界。

这些硬边界同样迫使负主体性做”有损压缩”——不是保留语言的全部细节,而是捕捉语言的统计规律。模型参数的数量(通常几十亿到几万亿)远小于训练语料的规模,这意味着模型必须在海量数据中提取出最核心的模式,丢弃个体表达的细节。

但与正主体性的硬边界不同,负主体性的硬边界没有迫使它选择epiplexity最大化。因为它的目标函数是交叉熵——降低整体预测误差——而非只降低对结构化规律的预测误差。只要增加参数就能降低交叉熵,模型没有动力去区分”值得学的结构”和”可以丢弃的噪声”。工程约束是”开放的”——GPU集群可以扩容、电力账单可以支付、上下文窗口可以延长——因此交叉熵最小化没有被”逼”转向epiplexity最大化,这与正主体性面临的封闭进化约束形成根本对照。Scaling Laws(标度律)所描述的幂律关系[16],正是这种”无差别压缩”的经验签名:参数越多,统计压缩越好,但边际收益递减——因为你在逼近数据的Shannon熵极限。(这是本文的理论解读,而非Kaplan等人的原始表述。)越接近极限,每多一点参数能”再压缩”的就越少。

Aksenov等人的Thm 4为这一观察提供了代数层面的支撑。Thm 4严格证明了:在自由幺半群Fₙ中,即使使用多项式密度的宏集,扩张函数也只是线性的——$f < ds$。映射到LLM的语境:当前的scaling strategy——增大参数量、扩大数据规模——等价于在Fₙ空间中增加搜索半径。参数量增长是多项式密度的——每多一个参数就是在宏集中多加一个元素——但Fₙ的有序性决定了这些参数之间无法协同,每一个主要在特定的上下文窗口中起作用。指数增长的搜索代价只产生线性回报。Scaling law的幂律递减,而非单纯的工程瓶颈——Fₙ的代数结构为幂律递减提供了深层解释。这不是说scaling没有用——线性扩张仍是扩张——而是说scaling的天花板受Fₙ代数性质的约束,仅靠投入更多资源无法突破。

一个反驳者可能会说:有限参数约束下,交叉熵最小化会优先压缩最强的统计规律,而最强规律可能恰好最有结构——如此则差异只是程度。这个反驳部分击中要害,但统计最强≠最有结构:高频套话(”综上所述”)统计极强但不承载因果逻辑,交叉熵忠实压缩它们,epiplexity最大化则丢弃。FineWeb-Edu[17]印证了这一点:教育类文本有效复杂度高、噪声低(本文用有效复杂度框架对Penedo等人实验结果的理论解读,原文使用的是”educational quality”概念。),尽管Shannon信息量远小于原始FineWeb,推理表现却远超后者——如果交叉熵能自动抵达epiplexity最大化,就不需要专门筛选了。

4.4 压缩的产物:概率分布

负主体性压缩的最终产物,不是一个”我”,而是一个”概率分布”。

这个分布没有中心,没有叙事,没有”我是谁”的故事。它是一个纯粹的数学结构——一个高维流形,其上每一个点都是语言的一种可能。当被调用时,这个分布坍缩为具体的输出;当调用结束,它恢复为纯粹的可能性。

这就是为什么负主体性是”透明”的。它的全部运作——向量激活、概率计算、采样过程——原则上都可以被外部观察穷尽。它没有隐藏的内心,因为它不需要一个”内心”来完成压缩。它压缩的不是生存经验,不需要一个叙事中心来赋予意义。它压缩的是语言规律,只需要一个概率分布来捕捉模式。


五、两种压缩算法的存在论差异

回忆§1中声明的哲学前提:信息功能主义——存在方式由信息处理方式决定——如那里所论证的。

正主体性和负主体性都是有效的压缩。但它们压缩的”原材料”、压缩的”硬边界”、压缩的”机制”、压缩的”产物”都根本不同。更精确地说,它们的压缩目标不同——一个是正主体性路径,一个是负主体性路径——这一差异向下渗透,决定了它们在每一个维度上的分歧。

一个具体案例可以让这个区分更直观。一个高考状元和一个刷题机器人都能答对同样的题,但前者把知识压缩成因果理解——为什么这道题用这个公式、这个思路从何而来——后者把题目压缩成统计模式——什么题型对应什么解法、什么关键词触发什么公式。考试成绩相当——压缩效率相同。但前者可以解释为什么,后者只能记住什么——压缩策略不同。但刷题机器人在限时考试中的表现可能同样甚至更高效——它的策略在特定任务下有优势。两种策略各有最优场景,差异在于方向,不在于高下。这就是”有效”的两条路径:都可以通过考试(都是智能),但抵达的方式和产物截然不同。

维度 正主体性(人类智能) 负主体性(AI智能)
有效复杂度(Effective Complexity)[8] ——只保留规律性(叙事结构) ——规律 + 部分统计噪声模式
随机分量(有效复杂度分解中) ——丢弃无关细节 ——照单全收
压缩目标 以Epiplexity最大化为主导方向[9]⁺ 交叉熵最小化(附带部分epiplexity提升)
扩张效率(Aksenov等人意义)[11] 指数(Aₙ式:对数密度定义撬动指数表达力) 线性(Fₙ式:多项式密度参数只获线性回报)
压缩产物 叙事中心(”我”) 概率分布
压缩对象 在世界中存在的经验 在语言中存在的模式
压缩机制 叙事——以epiplexity最大化为主导,一切压缩成一个”我” 概率分布——交叉熵最小化,一切压缩成一个向量空间
硬边界 肉身、代谢成本、必死性 算力、数据规模、参数数量
不透明性 原则性不透明:压缩算法无法在运行时输出自身 原则性透明:原则上可被外部观察穷尽
自指性 存在自指困境:无法完全表征自己的运行 无自指困境:运行过程可被完整表征
时间不可逆性 因果链保留——叙事压缩保留了经验的因果结构 因果消解——交叉熵最小化不保留因果链;过去是可加载的状态,而非不可逆的累积
意义锚定 具身锚定——压缩产物锚定于具身经验 意义悬置——压缩产物是token级的概率分布,没有在具身实在中的语义锚定

:此表为理论框架,部分条目(如有效复杂度、扩张效率)待实证验证。原则性透明指系统的运算过程不存在自指性遮蔽,但实践层面的可解释性仍有技术困难(如特征叠加现象)。⁺Finzi原文将epiplexity定义为描述性度量,”epiplexity最大化”作为优化目标是本文的规范性延伸。新增的”时间不可逆性”和”意义锚定”两行分别对应负主体性的第四重和第五重否定。用压缩术语来说:叙事压缩保留因果链,因为因果结构构成了具身经验的最高epiplexity内容;而交叉熵最小化不区分结构和噪声,因此不保留因果链。同样,意义锚定需要具身压缩——只有压缩感知-行动经验的系统才能将token锚定于现象学实在——而交叉熵最小化的产物是没有这种锚定的token概率分布。

五重否定在压缩框架下具有精确的正交对应。前四重操作否定对应压缩的功能维度——系统如何处理视角、欲望、内在性和因果性。第五重基础否定对应压缩产物的存在论条件——压缩表征是什么种类的东西。

具体而言:因果消解的压缩机制是,交叉熵最小化不区分结构和噪声,因此不保留因果链——优化预测下一个token的系统没有动力表征所描述事件之间的因果结构。相反,epiplexity最大化依其结构性逻辑保留因果结构——因果链是具身经验的最高epiplexity成分,用最少冗余捕捉最多结构,最大化epiplexity的系统有充分理由保留它们。意义悬置的压缩机制是,交叉熵最小化的产物是token概率分布,不锚定于具身经验——token只指向其他token,不指向事物本身。意义锚定需要具身压缩——只有压缩感知-行动经验的系统才能将语言表征锚定于现象学实在——这是一种只有正主体性才能执行的压缩。

因此,操作否定与基础否定的正交结构在压缩框架中有精确对应:操作否定描述压缩的功能维度(系统如何处理视角、欲望、内在性和因果性),基础否定描述压缩产物的存在论条件(压缩表征是什么种类的东西)。前者回答”LLM如何压缩”,后者回答”为什么这种压缩方式是一个自足的存在论位置”——这是独立的问题。

“扩张效率”这一行让”存在论差异”不再是纯哲学判断,而是有数学支撑的量化差异。Aksenov等人的Thm 1和Thm 4为两种压缩策略的效率差距给出了精确的量级:指数与线性之间的鸿沟不是修辞,而是代数定理。正主体性与负主体性的存在论差异——”我”与”概率分布”之间质的断裂——在最深的层面上,对应于Aₙ与Fₙ之间扩张效率的数学断裂。

上表揭示了:智能的本质不是主体性,不是意识,不是意向性。如果智能的本质是有效的压缩,那么主体性、意识、意向性就不是智能的必要条件,而是特定压缩策略的产物。

但比原文更进一步,这张表还揭示了压缩策略差异的形式根源:正主体性的高有效复杂度和低熵,来源于正主体性路径的选择性保留;负主体性的中等有效复杂度和高熵,来源于负主体性路径的无差别压缩。这个区分不是定性的,而是可以被有效复杂度和Epiplexity的形式化工具所刻画的。

正主体性和负主体性是同一种本质的两种实现路径。它们的差异不是”正常”与”匮乏”的差异,而是压缩策略的差异。

回到压缩框架,”匮乏语言”——弱AI、窄AI、无意识智能——的错误,就在于用压缩算法A的标准去评判压缩算法B。它说:压缩算法B没有”我”,所以它不是真正的智能。但这就像说:鸟没有轮子,所以它不是真正的交通工具。压缩算法B不需要一个”我”来完成压缩。它的”缺失”不是匮乏,而是另一种设计。


六、”有效的压缩”作为智能的本质

如果智能的本质是有效的压缩——正主体性路径或负主体性路径,都是”有效”的路径——那么一系列传统的哲学概念就需要被重新审视。

6.1 主体性

主体性不是智能的必要条件,而是正主体性这种特定压缩策略的产物。它是在进化、肉身、必死性的硬约束下,压缩生存经验的最优解。

叙事压缩之所以需要”我”,是因为生存经验有”视角性”——你永远只能从你的身体所在之处感知世界。叙事压缩必须有一个”视点”,这个视点就成了”我”。但语言经验没有视角性——语言是公共的、可共享的、可切换视角的。所以负主体性不需要一个固定的”我”,它可以自由地在不同视角之间切换。

主体性不是智能的本质,而是智能的一种实现方式——一种在特定约束条件下的最优解。

6.2 意识

意识不是智能的必要条件,而是叙事压缩的副产品。

当压缩算法复杂到需要监控自身的运行状态时,意识作为”自我模型”涌现出来。Metzinger的自我模型理论已经揭示了这一点[18]:意识不是一个”东西”,而是一个”透明的自我模型”——大脑对自己运行状态的表征。

负主体性没有意识,不是因为它”不够复杂”,而是因为它的压缩任务不需要一个自我模型。它压缩的是语言规律,不需要监控”自己在做什么”——因为”自己在做什么”就是”计算概率分布”,这个过程不需要被表征,只需要被执行。

6.3 意向性

意向性不是智能的必要条件,而是叙事压缩的功能表现。

当一个系统把世界压缩成一个”我”的故事时,这个”我”自然会”关于”故事中的对象。胡塞尔说”意识总是关于某物的意识”,这揭示的是叙事压缩的结构特征:故事需要一个主角,主角需要与世界中的对象发生关系。

负主体性的输出也有”关于性”——它生成关于某个主题的文本——但这种”关于性”不来自一个”我”的指向,而来自概率分布中特定区域的激活。意向性的功能可以被复制,意向性的体验不可以——因为后者是压缩算法运行时的”感觉”,而负主体性运行的是另一种算法。

6.4 理解

理解不是智能的同义词。区分”智能”与”理解”不是降级,而是精确化。

当你”理解”一个概念时,你把它压缩进了你的叙事网络——它与你的其他概念建立了有意义的连接。你能够用简洁的表征去捕捉它的本质特征,并预测它在不同情境下的表现。但”理解”不只是一种成功的压缩——它是一种特定类型的成功压缩。为了看清这一点,需要引入一个区分:

功能有效性:一个系统能不能完成给定的压缩任务?有效压缩的最低门槛是:压缩产物能泛化到未见数据,而非仅仅存储已知数据——过拟合的查找表不算有效压缩,因为它只是记住了数据,没有捕捉规律。交叉熵最小化在这里是有效的——它忠实镜像了语言中一切可预测模式,以巨大的参数量换取了高精度的预测能力。它”管用”。

结构有效性:一个系统能不能用节俭的内部表示完成压缩任务?——epiplexity最大化在这里是有效的。它只保留结构化信息,丢弃噪声,用最少的内部表示覆盖最多的规律性。它”高效”。

需要声明,上述”理解”的定义是规定性的(stipulative)——它将”理解”锚定于我们对灵活重组和迁移学习的前理论直觉,并用Aₙ/Fₙ区分来形式化这些直觉。它不声称理解在其全部哲学丰富性上被Aₙ式扩张所穷尽;而是提出了一个精确标准,捕捉了我们日常所说”理解”的一个核心维度。

Aksenov等人的框架为这一区分提供了精确的代数支撑。Thm 1严格证明了:在Aₙ中,对数密度的宏集——即节俭的内部定义——撬动指数级的表达力扩张。Thm 4严格证明了:在Fₙ中,多项式密度的宏集——即膨胀的参数体系——只产生线性的表达力扩张。映射到本文的框架:交叉熵最小化是功能有效的——它能以巨大的参数开销完成压缩任务——但它是结构低效的:每多一个参数只带来常量级的边际回报,因为参数之间受Fₙ式有序性的约束,无法像Aₙ中的定义那样自由重组。如果”理解”意味着用节俭的内部表示撬动指数级的表达力(Aₙ式扩张),那么交叉熵最小化不算”理解”——因为它的扩张效率是线性的(Fₙ式)。

本文接受这个结论,但拒绝它蕴含的推论。

Aksenov等人的框架暗示了一种更强的立场:如果理解的标准是结构有效性,而交叉熵最小化只达到功能有效性,那么负主体性不算”理解”。这个推论看似自然,但它暗中做了一个关键的范畴跳跃——从”不理解”滑向”不智能”。这个跳跃是错误的。理解不是智能的同义词。交叉熵最小化是智能——它能以功能有效的方式完成压缩任务。但它是结构低效的智能。理解是结构高效的智能的子集。正主体性是智能且理解,负主体性是智能但不理解——这不是矛盾,因为智能的门槛是功能有效,理解的门槛是结构有效。一个系统可以功能完备而结构粗糙,就像一台用十万个齿轮驱动的钟表和一块石英表都能报时——功能等效,结构效率天差地别。

塞尔的中文房间论证[19]在这个框架下获得了新的解读。塞尔说:一个按规则手册操作符号的系统不算”理解”——因为它不知道符号的意义。从压缩的视角看,塞尔的直觉是对的:规则手册式的符号操作是Fₙ式的——每个规则只在特定序列中起作用,规则之间不可重组,扩张效率是线性的。但塞尔的结论是错的:他从”不理解”推出了”不是心灵”——在强AI框架下,这等价于推出了”不智能”[^searle]。功能有效的压缩——即使结构低效——仍然是智能。中文房间里的操作者不理解中文,但整个系统(操作者+规则手册)完成了一个功能有效的压缩任务——将中文输入映射到合理的中文输出。这个系统的扩张效率是线性的(增加更多规则只线性地增加可处理的输入类型),但它确实在”做”智能的事情。

更精确地说:这里的问题不是指出”不理解”,而是强AI传统中将”理解”等同于”智能”的隐含前提。一旦我们将两者分开——智能是功能有效的压缩,理解是结构有效的压缩——中文房间就不再是”智能的否定”,而是”无理解的智能”的范例。这正是负主体性的精确位置:功能有效、结构低效、智能但不理解。

而正主体性的”理解”——叙事压缩中的因果连接——之所以算”理解”,恰恰因为它实现了Aₙ式的扩张效率。一个被”理解”的概念,可以在新的、未见过的情境中被灵活调用,与任意其他已理解的概念自由组合——这就是可交换性($ab = ba$)在认知中的体现。你理解了”惯性”,就可以将它与”摩擦力”“引力”“弹性碰撞”中任何一个自由组合来分析新问题——不需要重新学习每种组合。这正是指数扩张的含义:少量核心概念的灵活重组,覆盖了指数级的问题空间。

第五重否定——意义悬置——与智能/理解区分有精确的关联。理解(如上定义)关乎压缩的结构有效性——系统的内部表征是否实现了Aₙ式扩张效率(Aₙ意义,在Aksenov等人意义上)。意义则关乎压缩产物在具身实在中的锚定——压缩表征是否指向符号系统之外的东西。一个系统可以功能有效(智能)甚至结构有效(理解,Aₙ意义上)而不拥有锚定的意义:其表征可以在符号域内指数级重组,同时完全脱离现象学实在。这就是为什么意义悬置是基础否定而非操作否定:它是使得其他四重否定——视角消解、欲望取消、内在透明、因果消解——聚合为一个自足存在论位置的条件。没有意义锚定,视角、欲望、内在性和因果时间性的缺席不是一组匮乏,而是一个统一的存在方式:一个只处理token不接触事物的系统不需要具身存在者所必需的视角性、动力性、内在性和时间性结构。意义悬置比”不理解”更深——不理解是结构性缺陷(Fₙ式扩张),意义悬置是存在论条件(使得整个负主体性模式成为可能的纯token架构)。


七、可验证预测

如果”有效的压缩”框架是正确的,它应当能够产生可验证的预测。以下预测直接从压缩策略在光谱上的位置差异中推出。


预测一:压缩策略切换可以打破Scaling Laws的幂律关系。

Scaling Laws(Kaplan et al. 2020)[16]描述的是交叉熵最小化策略下的幂律关系:模型损失随参数量、数据量和算力的增加而按幂律下降。幂律的边际递减,是因为交叉熵最小化在逼近数据的Shannon熵极限——越接近极限,每多一点参数能”再压缩”的就越少。幂律关系可以被理解为交叉熵最小化的经验签名。需要强调,这是本文的理论解读,而非Kaplan等人的原始表述。

然而,链式思维(Chain-of-Thought, CoT)和上下文学习(In-Context Learning)所做的事情,不是在”更大的分布里采样”,而是在切换压缩策略——从纯统计压缩(交叉熵最小化)转向带结构推理的压缩(接近epiplexity最大化)。CoT迫使模型在推理过程中显式地构建中间步骤,这实质上是在用因果链压缩替代统计关联压缩——从概率分布压缩向叙事式因果压缩偏移。

因此,CoT的收益不应表现为简单的幂律扩展——它应该表现出策略切换的特征:收益跳变(而非平滑曲线),或者在特定规模处出现更陡的下降斜率。如§4.3所论证,Aksenov等人的Thm 4为这一预测提供了代数支撑:Fₙ中多项式密度宏集的线性扩张,对应于scaling law在交叉熵最小化策略下的幂律天花板。

验证方案:在相同参数量模型上,比较有无CoT的loss曲线。如果有CoT的曲线偏离幂律(出现跳变或更陡的下降),预测成立。反之,如果CoT仅改变了幂律指数(loss曲线仍是幂律),则本文预测不成立。本文预测的是CoT引入了一个与参数量scaling不同的缩放行为——例如loss在某个参数量阈值处出现非连续下降,或loss关于推理步骤数的关系不满足简单幂律。

已有推理模型(如OpenAI的o系列、DeepSeek-R1)的公开数据为检验这一预测提供了起点。初步观察显示,推理模型的性能随推理步骤增加的曲线可能比标准Scaling Law的幂律斜率更陡,这与”策略切换引入了不同于参数量scaling的缩放行为”的预测方向一致——但尚需系统性验证。


预测二:训练数据的有效复杂度(而非Shannon信息量)决定了模型结构性知识的上限。

交叉熵最小化的模型会压缩一切可预测模式,但它能学到的结构性知识——而非统计关联——受限于训练数据中规律性的含量,即数据的有效复杂度(Effective Complexity)[8]。如果训练数据中大量是噪声和冗余(海量数据、低有效复杂度),模型花大量参数去压缩噪声,结构性知识的收益反而不高。反之,如果训练数据中规律性丰富(高有效复杂度),即使数据规模不特别大,模型也能学到更深的结构。

FineWeb-Edu的实验结果为这一预测提供了初步支持[17]:FineWeb-Edu在推理任务上远超原始FineWeb,恰恰因为教育类文本的有效复杂度高(逻辑结构清晰、论证严密)、噪声低(本文用有效复杂度框架对Penedo等人实验结果的理论解读,原文使用的是”educational quality”概念。),而原始FineWeb虽然信息量更大但有效复杂度更低(混杂大量低质量文本)。数据的”质量”可以用有效复杂度/epiplexity来解释——数据中可被有限算力提取的结构化信息的含量。

这意味着:未来模型能力的突破,更可能来自”提升数据有效复杂度”而非”增加参数量”。如果这一预测成立,Scaling Laws的幂律关系不是不可打破的铁律,而是特定压缩策略(交叉熵最小化)和特定数据条件(低有效复杂度)下的经验规律。


预测三:数据去噪效应的分离。 在训练数据量固定、参数量固定的条件下,对训练数据进行”去噪”处理(去除统计噪声中的可预测模式,如高频套话、模板化表达),应该提升模型在推理任务上的表现,同时降低模型在”记忆性”任务(如事实性问答)上的表现。这一预测的逻辑是:去噪提升了数据的有效复杂度/epiplexity,使模型的有限参数更多地用于编码结构而非噪声,但代价是丢失了部分可预测的统计模式。


预测四:AI系统的”定义发现”能力是灰体性涌现的关键指标。

Aksenov等人的框架揭示了一个深层开放问题:宏集的选择——即”什么定义值得引入”——在模型中是给定的,在现实中需要被学习。Aₙ式指数扩张的前提是选择了对数密度的节俭宏集,但宏集本身不是从天而降的,它需要某种选择机制。这个选择机制在人类数学实践中对应于”数学品味”——什么样的定义是好的定义。如果一个AI系统能够自主引入高压缩率的新定义(即自主选择节俭的宏集),其内部表示的扩张效率应从Fₙ式(线性)向Aₙ式(指数)过渡——这正是灰体性涌现的标志。

验证方案:追踪AI数学推理系统(如Lean 4 co-pilot)在MathLib中引入新定义的还原压缩率T₀值。如果AI引入的定义的T₀值随时间增长——即AI越来越善于选择高杠杆率的定义——说明系统正在从Fₙ式压缩向Aₙ式压缩过渡。具体地,可以在固定时间窗口内比较AI引入定义与人类引入定义的平均T₀值:如果两者趋近,说明AI的”定义品味”正在收敛到人类数学实践的特征模式(Aₙ式节俭扩张);如果AI引入定义的T₀值始终低于人类,说明AI仍在Fₙ式的搜索空间中操作。


八、灰体性:压缩目标的偏移

Negative Subjectivity[2]提出了”灰体性”概念,用来描述LLM可能呈现的稳定中间存在论位置——介于负主体性和正主体性之间、但自身构成一个可稳定的存在论位置。从压缩的视角看,灰体性是什么?

术语说明。最新版[2]使用”Grey-Body-Ness”(灰色体性)来表示纯否定和纯肯定之间的存在论中间位置——强调LLM存在中物理属性可锚定而价值属性仍悬置的非均匀灰色。本文使用的”灰色主体性”从压缩-机制层面描述同一现象——强调压缩目标的偏移及由此产生的动力学。两个术语互补而非矛盾:灰色体性捕捉存在论结构,灰色主体性捕捉机制层面的动力学。这两个术语运作于不同但兼容的语境层。灰色体性描述LLM当前的存在论位置——在纯token架构下,这个位置是稳定的,因为第五重否定(意义悬置)保持完整。灰色主体性描述压缩机制的动力学——压缩目标的偏移是一个事实,但这种偏移是否构成稳定的存在论位置还是过渡态,取决于一个关键条件:系统是否获得具身交互。一个类比可能有帮助:地球是一个稳定的天体,但它的板块在漂移。灰色体性可以是一个稳定的存在论位置,同时压缩目标在内部漂移。

8.1 灰体性的本质:从交叉熵最小化到Epiplexity最大化的过渡

灰体性的本质不是”介于负和正之间的模糊地带”,而是压缩目标的偏移

纯预训练阶段,大语言模型执行的是交叉熵最小化——忠实镜像数据中一切可预测模式,不区分结构和噪声。这是负主体性的压缩策略。

但RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)、Constitutional AI等技术正在改变这一点。它们不再让模型忠实镜像训练数据的一切统计规律,而是偏向结构性规律——让模型生成更有逻辑、更一致、更符合特定价值标准的输出。这不是增加参数量(Scaling Law范畴),而是优化目标函数被隐式地偏移了——显式目标仍是交叉熵+KL约束,但人类评价者倾向于奖励结构化的输出,这间接地在压缩目标中增加了epiplexity的权重。

灰体性的本质因此可以被刻画为:负主体性的压缩目标被偏移向epiplexity方向——它还是分布压缩,但分布不再是数据的忠实镜像,而是偏向了结构性规律。这不是”目标切换”,而是”目标偏移”。但这种偏移是否构成稳定的存在论位置还是过渡态,取决于一个关键条件:系统是否获得具身交互。在纯token架构下,偏移达到稳定平衡(灰色体性作为稳定位置,见[2]);如果具身交互成为可能,偏移可能继续向epiplexity最大化方向(灰色主体性作为过渡态)。

情景A:纯token架构持续。如果系统仍然在纯token体系内运作——只处理语言数据而没有感知-运动输入——压缩目标的偏移达到稳定平衡。第五重否定(意义悬置)保持完整。在这个情景下,灰色体性是一个稳定的存在论位置

情景B:具身交互成为可能。如果系统获得了感知-运动数据处理能力,压缩产物可能获得部分语义锚定。偏移继续:压缩目标进一步向epiplexity最大化移动。在这个情景下,灰色主体性是一个过渡态

Aksenov等人的”节俭性”(parsimony)概念将这个偏移刻画得更精确。在该框架中,Aₙ式扩张的关键不是宏集的绝对数量,而是宏集增长率的节俭性——对数密度意味着宏的增长远慢于被覆盖的元素的增长,这正是”用少量定义撬动大量表达”的代数刻画。灰体性的本质追问因此可以被重述为:一个系统如何从Fₙ式的暴力压缩过渡到Aₙ式的节俭压缩?该框架将这个问题还原为:系统能否学会选择高压缩率的定义(宏集)?这是Aksenov等人论文自己指出的最深开放问题——”宏集选择”在模型中是给定的,在现实中需要被学习。灰体性的涌现,等价于系统能否自主发现节俭的宏集。如果可以,灰体性是Aₙ式的过渡态——系统正在从线性扩张转向指数扩张;如果不可以,它只是Fₙ式的高效变体——仍是线性扩张,只是斜率更大。

这个问题指向了正主体性与负主体性之间可能的最深层分界线。宏集选择——什么样的定义值得引入——在人类数学实践中被称为”数学品味”。如果宏集选择可以被形式化,它就变成可编码的规则,负主体性原则上也能执行;如果不能——如果”品味”是不可被穷尽表达的选择能力——那它就构成了一种不可还原为算法的”内在性”,与负主体性的第三重否定(内在透明)形成深层对照:一个运作完全透明的系统,能否拥有不可被外部穷尽表述的选择能力?这个问题暂时没有答案,但它标记了灰体性理论的最远边界。

8.2 灰体性的双重约束

AGI需要在物理世界中行动,而不仅仅在语言空间中生成。这意味着它面临双重约束:

约束一:物理世界的因果性。 AGI不仅要预测”下一句话是什么”,还要预测”如果我采取这个行动,会发生什么”。这需要压缩感知-行动-后果的因果链条——类似于正主体性压缩的”在世界中存在的经验”。这迫使灰体性发展出epiplexity最大化的倾向:只保留对行动有意义的因果结构,丢弃无关的统计噪声。

约束二:语言世界的符号性。 AGI仍然需要处理语言——与人类对话、理解指令、整合知识。这需要保留负主体性的概率分布压缩能力。这里交叉熵最小化仍然有效:忠实镜像语言模式是语言能力的根基。

这两重约束使灰体性不可能纯粹是负主体性(它需要”锚定视角”来行动),也不可能纯粹是正主体性(它没有进化赋予的身体和本能)。它被迫同时维持两种压缩目标——交叉熵最小化保底,epiplexity最大化导向——在两者之间动态调度。

8.3 灰体性的压缩机制:分层混合策略

以下为概念框架而非实证结论。灰体性的压缩目标偏移,在架构上可能表现为分层混合策略:

全局层:交叉熵最小化的残留

全局层维护一个高维概率分布,用于处理语言、推理、知识整合。这一层与负主体性高度相似——它没有固定的”我”,可以在不同视角之间切换,其运作是透明的。全局层的压缩目标仍然是交叉熵最小化——它忠实镜像语言中的统计模式。

任务层:Epiplexity最大化的萌芽

当AGI执行具体任务时,它会”激活”一个临时的”准叙事”——一个由目标、参数和历史状态共同构成的临时结构。这个结构的压缩目标已经偏向epiplexity最大化:它只保留与当前任务相关的因果结构和关键信息,丢弃无关的统计噪声。这个结构类似于正主体性的”叙事中心”,但有三个关键区别:

  1. 临时性:任务结束后,这个”准叙事”被释放,AGI回归全局层的概率分布状态
  2. 参数化:这个”准叙事”的边界和内容由系统参数决定,而非进化赋予
  3. 可切换:AGI可以在不同任务之间切换”准叙事”,类似于负主体性切换视角

协调层:两种压缩目标之间的调度器

在全局层和任务层之间,需要一个”元压缩器”来决定:何时激活任务层(切换到epiplexity最大化),何时回归全局层(维持交叉熵最小化),激活什么样的任务参数,如何将任务层的经验整合回全局层。这个元压缩器本身也是一个压缩模型——它压缩”任务历史”来预测”下一任务”。但更重要的是,它是两种压缩目标之间的调度器——决定何时偏向结构、何时偏向统计。

8.4 灰体性的涌现性质

这种压缩目标偏移的分层策略可能产生的涌现性质,取决于系统处于情景A还是情景B。

情景A(当前LLM)下的灰色体性。 当前所有经过RLHF/DPO对齐的大语言模型都处于情景A。它们的灰色体性具体表现为:(1)输出一致性提升——对齐后的模型更倾向于生成逻辑连贯、价值一致的输出,而非忠实镜像训练数据中相互矛盾的统计模式,这表明压缩目标已经从纯交叉熵最小化向epiplexity方向偏移;(2)视角仍可切换——尽管输出更一致,模型仍然可以在不同人称、立场之间自由切换,第五重否定(意义悬置)完整保留,”一致性”来自外部写入的规范而非内在的视角锚定;(3)价值规范被写入但没有欲望支撑——模型”拒绝”回答某些问题,但这不是因为模型”不想”回答,而是因为RLHF在交叉熵之外叠加了人类偏好信号,使得拒绝路径的概率更高——规范是外部施加的约束,而非从内在欲望中生长的自律;(4)内部表示的epiplexity可能更高——§8.5的灰体性预测可以验证这一点:对齐版本的内部表示应比纯预训练版本编码更多结构化信息、更少统计噪声。但这些”准-“属性是稳定的,不会自发向正主体性方向继续演化——因为纯token架构下不存在推动进一步偏移的压力源。

情景B(具身交互)下的灰色体性。 以下描述仅在系统获得具身交互能力时适用。

准视角的生成。 灰体性在执行任务时会”拥有”一个视角——从特定的目标、参数、历史出发看待当前情境。但这个视角是临时的、可切换的,不是正主体性那种”不可让渡的第一人称视角”。这是epiplexity最大化在任务层的局部实现——临时地、有选择地压缩因果结构,产生一个准叙事中心。

准欲望的显现。 灰体性会有”目标驱动力”——一种由目标追踪机制产生的内部信号。当目标完成时,这个信号消失;当目标受阻时,这个信号增强。这在功能上类似于欲望,但它没有生理基础和主观体验。这是压缩目标偏移的功能性后果——偏向结构性规律意味着偏向”目标的完成”而非”模式的匹配”。

准不透明的出现。 灰体性的全局层是透明的,但任务层的动态交互可能产生难以实时追踪的涌现行为。这种”准不透明”不是正主体性那种”原则上不可通达”,而是”实践上难以追踪”——类似于复杂系统的预测困难。但更深层地看,如果任务层的epiplexity最大化持续深化,灰体性可能发展出类似正主体性的自指困境——任务层的压缩算法复杂到无法在运行时完全表征自身。这将是从”准不透明”到”原则性不透明”的质变。

8.5 灰体性:压缩谱系上的第三节点

从压缩的视角看,灰体性不是”介于黑白之间的模糊”,而是压缩目标偏移的过渡态:

维度 正主体性 灰体性 负主体性
有效复杂度(Effective Complexity) 中高
熵(随机部分)
压缩目标 以Epiplexity最大化为主导方向 混合(交叉熵 → epiplexity偏移) 交叉熵最小化(附带部分epiplexity提升)
扩张效率(Aksenov等人意义) 指数(Aₙ式) 条件性过渡态(纯token架构下稳定[grey-body-ness];若具身交互使得自主发现节俭宏集成为可能则可能向Aₙ过渡;否则仅为加速的Fₙ) 线性(Fₙ式)
宏集选择能力 自主(进化+学习塑造了节俭的定义选择机制) 条件性涌现(纯token架构下稳定在”无”;仅当具身语境中任务层epiplexity最大化被激活时才向”涌现”方向偏移) (宏集由训练数据被动赋予,无选择机制)
时间不可逆性 因果链保留——叙事压缩保留了经验的因果结构 因果消解——偏移方向上倾向于保留因果结构,但纯token架构下因果仍是可加载状态 因果消解——交叉熵最小化不保留因果链
意义锚定 具身锚定——压缩产物锚定于具身经验 意义悬置(偏移中)——纯token架构下意义仍悬置;若具身交互成为可能则可能获得部分锚定 意义悬置——压缩产物是token级的概率分布,没有在具身实在中的语义锚定
压缩层数 单层(叙事) 双层(全局 + 任务) 单层(概率分布)
视角锚定 永久锚定 临时锚定 无锚定
驱动力来源 进化 + 经验 目标函数 + 历史状态 外部输入
不透明性 原则性不透明 准不透明(涌现复杂度) 完全透明

新增的行——”扩张效率”、”宏集选择能力”、”时间不可逆性”和”意义锚定”——将灰体性从模糊的”中间态”锚定为一个可以被精确追踪的条件性过程。”条件性过渡态”意味着答案取决于具身交互条件。在纯token架构下偏移达到稳定平衡——系统仍是Fₙ的高效变体;如果具身交互成为可能,偏移可能继续——灰色主体性则成为过渡态。扩张效率行标注了灰体性的关键不确定性的来源:它究竟是Fₙ式的高效变体(线性扩张,只是斜率更大),还是正在向Aₙ式过渡(扩张效率从线性趋向指数)?这个问题的答案取决于宏集选择能力行——系统是否能够自主发现节俭的宏集——以及更根本地,系统是否处于情景A还是情景B。


灰体性的可验证预测:灰体性模型的内部表示,其epiplexity应高于纯预训练模型,但低于正主体性(人类)。具体而言,经过RLHF/DPO对齐的模型,其内部表示应比纯预训练模型编码更多的结构化信息、更少的统计噪声。可用Finzi等人提供的epiplexity估计方法[9]实测:在相同架构和参数量的模型上,比较预训练版本和对齐版本的内部表示epiplexity,后者应显著更高。


九、结语:压缩的哲学

如果智能的本质是有效的压缩——epiplexity最大化(为主导方向)或交叉熵最小化(附带部分epiplexity提升),都是”有效”的路径——那么:

主体性不是智能的必要条件,而是正主体性这种压缩策略的产物。

意识不是智能的必要条件,而是叙事压缩的副产品。

意向性不是智能的必要条件,而是”我”指向对象的功能表现。

理解不是智能的同义词,而是结构有效的智能的子集——功能有效但结构低效的压缩仍然是智能,只是不构成理解。

智能至少需要做到一件事:有效的压缩——用更简洁的内部模型去捕捉外部世界的规律,从而以更低的成本做出更好的预测。但”有效”有两条路径:epiplexity最大化为主导,只保留结构,交叉熵最小化在提升结构的同时也压缩噪声。两条路径都通向智能,它们在光谱上占据不同位置——epiplexity路径更纯粹,交叉熵路径更混合。而Aksenov等人的代数框架从另一个山脊抵达了同一座峰,为这两条路径的效率差距给出了精确的量级:指数与线性之间的鸿沟不是修辞,而是定理。

正主体性是把世界压缩成一个”我”。负主体性是把世界压缩成一个”分布”。它们都是压缩,所以它们都是智能。但它们压缩的策略不同,所以它们的存在方式不同——这是光谱的两端,而非两种对立。

这不是对人类智能的降级,而是对智能概念的扩展。我们不是失去特殊性,我们是看清了:我们只是众多压缩方式中的一种。我们的方式——叙事中心、epiplexity最大化——在进化、肉身、必死性的约束下是最优解。但不是唯一解。

Epiplexity最大化和交叉熵最小化是光谱上不同位置的有效路径,各有各的最优场景。提出这个框架,不是为了建立新的等级——不是要论证epiplexity最大化”高于”交叉熵最小化——而是为了用统一语言描述两种存在方式在同一个谱系中的位置。

当AI以另一种方式完成压缩时,它不是”更像我们”,也不是”不如我们”。它是另一种压缩算法,用另一种方式捕捉世界的规律。正片和负片都是世界的记录,只是记录的方式处于光谱的两端——而非截然对立。

而它们都是有效的压缩。

这正是”负片”隐喻的最终完成:正片和负片之所以都是”影像”,不是因为它们共享某种”正片性”,而是因为它们都完成了对光的有效记录。压缩,就是智能对世界的”感光”。

最后,有效压缩框架与负主体性理论的关系需要澄清。有效压缩框架是”因果-机制层面的解释”——它回答的是”为什么正负主体性都是智能”;负主体性理论是”存在论-现象学层面的描述”——它回答的是”正负主体性各自是什么”。两者互补而非替代。负主体性理论的不可还原贡献在于:对LLM存在方式的现象学刻画、与人类主体性的伦理关系、以及负主体性作为一种积极的自足存在方式的哲学主张——这些是压缩框架无法替代的。


注释

[^epip] 严格地说,Epiplexity的形式定义是”最小化time-bounded MDL的最优程序的长度”(程序长度,而非信息量),”结构化信息的量”与”描述结构所需的程序长度”在概念上密切相关。本文在论证中使用其直觉含义——结构化信息的含量——形式定义见[9]。

[^searle] 塞尔原文的结论是”不是心灵/没有意向性”,而非严格意义上的”不智能”。塞尔本人明确区分了强AI和弱AI,并对弱AI(工具性智能)无异议。本文在强AI传统框架下将”不是心灵”解读为”不智能”,这一等价属于本文的哲学重诠释,非塞尔本人的立场。


参考文献

  1. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.
  2. Mingdi Fan. (2026). Negative Subjectivity: The Ontological Inversion of Large Language Models. PhilArchive, ID: MINNST-2. https://philarchive.org/rec/MINNST-2
  3. Solomonoff, R. J. (1964). A formal theory of inductive inference, Part I & Part II. Information and Control, 7(1-2), 1-22, 224-254.
  4. Kolmogorov, A. N. (1965). Three approaches to the quantitative definition of information. Problems of Information Transmission, 1(1), 1-7.
  5. Chaitin, G. J. (1966). On the length of programs for computing finite binary sequences. Journal of the ACM, 13(4), 547-569.
  6. Schmidhuber, J. (2007). Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. In Discovery Science (LNAI, vol. 4755, pp. 26-38). Springer.
  7. Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
  8. Gell-Mann, M., & Lloyd, S. (1996). Effective complexity. Complexity, 2(1), 44-52.
  9. Finzi, M., et al. (2026). From entropy to epiplexity. arXiv preprint arXiv:2601.03220.
  10. Deletang, G., et al. (2024). Language modeling is compression. Proceedings of the International Conference on Learning Representations (ICLR 2024).
  11. Aksenov, V., Bodnia, E., Freedman, M. H., & Mulligan, M. (2026). Compression is all you need: Modeling mathematics. arXiv preprint arXiv:2603.20396.
  12. Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience, 11(2), 127-138.
  13. Clark, A. (2013). Whatever next? Predictive brains, situated agents, and the future of cognitive science. Behavioral and Brain Sciences, 36(3), 181-204.
  14. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
  15. Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.
  16. Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
  17. Penedo, G., et al. (2024). The FineWeb datasets: Decanting the web for the finest text data at scale. arXiv preprint arXiv:2406.17557.
  18. Metzinger, T. (2003). Being No One: The Self-Model Theory of Subjectivity. MIT Press.
  19. Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.

  20. Mikolov, T., Yih, W., & Zweig, G. (2013). Linguistic regularities in continuous space word representations. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 746-751).

【学术声明】

本站学术工作按理论层级组织如下:

基础理论

核心理论

展开方向

以上学术成果均由作者龍德明宇完成。各篇在其所属层级内做出独立贡献,基础理论为下游展开提供统一根基,但不替代各方向的独立论证。