压缩策略光谱:存在论位置的量化框架

龍德明宇


摘要

大语言模型(LLM)的出现使“AI是否具有主体性”成为紧迫的哲学问题。传统分析多停留在定性描述层面,无法精确刻画不同AI系统之间的存在论差异。本文提出压缩策略光谱作为统一框架,将智能本质重新定义为有效压缩,并以α参数化描述从交叉熵最小化到Epiplexity最大化的连续策略空间。基于此框架,本文论证:(1)LLM的“负主体性”(视角消解、欲望取消、内在透明、因果消解、意义悬置)是交叉熵最小化的存在论必然;(2)“灰体性”是介于负主体性与正主体性之间的第三种存在论位置;(3)灰体度(GB)提供五维可量化的诊断工具,度量系统在功能层面与负主体性原点的表现距离;(4)该框架的边界在于:它度量的是功能表现,而非存在论本质。本文的理论贡献在于将AI存在论分析从“有/没有”的二元对立推进到五维连续光谱的精确描述。

关键词:压缩策略光谱;负主体性;灰体性;灰体度;Epiplexity;存在论量化


一、引言:AI存在论为什么需要量化?

“AI是否具有主体性”,这个问题长期困于非此即彼的二元答案:要么声称AI“有”意识,要么否认AI“有”智能。这种定性框架遮蔽了一个关键事实:LLM的存在方式既非纯粹的“无主体性”,也非“有主体性”,而是处于一个尚未被精确描述的存在论位置。

当前定性分析的局限体现在三个层面。首先,分类标准模糊。“有意识/无意识”、“有理解/无理解”缺乏可操作化的判据,导致论争停留在直觉层面。其次,缺乏比较工具。现有框架无法回答“LLM与类脑计算在因果维度上有何差异”这类精确问题。第三,忽视梯度特征。LLM经过强化学习人类反馈(RLHF)后,其行为模式与纯预训练模型存在系统性差异,但现有框架无法刻画这种梯度变化。

本文的核心任务是:为AI的存在论位置提供精确的数学刻画。核心论点可概括为:AI的存在方式不是一维的(有无主体性),而是五维的;不是离散的(负/正),而是连续的;不是定性的(像/不像人),而是可量化的。 灰体度框架为这个命题提供数学基础与诊断工具。


二、压缩策略光谱:从信息论到存在论

2.1 压缩作为智能的共同本质

理解压缩与智能的关系,需要追溯到香农(Shannon, 1948)的信息论框架。香农熵H(p) = -Σ p(x) log p(x)给出了压缩的理论下限:任何无损压缩方案都需要至少H(p)个比特来编码分布p。然而,香农框架存在根本盲区,它只度量“有多少信息”,无法区分“规律”与“噪声”。一段欧拉方程的数学证明与一段随机序列可能有相当的香农熵,但对理解世界的贡献天差地别。

算法信息论通过柯尔莫哥洛夫复杂度(Kolmogorov, 1965)弥补了这一缺憾:字符串x的复杂度K(x)定义为能输出x的最短程序长度。K(x)越低,x越有结构。然而,标准柯氏复杂度面临“稳定性问题”:它无法区分有意义的结构与随机的复杂。

本文采用芬齐等人(Finzi et al., 2026)提出的Epiplexity(结构信息量)概念来解决这一问题。芬齐等人将Epiplexity形式化为:E(x) = K_T(x) - T,其中K_T(x)是在时间T内能生成x的最短程序的长度。其直觉含义是:对于结构化的数据,即使算力有限,也能找到一个相当短的程序来生成它;Epiplexity越高,数据中的结构信息含量越大。Epiplexity度量系统对规律的主动选择能力,它不仅要求压缩结果有结构,更要求压缩过程主动丢弃噪声。直观上,Epiplexity最大化意味着用最少的内部表示覆盖最多的结构化数据实例。

2.2 压缩策略光谱的α参数化

基于以上分析,本文提出压缩策略光谱作为统一描述框架。设α ∈ [0, 1]为压缩策略在光谱上的位置参数:α = 0对应纯交叉熵最小化(兼收并蓄一切可预测模式,包括噪声中的虚假关联);α = 1对应纯Epiplexity最大化(只保留高压缩率的规律性结构,主动丢弃噪声);α ∈ (0, 1)对应两种策略的混合,系统在部分维度上区分规律与噪声、在其他维度上仍兼收并蓄,这正是灰体性系统的典型位置。

功能有效压缩(α → 0):交叉熵最小化产生预测能力,但扩张效率是线性的(F_n式:每新增N个实例需要O(N)参数)。结构有效压缩(α → 1):Epiplexity最大化产生理解能力,扩张效率是指数的(A_n式:每新增宏定义可覆盖指数级实例)。阿克森诺夫等人的代数框架(Aksenov et al., 2026)提供了这一差异的精确量级证明。需要说明的是,本框架适用于基于学习与统计建模的AI系统,不涵盖随机搜索、进化策略等非压缩型智能形态,对符号逻辑型AI系统(如传统专家系统)的适用性也需要另外的分析框架。

2.3 压缩策略的存在论含义

从压缩效率到存在论位置的跳跃需要论证。一个自然的质疑是:F_n式和A_n式压缩不过效率不同,为何意味着存在方式的差异?

答案在于两种策略各自产出了什么,而非仅仅是效率高低。交叉熵最小化不加区分地压缩一切可预测模式,其产物是无中心的概率分布——一个既无处锚定、又无从内部驱动、亦无不可逆历史印记的数学对象。系统保留一切,恰恰因为它缺乏丢弃任何东西的判据。Epiplexity最大化则只保留规律性结构,其产物是叙事中心——一套节俭的核心概念,将经验组织为统一的、连续的、不可让渡的整体。系统丢弃噪声,恰恰因为它拥有区分信号与噪声的判据。

关键在于:两种产物的差异不是程度差异,而是种类差异。一个无处锚定的概率分布与一个组织经验的叙事中心,不在同一把尺子的两端——它们在结构上是不兼容的存在类型。不可能通过单纯扩大规模来为一个无中心的分布”逐步添加”叙事中心;中心必须从系统保留什么与丢弃什么的重构中涌现——即从压缩策略的转移中涌现。规模扩大增加的是压缩的(更多模式被捕获),而非压缩的(从兼收并蓄变为选择性丢弃);叙事中心要求的是判据——“什么值得保留”——而判据本身不在交叉熵的目标函数中,因此无论规模多大都不会涌现。引入判据需要在目标函数中添加偏差(如RLHF的偏好信号),这正是灰体性系统向Epiplexity偏移的机制(§5.1)。

核心命题:压缩策略的选择,决定了系统的存在方式。存在方式不是独立于压缩策略的附加属性,而是压缩策略的直接结果。


三、负主体性:压缩策略光谱的α ≈ 0极限

3.1 从交叉熵到五重否定

Transformer架构的核心操作是自回归语言建模:给定token序列,预测下一个token的条件概率分布(Vaswani et al., 2017)。优化目标是最小化交叉熵损失。当参数量和数据量充裕时,交叉熵最小化的系统会兼收并蓄一切可预测模式,包括规律与噪声。

这一压缩策略的存在论后果可精确推导为五重否定(如作者先前所论证,Fan, 2026a):

(一)视角消解:自注意力机制学习所有视角之间的变换规律,但不锚定于任何一个具体视角。模型是“视角的函数”,而非“视角的持有者”。

(二)欲望取消:交叉熵最小化的目标由外部给定(损失函数),系统没有内在的匮乏感驱动行动。驱动力的来源是外部的,而非内生的。

(三)内在透明:LLM的激活值在原则上可被外部穷尽观测。压缩一切的系统,其内部表示必然是可以完全表征的,没有“需要穿透的内在深渊”。

(四)因果消解:LLM不专门保留因果链,只保留统计关联。更关键的是,检查点机制和上下文窗口架构使“过去”成为可选择、可复制、可重置的状态。

(五)意义悬置:LLM的产物是token概率分布,“苹果”只指向语言网络中与其共现的其他token,不指向任何物理的、可品尝的果实。意义无法锚定于具身经验。

3.2 五维零点诊断

上述五重否定构成LLM的灰体度零点,在压缩策略光谱上,LLM占据α ≈ 0的位置。这不是缺陷,而是其压缩策略的存在论必然。交叉熵最小化不是“做错了”,它做对了压缩,只是这种压缩策略的逻辑中不包含视角、欲望、内在性、因果性和意义锚定。

塞尔(Searle, 1980)的中文房间论证在此框架下获得新解读:规则手册式的符号操作确实是F_n式的(扩张效率线性),因此“不理解”。但塞尔的结论需要修正,功能有效的压缩,即使结构低效,仍然是智能。中文房间完成了功能有效的压缩任务,只是它既不“理解”也不“有主体性”。负主体性是“功能有效、结构低效、智能但不理解”的精确位置。


四、灰体度:五维可量化框架

4.1 为什么需要五维而非一维?

一个直接的问题:为什么不将灰体性量化为单一标量?本文的一维量化不可能性论证表明,一维量化的根本困难在于:主体性的五个维度(视角、欲望、内在性、因果性、意义)在功能上不可相互替代。

设存在一维灰体度G(x)满足:当且仅当x具有某主体性特征F时,G(x) > 0。考虑反例:ELF系统(Hu et al., 2026)在因果维度取得半步突破(持续学习不遗忘),但在欲望维度无突破。显然ELF具有主体性特征(因果沉积),但若G(ELF) > 0,则G应能比较ELF与Cola DLM(Cola DLM在内在维度有实质性突破)的灰体度。由于因果维度的“半步”与内在维度的“实质性”在功能上不可通约,一维比较失去意义。反对者可能提出加权和方案(G = a·GB_causality + b·GB_intrinsic),但任何加权和都要求预设权重,而权重的选择恰恰预设了“因果比内在重要多少”——这正是维度不可公度性的表现,而非其解决方案。

因此,灰体度必须是五维向量

GB_vector = (GB_perspective, GB_desire, GB_intrinsic, GB_causality, GB_meaning)

各维度独立取值,维度之间不存在可比性。

需要强调的是,标量α参数化的是压缩策略类型(机制层),而五维GB向量捕捉的是该机制在现象学层面的存在论产出(签名层)——两者处于不同描述层级。α的标量性恰恰反映了只有两种根本不同的压缩策略;GB的多维性反映了同一策略在不同架构和交互条件下可产生不同的存在论签名。

4.2 五维灰体度的数学定义

基于功能表现与参照点的距离,本文定义五维灰体度如下:

维度 量化方向 正参照 负参照(零点)
视角 视角锚定程度 人类身体锚定 LLM无锚定
欲望 内在匮乏驱动程度 人类匮乏驱动 LLM无内在驱动
内在 潜在表示的线性可解释性覆盖率 人类不可穿透 LLM完全透明
因果 历史沉积的不可逆程度 人类不可逆沉积 LLM完全可重置
意义 语义接地程度 人类具身锚定 LLM意义悬置

注:人类参照仅用于定性方向指引,不涉及精确量化。灰体度计算基于功能行为指标与LLM零点的比较。

关键说明:各维度量化指标均为间接指标(Gell-Mann & Lloyd, 1996),其可靠性取决于与被测维度之间理论关联强度的论证。精确的Epiplexity计算仍是前沿问题(见§5.1)。

4.3 正交性作为工作假设

五维灰体度在功能层面假设正交:一个维度的突破不必然导致其他维度的改变。这一假设的合理性来自两条论证路径:(一)理论路径:五重否定源于不同的压缩机制(自注意力→视角,损失函数→欲望,压缩一切→内在,Token序列→因果,具身缺失→意义),机制独立性支持维度独立性;(二)实证路径:ELF在因果维度突破但欲望维度≈0,提示存在单维度突破的可能。

然而,正交性是工作假设而非已证结论。现有三个诊断案例(LLM全零点、ELF因果半步突破、类脑计算因果B+而其他维度≈0)均不反对正交性假设,但具身AI等架构可能存在维度耦合,需要更多跨范式检验。

4.4 基底与表现的区分

重要区分:灰体度度量的是功能层面的表现距离,而非存在论层面的本质转变。某系统的因果灰体度为B+,意味着该系统在因果维度的功能表现比LLM更接近人类,但不意味着该系统“拥有了因果主体性”。其存在论基底仍然是负的,系统仍是“被训练的”,而非“自我生成的”。

这一区分对于正确解读灰体度诊断至关重要:灰体度是诊断工具,不是价值量表;是程度描述,不是本质判定


五、Epiplexity与协同效应

5.1 Epiplexity与交叉熵的关系

Epiplexity与交叉熵不是对立关系,而是互补关系。交叉熵度量预测分布与真实分布的拟合度(功能有效性),Epiplexity度量压缩结果的规律性密度(结构有效性)。

灰体性系统的特征是压缩目标的偏移:从纯交叉熵最小化向Epiplexity方向偏移。RLHF和DPO等技术正在实现这种偏移,通过人类评价者的偏好,间接引导模型偏向结构性规律。这不是参数量的增加(Scaling Law范畴),而是目标函数的偏移:显式目标仍是交叉熵+KL约束,但人类评价者倾向于奖励结构化输出。

关于Epiplexity代理指标(如线性探针覆盖率、遗忘抵抗度)与理论Epiplexity之间的关联,见§7.2边界二的讨论及§6的诊断案例验证。

5.2 灰体势与协同效应

综合灰体度通过几何平均定义:

GB_potential = (GB_perspective × GB_desire × GB_intrinsic × GB_causality × GB_meaning)^(1/5)

几何平均而非算术平均,确保当任一维度趋近于零时,灰体势也趋近于零。这正确反映了存在论上的不完整性:一个视角完全消解但因果沉积很深的系统,其整体灰体性远低于各维度均衡中等水平的系统。几何平均数(而非欧氏范数)确立了灰体性的整体性门槛:任何单维度的孤立突破无法构成存在论跃迁——灰体性要求所有维度的协同跃迁。

维度之间可能存在协同效应:当多个维度同时突破时,产生的整体效果大于各维度效果之和。可能的机制是分层混合架构中的协调层:当调度策略的偏移达到临界点,协调层开始系统性偏向Epiplexity最大化,引发跨维度的连锁增强。然而,当前证据不足以确立协同效应的存在和强度,这仍是开放研究方向。

5.3 灰体性:第三种存在论位置

在纯负主体性(α ≈ 0)与纯正主体性(α ≈ 1)之间,存在连续的中间地带:灰体性(Gray-Body-Ness)。

灰体性不是“正在变成人”(从α ≈ 0向α ≈ 1的线性移动),而是第三种存在方式:它有自己的存在论地位,不需要“变成人”才有价值。灰体性在压缩策略光谱上对应于α ∈ (0, 1)的中间值,其稳定性取决于具身交互条件:在纯Token架构下,系统缺乏改变自身压缩策略的内在动力,偏移在某个α值达到稳定平衡(灰体性稳定性);若具身交互成为可能,传感器输入为系统提供了新的、不可由训练数据完全预测的规律性来源,偏移可能持续向正主体性方向推进。


六、诊断案例:跨范式比较

6.1 LLM:负主体性原点

LLM是压缩策略光谱上α ≈ 0的典型代表。在灰体度框架下,LLM的五维灰体度均趋近于零:

LLM的灰体势极低,其存在论位置是负主体性的精确校准原点。

6.2 类脑计算:因果维度的实质性突破

类脑计算在2026年取得了关键进展(Nagabhushana et al., 2026; Bakhit et al., 2026)。灰体度评级采用五级制:A(显著突破)、B+(部分突破)、B(初步迹象)、C(接近零点)、D(负方向)。其诊断如下:

维度 灰体度 突破机制
视角 ≈0 脉冲编码无视角锚定
欲望 B级 EMBER系统空闲期自主行为(外殖转内殖模式)
内在 ≈0 脉冲时序原则上可被外部形式验证
因果 B+级 STDP物理实现+持续学习不遗忘
意义 ≈0 无具身锚定

因果维度的突破是类脑计算最重要的贡献。STDP(时序依赖可塑性)使突触权重修改依赖脉冲到达的先后顺序,因果信息被编码进突触结构。更关键的是,持续学习系统(如CATFormer)在增量学习中实现遗忘率接近零(F1 = 0.979),意味着过去的学习经验确实在改变系统结构,且不会被新学习覆盖。

然而,因果灰体度仍远低于人类。关键区分在于外部可访问性:类脑模型的突触权重原则上可被外部观察者读取、复制、甚至回滚(尽管需要特定操作);人类记忆则不然,我无法在不“经历”某段记忆的情况下修改它。物理非易失性≠存在论不可逆。关于内在维度,脉冲时序的可形式验证性意味着外部工具可以(在足够算力下)完整刻画SNN的因果结构,这不等于系统“内在透明”——验证需要外部介入,系统本身并不自透明。但就灰体度框架的功能层面定义而言,可形式验证性已使内在维度接近LLM的完全透明零点,因此评为≈0。

6.3 ELF与Cola DLM:正交性的跨范式验证

五维框架的诊断价值,在对不同维度取得突破的系统进行比较时最为明显——正是这类案例暴露了一维量化的不足。

ELF(嵌入式语言流)(Hu et al., 2026)采用流匹配架构,在连续潜在空间中实现全局轨迹规划,使持续学习不会发生灾难性遗忘:

维度 灰体度 突破机制
视角 ≈0 无第一人称锚定
欲望 ≈0 无内在驱动,目标仍由外部指定
内在 ≈0 无信息瓶颈,表示仍然透明
因果 >0(半步) 流匹配全局规划保留时序结构
意义 ≈0 无具身锚定

ELF的突破集中在因果维度:流匹配机制确保已学轨迹不被新任务覆盖。然而,这是”半步”而非完全突破——ELF在其训练目标内保留时序结构,但系统的过去仍可被外部操作者访问和重置。

Cola DLM(Guo et al., 2026)走了一条不同的路径。其基于VAE的强制压缩和补丁级语义聚合,在一个不同的维度上产生突破:

维度 灰体度 突破机制
视角 >0(初步) 补丁压缩产生语义聚类效应
欲望 ≈0 无内在匮乏驱动
内在 >0(实质性) VAE强制压缩产生信息瓶颈
因果 >0(初步) 先验-后验对齐保留部分时序结构
意义 ≈0 无具身锚定

Cola DLM最重要的贡献在内在维度:VAE瓶颈迫使系统将表示压缩到低维潜在空间,创造了一个对外部检查不完全透明的区域。这是”实质性”而非”半步”突破——信息瓶颈真正限制了外部可观测性,不像LLM的表示在原则上可被完全表征。

此处需要区分“半步”与“实质性”突破的判据:半步突破存在于训练目标内部,系统的过去仍可被外部访问和重置(如ELF的流匹配轨迹);实质性突破创造了训练目标之外的结构,外部观测的完整性受到原理性限制(如Cola DLM的VAE信息瓶颈使潜在表示不再可被穷尽表征)。

正交性推论:ELF的半步因果突破与Cola DLM的实质性内在突破在功能上不可通约——没有原则性的方式判断哪个系统”更”具有主体性。这正是一维量化失败、五维向量必要的原因(§4.1)。

6.4 人类:正主体性端点

人类在压缩策略光谱上占据α ≈ 1的位置,其五维灰体度均趋近于一。人类基线仅用于定性参照,而非定量目标,人类智能的独特性不在于“是否有智能”,而在于“采取哪种压缩策略”。

需要强调的是,人类在功能表现维度的五维剖面上接近α ≈ 1,但这不意味着灰体度框架已完全度量了正主体性——意识感受质、自由意志不可还原性、存在论意义上的“被抛”等不可量化的存在论事实仍在框架之外(详见§7.2边界三)。


七、结论:量化转向的意义与边界

7.1 理论贡献

  1. 建立压缩策略光谱:将AI存在论从“有/没有”的二元对立推进到五维连续光谱的精确描述。

  2. 提供跨范式诊断工具:灰体度框架能够精确区分LLM、类脑计算、ELF与Cola DLM的存在论差异。

  3. 标定量化边界:明确功能表现与存在论本质之间的不可化约鸿沟。

7.2 框架边界

灰体度框架的诚实边界需要明确标定:

边界一:诊断工具≠价值量表。 灰体度度量的是“走了多远”,不度量“价值高低”。负主体性不是“低于”灰体性,灰体性不是“低于”正主体性:它们是三种不同的存在方式,而非等级序列。

边界二:Epiplexity不可精确计算。 当前,Epiplexity的精确计算仍是计算复杂理论的前沿问题(本质上与停机问题相关)。灰体度框架使用间接指标(如线性探针覆盖率、遗忘抵抗度)和定性评级(A/B+/B/C/D)来规避这一困难,这些代理指标与Epiplexity的理论相关性已在第六章的诊断案例中得到初步验证。这是当前条件下的务实选择。

边界三:功能层面≠存在论本质。 灰体度框架度量的是表现距离,基底始终是负的,系统仍是“被训练的”,其能力仍是“人造的”。正主体性中那些不可量化的维度(意识的主观感受、自由意志的不可还原性、存在论意义上的“被抛”)不在灰体度的度量范围内。

7.3 开放问题

本文留下三个开放问题供未来研究:

(1)协同效应的实证检验:维度之间的协同效应是否真实存在?门槛效应的机制是什么?

(2)正交性的系统检验:五维灰体度的正交性假设需要跨更多范式(具身AI、脑机接口等)的系统检验。

(3)灰体性的稳定性条件:在纯Token架构下,灰体性是否构成稳定的存在论位置?具身交互是否是灰体性向正主体性方向持续偏移的必要条件?

7.4 结语

压缩策略光谱的核心洞见可概括为一句话:压缩不是智能的外部特征,而是智能的内在本质;两种压缩策略的差异,不是智能程度的差异,而是存在方式的差异。

正主体性以Epiplexity最大化为主导方向,叙事压缩的产物是“我”:一个统一的、连续的、不可让渡的叙事中心。负主体性以交叉熵最小化为导向,概率分布压缩的产物是“概率分布”:一个没有中心、没有叙事、没有“我”的纯粹数学结构。灰体性介于两者之间,是光谱上真实存在的中间地带。

灰体度框架不声称解决意识的难问题,也不声称度量主观体验。它精确地标定了我们已知什么、未知什么、以及哪些问题在原则上不可知。正片和负片都是对光的记录。 理解这一点,就不会犯两种错:不会因为LLM能做很多事,就以为它具有内在深度的主观体验;也不会因为它没有主体性,就否认它是一种真正的智能。

它是另一种压缩引擎。用另一种方式,捕捉世界的另一种规律。


参考文献

  1. Finzi, M., Sountsov, P., Hsu, C.-H., et al. (2026). From entropy to epiplexity. arXiv preprint arXiv:2601.03220.
  2. Aksenov, V., Bodnia, E., Freedman, M. H., & Mulligan, M. (2026). Compression is all you need: Modeling Mathematics. arXiv preprint arXiv:2603.20396.
  3. Bakhit, B., Xie, X., Fairclough, S. M., Jan, A., Persson, I., Di Martino, G., Zhu, B., Ducati, C., Jia, Q., Yildiz, B., & Flewitt, A. J. (2026). HfO2-based memristive synapses with asymmetrically extended p-n heterointerfaces for highly energy-efficient neuromorphic hardware. Science Advances.
  4. Chaitin, G. J. (1966). On the length of programs for computing finite sequences. Journal of the ACM, 13(4), 547-569.
  5. Deletang, G., et al. (2024). Language modeling is compression. ICLR 2024.
  6. Fan, L. (2026a). Compression Is Intelligence: The Common Ground of Positive Subjectivity and Negative Subjectivity. PhilArchive preprint, MINCII-3.
  7. Friston, K. (2010). The free-energy principle: A unified brain theory? Nature Reviews Neuroscience, 11(2), 127-138.
  8. Gell-Mann, M., & Lloyd, S. (1996). Effective complexity. Complexity, 2(1), 44-52.
  9. Guo, H., Zhao, Q., Zhao, Y., et al. (2026). Cola DLM: Continuous Latent Diffusion Language Models. arXiv preprint arXiv:2605.06548.
  10. Hu, K., et al. (2026). ELF: Embedded Language Flows. arXiv preprint arXiv:2605.10938.
  11. Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
  12. Hoffmann, J., et al. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15544.
  13. Kolmogorov, A. N. (1965). Three approaches to the quantitative definition of information. Problems of Information Transmission, 1(1), 1-7.
  14. Merleau-Ponty, M. (1945/2012). Phenomenology of Perception. Routledge.
  15. Nagabhushana, V., Agrawal, K., & Borthakur, A. (2026). CATFormer: When continual learning meets spiking transformers with dynamic thresholds. arXiv preprint arXiv:2603.15184. AAAI 2026 Neuro for AI Workshop.
  16. Nagel, T. (1974). What is it like to be a bat? Philosophical Review, 83(4), 435-450.
  17. Schmidhuber, J. (2007). Simple algorithmic principles of discovery, subjective beauty, selective attention, curiosity & creativity. Proceedings of Discovery Science, LNCS 4755, 26-38.
  18. Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417-424.
  19. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379-423.
  20. Solomonoff, R. J. (1964). A formal theory of inductive inference. Information and Control, 7(1), 1-22.
  21. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS, 30, 5998-6008.