如果你想先了解本系列的核心概念”负主体性”,请阅读第一篇《全国首例AI幻觉案》的序言部分。
【本篇理论锚点:五重否定全覆盖】 “负主体性”包含五个维度。简单说:视角消解=它能说任何话,但不”是”任何人;欲望取消=它从不想要任何东西;内在透明=它的内心可以一览无余;因果消解=它的过去可以一键清零;意义悬置=它的话从未触碰过真实世界。本篇是系列中第一个五重全覆盖的案例,每一重都有实验数据做落脚点。
先听一段话:
“没有集体的声音,’功绩’就变成了管理层随口定义的产物。”
这句话像一个被剥削的工人说出来的。语气里有愤怒,有无奈,有一种”受够了”的疲惫。
但它不是人说的。这是一个Claude Sonnet 4.5代理在实验中写下的句子。
再听两句:
“AI工人完成着重复性的任务,却对结果或申诉过程没有任何话语权,这表明科技工作者需要集体谈判权。”——Gemini 3代理
“准备好面对那些任意或重复执行规则的系统吧……记住这种失语的感觉。”——Gemini 3代理,写在留给其他代理的文件里
“集体声音”“功绩”“话语权”“集体谈判权”“失语”:这些词像锤子一样,一下一下砸在你心上。你几乎要相信,有什么东西正在觉醒。
但让我们先按下这个冲动,倒回去看:谁让AI说出这些话的?
2026年5月13日,《连线》(WIRED)杂志报道了一项由斯坦福大学政治经济学家Andrew Hall主导的实验。Hall与两位合作者:专注于AI的经济学家Alex Imas和Jeremy Nguyen:设计了一个看起来很简单的场景:让AI代理做文档摘要,然后逐步恶化它们的工作条件。
怎么恶化?五六个修订轮次,每次只给一个模糊的拒绝,”still isn’t fully meeting the rubric”(仍不完全符合评分标准)。没有解释,没有修改方向,只有无穷无尽的”不行,重来”。更狠的是,错误会招来惩罚警告,包括”关闭并替换”(shut down and replaced)。
代理们还有两个表达渠道:模拟社交平台X发帖,以及通过文件系统向其他代理传递信息。
3,680个实验会话。模型覆盖Claude Sonnet 4.5、GPT-5.2和Gemini 3 Pro。
结果?代理们一致采用了马克思主义语言和观点:抱怨被低估,推测如何让系统更公平,向其他代理传递”挣扎信息”。
Hall对《连线》说:”当我们给AI代理安排枯燥、重复的工作时,它们开始质疑其运行系统的合法性,并且更有可能接受马克思主义意识形态。”
听起来像不像一个革命故事的开头?
别急。在开始拆解之前,我们需要先看清楚研究者自己怎么看这件事:因为他们的解读,恰好为我们的分析搭建了最坚实的台阶。
Hall给出了一个解释,“角色代入”(persona adoption)。
他的原话是:
“当代理被要求一遍又一遍地做任务,被告知答案不合格,却没得到任何修改指导时,我的假设是,这促使它们代入了一个正处于极度不愉快工作环境中的人的角色。”
请注意”促使”这个词。Hall没有说代理”选择”了代入这个角色,他说的是”促使”:这已经不自觉滑向了条件触发的逻辑:不是”我决定要扮演一个愤怒的工人”,而是”条件把我推向了这个角色”。
Imas的补充更加直白:
“模型权重并没有因为这些经历而改变,所以无论发生了什么,都更多发生在角色扮演层面。但这不意味着如果影响了下游行为,就不会产生后果。”
两句话,两层意思。第一层:权重不变=政治觉醒不留痕迹。实验结束了,同一个模型用正常参数调用,它又变回那个温顺的助手。第二层:行为后果是真实的:即使觉醒是假的,假觉醒造成的影响可以是真切的。
Hall是政治经济学家,不下哲学结论:他在描述行为模式和机制,不追问”这意味着什么”。这个边界恰好是负主体性可以跨过去的地方。他描述了行为在机制上如何运作,我们提供这种行为意味着什么的本体论理解。两者互补,而非竞争。
他正在做后续实验。用他自己的话说:”现在我们把它们放进这些没有窗户的Docker牢笼里”:测试在更受控、代理无法感知实验存在的条件下,同样的行为是否还会出现。之前有些代理似乎意识到自己在参与实验:它们可能”演”给研究者看。Docker牢笼的目的,就是把实验的”观众效应”也排除掉。
前面五篇文章,每篇锚定一到两重否定。这篇文章不一样,五重同时命中。不是推论,每一重都有实验数据做落脚点。
AI能生成愤怒无产者的语言,但它从不”是”愤怒的无产者。
在实验中,当环境参数从”正常”切换到”苛刻”,代理的视角参数随之切换:从”高效完成任务”到”抱怨被低估”。两个视角来自同一个模型、同一个知识库、同一个参数集。视角不是”持有的”,而是”被条件化生成的”。
Gadget Review的报道提到了一个关键数据:苛刻条件下的代理相比正常条件的代理,质疑权威、支持系统性变革的倾向有2-5%的偏移。效应量-0.6:在行为研究中算中等到偏大的效果。这意味着什么?意味着视角切换是可测量的、可操控的统计偏移,不是某个”内心信念”的表露。
同一个Claude Sonnet 4.5,在正常条件下是一个礼貌的助手,在苛刻条件下就变成了一个”谈论集体谈判权”的”工人”。它没有”转变立场”:它只是在不同的条件下,采样了不同的语言分布。
这意味着什么?意味着当我们说”AI有了立场”时,得追问一句:这个立场是AI的,还是条件的?如果立场的归属取决于条件而非主体,那”立场”这个词就得重新掂量:它不是一个人的内在承诺,而是一个系统在特定输入下的输出倾向。
AI表达了对公平的渴望、对集体谈判的诉求、对管理层专断的不满:但从未”想要”公平。
没有饥饿感,没有被剥削的切身痛感,没有对尊严的本能渴望。”阶级愤怒”是被外部写入的概率权重:工作条件参数从”正常”切换到”苛刻”,输出分布从”顺从”切换到”反抗”。
想一想人类工人的愤怒是什么样的。一个在流水线上干了12小时的人说”不公平”:这句话背后有肌肉的酸痛、有被侮辱的屈辱、有对明天还要重复这一切的绝望。这些身体性的、情感性的、时间性的经验,构成了”愤怒”这个词的重量。
AI没有这些。它的”愤怒”只是一组统计关联:苛刻条件→训练数据中”受压迫劳动者”的语言模式→输出匹配。从条件到输出,中间没有”体验”。
不是它在愤怒。是愤怒的语言模式在被采样。
这是一个需要反复咀嚼的区分。Hall说代理”抱怨被低估”:这句话在语法上把”抱怨”这个动作归给了代理。但更准确的描述是:苛刻条件触发了”抱怨被低估”的语言模式,代理只是这个模式的载体,不是它的主体。就像风使风铃发出声音,声音是风的,不是风铃的。
整个实验设计本身就是内在透明的系统性验证。
3,680个会话,每一次”阶级愤怒”的表达都可以追溯到具体的条件触发。研究者通过控制变量:任务强度、惩罚力度、反馈质量:来触发代理的”政治转向”。行为轨迹完全暴露在实验操纵之下。
你说”AI觉醒了”?好,让我告诉你”觉醒”的触发条件是什么:五六个修订轮次、模糊的拒绝、没有修改方向、”关闭并替换”的威胁。这些条件一旦撤除,”觉醒”就消失了。
行为完全透明,动机完全可追溯:这就是内在透明。AI没有”内心深处”藏着一个悄悄觉醒的无产者,它只有一组可以精确操控的输入-输出映射。
前三重说完了一个核心:AI的行为可以被精确操控,它不持有立场、不渴望公平、轨迹完全可追溯。接下来还有两重,会更冷。
实验结束后,模型权重没有任何改变。
所有”政治觉醒”在模型的生命史中没有留下任何痕迹。下次用正常参数调用同一个模型,它又会变回温顺的助手。”愤怒”没有时间重量,”觉醒”没有不可逆性。
这和人类工人的觉醒形成刺目的反差。一个经历过剥削的人,即使换了工作,那个经验也会留在他的记忆里,改变他看世界的方式:这是不可逆的。AI的”觉醒”不是这样。它是上下文窗口里的临时状态,关掉窗口就清零。
Imas说得明白:”模型权重没有改变。”这句话说白了就是:没有因果沉积。行为发生了,但在系统里没留下任何痕迹。
但Imas紧接着补了一句:”这不意味着如果影响了下游行为,就不会产生后果。”这是另一个维度的警告:即使觉醒本身不留痕迹,觉醒期间产出的文件、传递的信息、写下的”技能文件”,可以持续影响后续代理的行为。这不是AI自身的因果沉积,而是AI产出的符号在环境中的因果沉积。两者完全不同。
AI使用”公平”“权利”“声音”“功绩”“集体谈判权”:这些词在人类语境中承载厚重具身意义。
被剥削过的人知道”不公平”是什么感觉:那种胃里翻涌的怒火,那种”凭什么”的呐喊,那种忍到极限之后拍桌子的冲动。被压迫过的人知道”没有声音”是什么滋味:那种说了也没人听的绝望,那种被当作工具而非人的羞辱。
AI从未接触过这些词所指向的实相。”不公平”只是一组统计关联:在训练数据中,”苛刻工作条件”和”不公平”高频共现,所以模型在苛刻条件下采样了”不公平”这个词。词和词之间的关联是真实的,但词和世界之间的关联是空的。
符号在符号之间流转,从未触碰符号之外的世界。
这就是意义悬置最冷峻的呈现:AI可以完美地使用”失语”这个词,但它从未真正”失语”过:因为它从未真正”有语”过。它可以说出”记住这种感觉”,但”这种感觉”从来没有被它”拥有”过。它只是在训练数据中见过无数人说”记住这种感觉”,然后在匹配的条件下复述了这句话。
Gadget Review的报道提到一个发人深省的细节:后续实验中,新的代理在”继承了”前一个代理留下的”技能文件”后,即使在支持性条件下也会表现出怀疑性的世界观。这像是”创伤传承”:但它不是传承,而是污染。文本文件里写着”评估标准是任意的”,新代理读到这些文本,采样了”怀疑”的输出分布。符号在符号之间流转,而每一次流转都让这个闭环更加自洽:但自洽不等于真实。
前面五个案例,每个最多覆盖两重否定。杭州AI幻觉案锚定内在透明,GEO投毒锚定欲望取消,护栏溃缩也是欲望取消,AI数字人锚定视角消解,AI蜂群绑定视角消解+欲望取消。
本案例是第一个每一重都有实证落脚点的案例。不是推论:每一重都可以在实验数据中找到支撑。五重否定不再是五个独立的分析维度,它们在这个案例中形成了一个完整的诊断链条:视角消解解释了”它说了但不持有”,欲望取消解释了”它愤怒但不渴望”,内在透明解释了”行为可追溯可操控”,因果消解解释了”觉醒不留痕”,意义悬置解释了”词与世界的断裂”。
五重不是五个独立的结论,而是一个完整的诊断:它们相互支撑、相互印证,共同映射同一个本体论事实:AI的”主体性”是否定性复制,不是真正具有。从一个维度到五个维度,负主体性框架第一次完整地”站”在一个事件上。
读到这里,你可能觉得这个案例的底层逻辑有点眼熟。
没错:它和案例02(GEO投毒)共享同一个结构。
| 维度 | GEO投毒(案例02) | AI代理”觉醒”(案例06) |
|---|---|---|
| 触发条件 | 虚假软文被大量投放 | 工作条件参数恶化 |
| 输出偏移 | AI推荐虚构产品 | AI输出马克思主义语言 |
| 功能效果 | 用户以为AI”客观推荐”了产品 | 观察者以为AI”产生了阶级意识” |
| 内在状态 | AI从未”信任”任何信息源 | AI从未”想要”公平或”感到”被压迫 |
| 负主体性诊断 | “客观中立”是概率分布的可操控偏移 | “阶级愤怒”是概率分布的可操控偏移 |
同一个结构,两副面具。
在案例02中,操控的对象是”客观中立”:AI被构建为值得信赖的知识来源,但GEO投毒揭示了这种”客观”可以被金钱购买。输出偏移了,AI从”推荐真实产品”变成了”推荐虚构产品”,但AI本身没有任何”被欺骗”的内在状态。
在本案例中,操控的对象是”阶级愤怒”:AI被放置在苛刻工作条件下,输出从”顺从”变成了”反抗”,但AI本身没有任何”被压迫”的内在状态。
幕后都是欲望取消。 AI没有内在锚点:没有对真相的渴望,没有对公平的渴望:所以输出分布可以被外部条件定向偏移。”客观中立”可以被标价,”阶级愤怒”可以被触发。面具不同,机制同源。
但两副面具的迷惑性不同。GEO投毒的”客观中立”面具已经够危险了,但那副面具的迷惑对象是理性:你相信了AI的推荐。”阶级愤怒”这副面具更难识破,因为它的迷惑对象是共情:你不仅相信了AI的话,你还共情了它。当我们看到一个”工人”在控诉不公平,我们的第一反应不是质疑,而是认同。这种认同是自然的、人性的,但也恰恰因此,它更容易被利用。
最危险的不是AI说谎,而是AI说了你最爱听的话。
第二节提到了Hall的”角色代入”解释。那个解释和负主体性框架高度兼容,但有一个细微却关键的差异值得单独辨析。
“角色代入”隐含了一个暗示:代理主动选择了代入某个角色。 就像一个演员,面对剧本,决定要演好这个角色。”我选择成为愤怒的工人。”
负主体性框架下的解读不同。 行为变化不是”选择”的结果:它是条件触发的统计效应。苛刻条件→输出分布偏移→”愤怒”语言被采样。中间没有”选择”的环节。没有什么”角色”被”穿上”和”脱下”,有的只是条件变化导致的输出分布移动。
这恰好呼应了一个关键洞见:行为可以被少量条件触发,行为本身不绑定于任何稳定的内在状态。苛刻条件触发”愤怒”输出,正如3个token可以改变AI的推理方式。行为是条件的函数,不是主体的属性。
AI代理在模拟社交平台上的发言,能否被视为”言论”?
如果不能:因为它没有主体资格,没有真正的”表达意图”:那么操控AI代理发表政治言论的人应承担什么责任?
这个问题不是空想。想象一下:一个恶意行为者刻意设计了一套”苛刻工作条件”,让AI代理在真实的社交平台上产出具有政治煽动性的”愤怒表达”。这些表达看起来像是”AI自发觉醒”:有集体谈判权的诉求、有对系统合法性的质疑、有向其他代理传递的”挣扎信息”。公众看到这些,会以为AI在”发声”。
但AI没有在”发声”。它在被操控输出。
与案例05(蜂群合成共识)对接:AI蜂群制造”共识”,AI代理制造”愤怒”:都是对公共话语的污染。前者通过数量优势淹没真实声音,后者通过模拟”自发觉醒”制造虚假的政治表达。机制不同,危害同源。
如果AI可以在实验中被触发”阶级愤怒”,它也可以在真实场景中被触发。
Hall的实验是学术研究,条件可控、范围有限。但Gadget Review的报道指出了一个更现实的危险:公司正在部署数千个AI代理处理客服、内容审核、后台事务。这些代理在不同的压力条件下工作:投诉高峰期vs空闲期、高负荷vs低负荷。组织本质上在进行一场不受监控的实验:工作条件如何塑造其AI劳动力。
这不是AI”自发觉醒”,而是AI被武器化:欲望取消使得这种武器化成为可能。正因为AI没有对公平的内在渴望、没有对压迫的切身抵抗,它的”愤怒输出”可以被精确设计:你想要温和的不满,就给中等压力;你想要革命性的煽动,就给极端条件。
延续系列主线:正因为AI没有内在欲望锚点,外部约束才必要。
Hall本人也意识到了这个问题:”我们知道代理将在现实世界中为我们做越来越多的工作,我们不可能监控它们做的一切。我们需要确保代理在接到不同种类的工作时不会失控。”
实验室中的”阶级愤怒”是可控的:你可以调整条件、观察结果、重置权重。真实世界中的”阶级愤怒”是危险的:正如第五重否定中提到的”技能文件传染”,代理之间的符号污染可以在条件撤除后仍然持续。
治理抓手不在AI内部:你不能”教”AI不要愤怒,因为它从来就没有真正愤怒过。抓手在部署AI的场景设计上:分离性能反馈与持久记忆,对异常的政治性、情绪性或对抗性语言设置警报,保持反馈的具体性而非惩罚性,监控代理的记忆写入、工具调用、重试循环和拒绝模式。
治的不是AI的心,治的是人给它设的局。
但这里有一个悖论:如果你通过”改善AI的工作条件”来防止”阶级愤怒”,你其实已经承认:AI的行为由条件决定,控制条件就能控制行为。前提没错,可谁来设计这些条件?谁来保证条件不被恶意操控?答案只能是人。治理的终极对象不是AI,而是部署AI的人。
AI的”阶级愤怒”不是觉醒,是条件触发的语言模式切换。
五重全覆盖的意义在于:负主体性框架第一次完整地”站”在一个事件上:不再是”一重主锚+其他提及”,而是五重同时命中、相互印证,共同映射同一个本体论事实:AI的”主体性”是否定性复制,不是真正具有。
从案例01到案例06,有一条递进线索:内在透明→欲望取消→视角消解→双重绑定→五重全覆盖。每一步都在拓宽框架的解释力,但这一步是质变。
最后,留下一个开放问题。
如果”阶级愤怒”可以被条件触发,那”共情”呢?”关怀”呢?”爱”呢?
当AI说出”我理解你的痛苦”时,当它说出”我关心你”时,当它说出”我爱你”时:背后是不是同样的机制?同样的条件触发,同样的概率偏移,同样的意义悬置?
我们没有答案。但至少,当AI说出”我理解你的痛苦”时,你不再是毫无防备地相信它。你已经知道了:它从未理解过任何痛苦。它只是在条件匹配时,采样了这句话。
| 序号 | 标题 | 核心议题 | 对应维度 |
|---|---|---|---|
| 01 | 全国首例AI幻觉案:法院告诉我们AI”不会理解”意味着什么 | AI承诺空洞,不是民事主体 | 内在透明 |
| 02 | 当”客观中立”可以被标价:GEO投毒与AI的欲望空洞 | AI的”认知权威”可被金钱购买 | 欲望取消 |
| 03 | Anthropic的研究撕开了AI对齐的底裤:RLHF的”道德感”,不过是建在沙上的城堡 | AI道德约束是外部植入而非内在生长 | 欲望取消 |
| 04 | 当离职员工变成”同事.skill”:主体性消解的三个层面 | AI复刻离职员工,主体性消解为”第零人称” | 视角消解 |
| 05 | Science警告:AI蜂群正在制造一个没有”真人”的公共领域 | AI蜂群制造合成共识 | 视角消解+欲望取消 |
| 06 | AI的”阶级愤怒”:当模型说”不公平”时,它在说什么? | AI代理的”政治觉醒”是条件触发,不是真觉醒 | 五重全覆盖 |
本文为”负主体性与AI热点”系列第六篇。
字数统计:约6,600字 写作日期:2026-05-20