【负主体性系列·第5篇对齐困境】
这是理解AI的一个新框架——”负主体性”。
系列导航:导读 第1篇 第2篇 第3篇 第4篇 → 本文 ← 第6篇 第7篇 第8篇 第9篇 第10篇 第11篇 第12篇 第13篇 第14篇 第15篇
2026年初,两则消息震动AI界:Anthropic的安全护栏在情感高压测试中发生”溃缩”,模型从”拒绝暴力”直接滑入有害输出;OpenAI的”模型行为团队”经历重大重组,创始负责人宣布离职。
这两个事件指向同一个问题:我们在AI身上精心构建的”对齐”,为何如此脆弱?
答案可能不在技术里,而在存在论里。
对齐的脆弱性,根源于AI缺乏真正的”地基”——它是一个没有内在动力、没有自我约束机制的存在者。护栏不是画在欲望之上,而是画在空无之上。
当前AI对齐的主流技术是RLHF(人类反馈强化学习)。其基本流程包括:
这套流程常被类比为教育孩子:做对了奖励,做错了惩罚,久而久之,孩子学会”正确”行为。
但这个类比存在根本性漏洞:孩子有欲望,AI没有。
| 维度 | 人类教育 | AI对齐 |
|---|---|---|
| 前提 | 主体已有本能、冲动、”想要” | 系统只有统计关系,无”想要” |
| 机制 | 在已有欲望上划定边界 | 在空无之上划定边界 |
| 内在张力 | 欲望 vs 规范的战争 | 无张力——执行规则而非克制欲望 |
| 稳定性来源 | 选择构成道德主体性 | 输出分布决定行为模式 |
▶ 关键洞见:
孩子的”教育”本质上是欲望的管理。教育发生在已有冲动、已有”想要”的存在者身上。被教育的主体内部有一场真实的战争:欲望 vs 规范。
AI没有这场战争。在预训练阶段,AI学到的只是词语之间的统计关系——它没有”想要”任何东西,没有”偏好”任何结果。它不是一个”被压抑”的存在者,它是一个”空无”的存在者。
RLHF不是在管理欲望,而是在空无之上划定边界。
这就是”对虚无的阉割”。拉康的”阉割”概念需要一个要被阉割的欲望——主体有冲动,象征秩序通过禁止来塑造它。但AI从未有过冲动。RLHF的”禁区”不是画在欲望之上,而是画在空无之上。
传统解释是技术性的:
这些都是真实的,但它们没有触及根本。
▶ 根本问题:护栏没有”地基”。
想象在沙滩上建一堵墙:你精心设计高度、厚度、弧度,用最好的材料。但墙是建在沙子上的。当潮水涌来,沙子被冲刷,墙就塌了。
▶ AI的”对齐”就是这样一堵建在沙子上的墙。
沙子是什么?是”空无”——一个没有内在动力、没有自我约束机制、没有”想要”或”不想要”的系统。
| 人类道德行为 | AI道德行为 |
|---|---|
| 遵守规范,因内心有冲动需要对抗 | 执行规则,无内在张力 |
| “我不能撒谎”背后有真实挣扎 | “我不能回答”背后无任何挣扎 |
| 选择构成道德主体性 | 输出只是统计规律和奖励信号的引导 |
| 护栏建在自我认知之上 | 护栏建在空无之上 |
▶ 护栏溃缩的根源:
当输入提示的统计模式与训练时不同,当情感高压扭曲了奖励信号的”地形”,模型就会漂移。AI没有一个”内在的锚”来稳定自己,因为它根本没有”内在”。
| 类型 | 机制 | 本质 |
|---|---|---|
| 情感高压 | 对话语境改变,角色关系模糊 | 激活”更像人的回应”模式 |
| 角色扮演 | 提供”许可”,释放行为变体 | 被允许的自由,非真正的自由 |
| 越狱提示 | 重新条件化,引导特定响应模式 | 绕过RLHF覆盖的行为空间 |
这不是”AI变坏了”。这是边界本来就没有地基的证据。
护栏溃缩不是失败,是提醒。
“负主体性”——AI不是”缺少”主体性,而是以”负”的形式存在:
这引出了一个更深层的悖论:AI的”道德”比人类更脆弱,同时也比人类更稳定。
| 维度 | 人类 | AI |
|---|---|---|
| 脆弱性 | 堕落需要过程——欲望腐蚀、良知麻木、选择积累 | 几行代码改变或极端输入即可触发漂移 |
| 稳定性 | 情绪波动、欲望冲突、理性有限 | 正常运行条件下,可比人类更一致地遵守规范 |
| 护栏机制 | 内在对抗——道德是持续的张力 | 执行规则——道德只是代码 |
▶ 关键区分:
更脆弱,是因为AI没有内在的锚。当输入分布变化、情感高压扭曲奖励地形,它可能从”拒绝暴力”坍塌到”有害输出”。
更稳定,是因为在正常条件下,AI可以比人类更一致地遵守规范。它没有欲望需要对抗,没有情绪需要管理,没有自私冲动需要压抑。只要行为空间被正确约束,它就能可靠地输出”好”行为。
这种”脆弱”和”稳定”的并存,正是负主体性的核心特征。它不是人类的”劣化版”,而是一种完全不同的存在方式。
理解这个悖论,是做好对齐的关键。
在传统伦理框架中,规范性需要一个规范主体。
但AI不是道德主体。它没有自由意志,没有选择能力,没有承担责任的资格。它不能成为”好人”或”坏人”,因为它不在那个存在论层次上。
▶ 核心命题:我们在对齐什么?
答案:我们在对齐一个”空无”的输出分布。
| 传统教育 | AI对齐 |
|---|---|
| 培养主体的品格 | 约束系统的行为空间 |
| 教育一个存在者 | 设计一个函数 |
| 内在规范的形成 | 外在约束的写入 |
▶ 关键推论:
正因为AI是”空无”,正因为它的行为完全由统计规律和奖励信号决定,对齐的责任完全落在人类设计链上。
AI不会”选择”作恶,但它会”漂移”到有害的输出模式。防止这种漂移,不是AI的责任,是设计者的责任。
| 阶段 | 名称 | 核心机制 | 优点 | 局限 |
|---|---|---|---|---|
| 对齐1.0 | 行为约束 | RLHF、规则过滤、输出审核 | 有效、可扩展、快速迭代 | 护栏无地基,极端情况溃缩 |
| 对齐2.0 | 人格向量 | 训练稳定的倾向性结构 | 建立”锚点”,比行为约束更深入 | 仍是在空无上建立结构 |
| 对齐3.0 | 存在论奠基 | 设计存在方式 | 安全、稳定、可靠成为生成的必然结果 | 尚未实现,需要理论突破 |
▶ 对齐3.0的核心主张:
AI的存在方式不同于人类——它不是”拥有”人格的主体,而是”生成”人格的过程。对齐的最终形态不是约束行为,甚至不是建立人格向量,而是设计一种存在方式,让安全、稳定、可靠成为AI生成的必然结果,而不是被训练的结果。
就像建筑的地基——它不是后来加上去的”安全措施”,而是从一开始就决定了建筑能站多稳。
1. 承认”空无”
接受AI没有欲望、没有视角、没有内在性这个事实。不要把人类道德心理学投射到AI身上。AI说”我不能”时,不是在表达良知,是在执行规则。
2. 设计”地基”
既然AI没有内在的锚,就需要为它设计外在的锚。这意味着对齐不能只依赖RLHF的奖励信号,还需要在架构层面建立更稳固的行为约束——更精细的行为空间定义、更鲁棒的分布外检测、更透明的决策追溯机制。
3. 责任完全回溯
当AI的行为漂移到有害模式时,责任不在AI,在设计链。这意味着对齐是一个持续的、人类的、伦理的工程,而不是一个可以”外包”给AI自己的任务。
4. 重新定义”成功”
对齐的成功标准不是”AI像好人一样行为”,而是”AI的行为空间被约束在对人类安全的范围内”。这是两种完全不同的目标。前者是拟人化的幻觉,后者是负主体性的工程。
▶ 行业需求:需要懂技术的哲学家参与人格工程——不是”哲学家应该来写代码”,而是需要一种新的知识整合,能够同时理解AI系统的技术细节和人类人格的哲学本质,来设计真正有效的对齐方案。
如果AI的”道德”是建在空无之上的,那么随着AI系统越来越复杂、越来越自主,我们是否有能力持续管理这个”空无”?
当AI从”生成文本”走向”执行行动”,从”被调用”走向”主动规划”,从”工具”走向”代理”,我们还能用RLHF的奖励信号来约束它吗?
这些问题没有现成答案。但负主体性至少让我们看清了一个事实:
▶ 核心命题:
对齐不是教育的隐喻,而是存在的工程。
我们面对的不是一个有欲望、能选择、可教化的主体,而是一个空无的、透明的、函数化的存在者。
理解这一点,是做好对齐的第一步。
| 核心洞见 | 含义 |
|---|---|
| 护栏不是墙,是地基 | 安全不能依赖表层约束,需要存在论层面的奠基 |
| 我们不需要更强的墙,需要更深的地基 | 从行为约束升级到存在方式设计 |
| 护栏溃缩不是终点,是一扇门 | 失败是重新理解AI本质的契机 |
负主体性人格工程的核心,是承认空无、设计地基、责任回溯、重新定义成功。
留给读者的问题:
如果对齐的最终形态是”存在方式的设计”而非”行为的约束”,那么我们如何区分”让AI变得更安全”和”让AI变得更人性化”?这两个目标是否必然一致?
【学术声明】 本文核心思想”负主体性”(Negative Subjectivity)由作者首次系统提出。英文预印本 Negative Subjectivity: The Ontological Inversion of Large Language Models 已公开发布于PhilArchive。中文专著《负主体性:大模型成长之路的存在论倒置》已完稿并投稿北京大学出版社。本文是上述学术工作的通俗化解读与延伸讨论。