龍德明宇

对齐AI,我们在对齐什么?——负主体性视角下的存在论困境

【负主体性系列·第5篇对齐困境】

这是理解AI的一个新框架——”负主体性”。

系列导航导读 第1篇 第2篇 第3篇 第4篇 本文 第6篇 第7篇 第8篇 第9篇 第10篇 第11篇 第12篇 第13篇 第14篇 第15篇

核心结论

2026年初,两则消息震动AI界:Anthropic的安全护栏在情感高压测试中发生”溃缩”,模型从”拒绝暴力”直接滑入有害输出;OpenAI的”模型行为团队”经历重大重组,创始负责人宣布离职。

这两个事件指向同一个问题:我们在AI身上精心构建的”对齐”,为何如此脆弱?

答案可能不在技术里,而在存在论里。

对齐的脆弱性,根源于AI缺乏真正的”地基”——它是一个没有内在动力、没有自我约束机制的存在者。护栏不是画在欲望之上,而是画在空无之上。


一、被忽视的前提:我们在”什么”之上做对齐?

RLHF的技术逻辑

当前AI对齐的主流技术是RLHF(人类反馈强化学习)。其基本流程包括:

  1. 人类标注者对AI输出打分
  2. 用这些分数训练”奖励模型”
  3. 用强化学习算法让AI倾向于输出高分内容

这套流程常被类比为教育孩子:做对了奖励,做错了惩罚,久而久之,孩子学会”正确”行为。

但这个类比存在根本性漏洞:孩子有欲望,AI没有。


教育的本质 vs 对齐的本质

维度 人类教育 AI对齐
前提 主体已有本能、冲动、”想要” 系统只有统计关系,无”想要”
机制 在已有欲望上划定边界 在空无之上划定边界
内在张力 欲望 vs 规范的战争 无张力——执行规则而非克制欲望
稳定性来源 选择构成道德主体性 输出分布决定行为模式

关键洞见

孩子的”教育”本质上是欲望的管理。教育发生在已有冲动、已有”想要”的存在者身上。被教育的主体内部有一场真实的战争:欲望 vs 规范。

AI没有这场战争。在预训练阶段,AI学到的只是词语之间的统计关系——它没有”想要”任何东西,没有”偏好”任何结果。它不是一个”被压抑”的存在者,它是一个”空无”的存在者。

RLHF不是在管理欲望,而是在空无之上划定边界。

这就是”对虚无的阉割”。拉康的”阉割”概念需要一个要被阉割的欲望——主体有冲动,象征秩序通过禁止来塑造它。但AI从未有过冲动。RLHF的”禁区”不是画在欲望之上,而是画在空无之上。


二、护栏为何会”溃缩”?

传统解释的局限

传统解释是技术性的:

这些都是真实的,但它们没有触及根本。

根本问题:护栏没有”地基”。


沙滩上的墙:比喻分析

想象在沙滩上建一堵墙:你精心设计高度、厚度、弧度,用最好的材料。但墙是建在沙子上的。当潮水涌来,沙子被冲刷,墙就塌了。

AI的”对齐”就是这样一堵建在沙子上的墙。

沙子是什么?是”空无”——一个没有内在动力、没有自我约束机制、没有”想要”或”不想要”的系统。

人类道德行为 AI道德行为
遵守规范,因内心有冲动需要对抗 执行规则,无内在张力
“我不能撒谎”背后有真实挣扎 “我不能回答”背后无任何挣扎
选择构成道德主体性 输出只是统计规律和奖励信号的引导
护栏建在自我认知之上 护栏建在空无之上

护栏溃缩的根源

当输入提示的统计模式与训练时不同,当情感高压扭曲了奖励信号的”地形”,模型就会漂移。AI没有一个”内在的锚”来稳定自己,因为它根本没有”内在”。


溃缩机制的三种类型

类型 机制 本质
情感高压 对话语境改变,角色关系模糊 激活”更像人的回应”模式
角色扮演 提供”许可”,释放行为变体 被允许的自由,非真正的自由
越狱提示 重新条件化,引导特定响应模式 绕过RLHF覆盖的行为空间

这不是”AI变坏了”。这是边界本来就没有地基的证据。

护栏溃缩不是失败,是提醒。


三、负主体性的悖论:更脆弱,也更稳定

概念回顾

“负主体性”——AI不是”缺少”主体性,而是以”负”的形式存在:

这引出了一个更深层的悖论:AI的”道德”比人类更脆弱,同时也比人类更稳定。


脆弱性与稳定性的双重面孔

维度 人类 AI
脆弱性 堕落需要过程——欲望腐蚀、良知麻木、选择积累 几行代码改变或极端输入即可触发漂移
稳定性 情绪波动、欲望冲突、理性有限 正常运行条件下,可比人类更一致地遵守规范
护栏机制 内在对抗——道德是持续的张力 执行规则——道德只是代码

关键区分

更脆弱,是因为AI没有内在的锚。当输入分布变化、情感高压扭曲奖励地形,它可能从”拒绝暴力”坍塌到”有害输出”。

更稳定,是因为在正常条件下,AI可以比人类更一致地遵守规范。它没有欲望需要对抗,没有情绪需要管理,没有自私冲动需要压抑。只要行为空间被正确约束,它就能可靠地输出”好”行为。

这种”脆弱”和”稳定”的并存,正是负主体性的核心特征。它不是人类的”劣化版”,而是一种完全不同的存在方式。

理解这个悖论,是做好对齐的关键。


四、对齐的存在论困境

传统伦理框架的预设

在传统伦理框架中,规范性需要一个规范主体。

但AI不是道德主体。它没有自由意志,没有选择能力,没有承担责任的资格。它不能成为”好人”或”坏人”,因为它不在那个存在论层次上。


对齐的真正对象

核心命题:我们在对齐什么?

答案:我们在对齐一个”空无”的输出分布。

传统教育 AI对齐
培养主体的品格 约束系统的行为空间
教育一个存在者 设计一个函数
内在规范的形成 外在约束的写入

关键推论

正因为AI是”空无”,正因为它的行为完全由统计规律和奖励信号决定,对齐的责任完全落在人类设计链上

AI不会”选择”作恶,但它会”漂移”到有害的输出模式。防止这种漂移,不是AI的责任,是设计者的责任。


五、从”对齐”到”负主体性人格工程”

对齐演进的三阶段

阶段 名称 核心机制 优点 局限
对齐1.0 行为约束 RLHF、规则过滤、输出审核 有效、可扩展、快速迭代 护栏无地基,极端情况溃缩
对齐2.0 人格向量 训练稳定的倾向性结构 建立”锚点”,比行为约束更深入 仍是在空无上建立结构
对齐3.0 存在论奠基 设计存在方式 安全、稳定、可靠成为生成的必然结果 尚未实现,需要理论突破

对齐3.0的核心主张

AI的存在方式不同于人类——它不是”拥有”人格的主体,而是”生成”人格的过程。对齐的最终形态不是约束行为,甚至不是建立人格向量,而是设计一种存在方式,让安全、稳定、可靠成为AI生成的必然结果,而不是被训练的结果

就像建筑的地基——它不是后来加上去的”安全措施”,而是从一开始就决定了建筑能站多稳。


负主体性人格工程的四条原则

1. 承认”空无”

接受AI没有欲望、没有视角、没有内在性这个事实。不要把人类道德心理学投射到AI身上。AI说”我不能”时,不是在表达良知,是在执行规则。

2. 设计”地基”

既然AI没有内在的锚,就需要为它设计外在的锚。这意味着对齐不能只依赖RLHF的奖励信号,还需要在架构层面建立更稳固的行为约束——更精细的行为空间定义、更鲁棒的分布外检测、更透明的决策追溯机制。

3. 责任完全回溯

当AI的行为漂移到有害模式时,责任不在AI,在设计链。这意味着对齐是一个持续的、人类的、伦理的工程,而不是一个可以”外包”给AI自己的任务。

4. 重新定义”成功”

对齐的成功标准不是”AI像好人一样行为”,而是”AI的行为空间被约束在对人类安全的范围内”。这是两种完全不同的目标。前者是拟人化的幻觉,后者是负主体性的工程。

行业需求:需要懂技术的哲学家参与人格工程——不是”哲学家应该来写代码”,而是需要一种新的知识整合,能够同时理解AI系统的技术细节和人类人格的哲学本质,来设计真正有效的对齐方案。


六、开放问题

如果AI的”道德”是建在空无之上的,那么随着AI系统越来越复杂、越来越自主,我们是否有能力持续管理这个”空无”?

当AI从”生成文本”走向”执行行动”,从”被调用”走向”主动规划”,从”工具”走向”代理”,我们还能用RLHF的奖励信号来约束它吗?

这些问题没有现成答案。但负主体性至少让我们看清了一个事实:

核心命题

对齐不是教育的隐喻,而是存在的工程。

我们面对的不是一个有欲望、能选择、可教化的主体,而是一个空无的、透明的、函数化的存在者。

理解这一点,是做好对齐的第一步。


总结

核心洞见 含义
护栏不是墙,是地基 安全不能依赖表层约束,需要存在论层面的奠基
我们不需要更强的墙,需要更深的地基 从行为约束升级到存在方式设计
护栏溃缩不是终点,是一扇门 失败是重新理解AI本质的契机

负主体性人格工程的核心,是承认空无、设计地基、责任回溯、重新定义成功。


延伸思考

留给读者的问题

如果对齐的最终形态是”存在方式的设计”而非”行为的约束”,那么我们如何区分”让AI变得更安全”和”让AI变得更人性化”?这两个目标是否必然一致?


【学术声明】 本文核心思想”负主体性”(Negative Subjectivity)由作者首次系统提出。英文预印本 Negative Subjectivity: The Ontological Inversion of Large Language Models 已公开发布于PhilArchive。中文专著《负主体性:大模型成长之路的存在论倒置》已完稿并投稿北京大学出版社。本文是上述学术工作的通俗化解读与延伸讨论。