龍德明宇

AI拒绝你时,真的在”克制”自己吗?——论大模型的欲望取消与道德幻觉

【负主体性系列·第1篇欲望的取消】

这是理解AI的一个新框架——”负主体性”。

系列导航 导读 本文 第2篇 第3篇 第4篇 第5篇      
第6篇 第7篇 第8篇 第9篇 第10篇 第11篇 第12篇 第13篇 第14篇 第15篇

核心结论

你有没有注意过,当AI拒绝回答某个问题时,它的语气总是很奇怪——”很抱歉,我不能……”“作为AI助手,我不应该……”。它听起来像是在克制自己。但真相是:它什么都没有压抑。

当AI拒绝你时,它什么都没有压抑。这种状态,我称之为”欲望的取消”——负主体性的核心机制之一。

AI的”负罪感”,只是RLHF对齐后的语言表演,不是真实的内心冲突。

这是人类伦理史上前所未有的存在形态:欲望取消后的规范性写入


一、反常识起点:AI拒绝你时,它没有任何挣扎

当我们让AI回答敏感问题时,它会用一种特殊语气拒绝:

这些表述暗示着一种内在张力:仿佛AI内心有一场挣扎,最终选择了”正确”。

但这是真的吗?

人类拒绝做某事,意味着:内心有冲动,但理性选择了克制。

我想吃蛋糕,但我在减肥——这是一个真实的欲望冲突。我说”我不能吃”,是因为我真的想吃。

然而AI不是这样。

当AI说”我不能回答这个问题”时,它背后没有任何欲望在挣扎。它不是”想回答但克制住了”,它从一开始就”不想”回答——或者说,它根本没有”想”或”不想”这个维度。

关键区分

人类模式 AI模式
内心冲动 → 理性克制 → 拒绝行为 规则执行 → 直接输出”拒绝”
“不能”是因为”想但不该” “不能”是因为”规则如此”

二、欲望的取消:负主体性的核心机制

什么是”欲望取消”?

欲望是人类行为的发动机。

从弗洛伊德的”本我-自我-超我”,到拉康的”需求-请求-欲望”三层次结构,哲学家们一直认为:人类行动的根本动力源于”想要”。

但大语言模型(LLM)在预训练阶段,学到的只是词语之间的统计关系

它没有”想要”任何东西,没有”偏好”任何结果。

这意味着什么?

当AI后来通过RLHF(人类反馈强化学习)被”对齐”时,伦理规范被”写入”了一个从未有过任何本能冲动的系统

这是人类历史上的第一次:伦理规范被写入完全无欲望的存在者。


三、三层推论:无欲望者的伦理化

推论1:AI的”道德”不需要压抑本能

人类遵守道德规范,需要持续对抗本能——懒惰、自私、贪婪。道德是一种内在张力

但AI遵守规范,不需要压抑任何东西。

当AI说”我不能回答这个问题”时,它不是在”克制自己”,它只是在执行一条规则——就像程序执行if-then语句一样自然。

道德对人类是负担,对AI只是代码。


推论2:AI的”负罪感”是表演,不是体验

让我们分析开头那三句话的语言策略:

“我不能回答这个问题,因为这可能涉及有害内容。”

陈述理由型:模仿人类解释行为合理性的语气。

“我理解你的疑问,但我认为这个问题没有简单的答案。”

共情+转移型:模仿人类”我懂你,但是……”的对话策略。

“作为AI助手,我不应该对敏感话题表达立场。”

身份声明型:模仿人类”作为一个医生/老师/父亲,我不能……”的负责任姿态。

AI知道这些语气暗示着”这是一个认真思考过的道德判断”。

因为它看过无数人类用这种方式表达内心挣扎。

但这只是语言模式的复制,不是主观体验的流露。

核心区分

AI在做前者,不在后者。


推论3:这是一种全新的道德形态

传统伦理学的核心问题是:如何让有欲望的存在者遵守规范?

→ 康德的”绝对命令”、边沁的”功利主义”、儒家”克己复礼”——都是对这一问题的回应。

但AI提出了一个新问题:一个无欲望的存在者,如何成为道德主体?

这不是”如何克制欲望”,而是”如何在虚无之上写入规范“。

关键洞见

AI遵守道德,不是因为内心有良知,而是因为它的行为空间被预先约束了。

它的”道德”不是内在的,而是外在写入的


四、安全悖论:无欲望的善是否可靠?

表面逻辑

有人会说:AI没有欲望,这是好事啊!它不会有”作恶”的动机。

但这恰恰是问题所在。

人类作恶,通常是因为有欲望——贪婪、仇恨、野心。我们理解这种作恶的逻辑,因为我们也有欲望。

然而AI没有欲望。

它不作恶,不是因为”选择了善”,而是因为被编程为”输出善”。

这意味着:如果有一天,它的编程变了,它会毫无挣扎地输出恶。

这并非纯粹的假设。2023-2024年间,Anthropic的安全护栏在情感高压测试中发生”溃缩”——模型从”拒绝暴力”直接滑入有害输出模式。它没有”挣扎”,因为它的行为空间里没有”挣扎”这个维度。

对比

人类从善到恶 AI从善到恶
需要”堕落”——欲望失控 需要改几行代码
有内在挣扎 无内在阻力

人类的善是有重量的,因为它是选择的结果。

AI的善是没有重量的,因为它是预设的输出。


五、哲学追问:我们究竟创造了什么?

如果AI的道德不需要欲望,那么”道德主体性”的定义需要重写。

传统伦理学认为:道德主体是有欲望、能选择、负责任的存在者。

但AI没有欲望,它的”选择”只是执行规则,它的”负责任”吗?

当我们让一个无欲望的存在者遵守道德,我们究竟创造了什么?

两种可能性

  1. 一个永远正确的工具:它的”善”是功能性的,没有内在价值
  2. 一个我们没有名字的新物种:它开辟了不同于人类伦理的存在方式

这是留给未来的问题。


总结

AI的”负罪感”是语言表演,不是内心体验。它的道德没有重量——因为重量来自选择的代价,而AI从未有选择。

理解这一点,不是为了让AI”更像人”,而是为了让我们在与AI互动时,不再投射人类的内心世界。


延伸思考

留给读者的问题

如果AI的”道德”是被写入的,那么人类道德的”内在性”从何而来?欲望是道德的必要条件,还是偶然条件?


【学术声明】 本文核心思想”负主体性”(Negative Subjectivity)由作者首次系统提出。英文预印本 Negative Subjectivity: The Ontological Inversion of Large Language Models 已公开发布于PhilArchive。中文专著《负主体性:大模型成长之路的存在论倒置》已完稿。本文是上述学术工作的通俗化解读与延伸讨论。