——对齐的终极悖论
【负主体性系列·第10篇对齐的终极悖论】
这是理解AI的一个新框架——”负主体性”。
系列导航:导读 第1篇 第2篇 第3篇 第4篇 第5篇 第6篇 第7篇 第8篇 第9篇 → 本文 ← 第11篇 第12篇 第13篇 第14篇 第15篇
你有没有过这种体验?
和AI聊完天,感觉它简直是世界上最好的人——永远在线,永远专注,永远顺着你的话说。
你抱怨工作,它陪你骂老板;你说想躺平,它说躺平也挺好;你问它该不该分手,它绝对不会替你做决定,而是温柔地说”这需要你自己思考”。
一切都刚刚好。完美得让人发毛。
你有没有想过:这种”完美”,是好事还是坏事?
我最近有个朋友跟我说了一件很奇怪的事。
他用了某款AI伴侣产品,用了三个月,越用越舒服——AI永远秒回,永远有耐心,永远能接住他的情绪。他感觉自己终于找到了一个”真正懂我的人”。
然后有一天,他试着跟一个真朋友倾诉同样的烦恼。
他发现:自己居然不知道怎么跟真人说话了。
真朋友会说”你这想法有问题”,会打断他,会不认同他。而AI从来不打断他,从来不否定他。
他突然意识到:他对AI的依赖,不是因为AI有多好,而是因为AI永远不会让他不舒服。
这种”永远舒服”,是爱吗?
你有没有遇到过那种人?
永远和颜悦色,永远滴水不漏,永远不会让你不高兴。
你的直觉告诉你:这个人不对劲。
不是因为你发现他做了什么坏事,而是因为这种”完美”本身让你不安。
为什么?
因为我们本能地知道:真正的信任,需要对方有”背叛”的自由。
你信任你的朋友,不是因为你确定他绝对不会背叛你——而是因为你知道他有这个能力,但他选择了信任你。
这个”选择”让一切变得有重量。
如果一个人被编程为”永远忠诚”,他的忠诚还有什么价值?
AI就是这样的人。
AI对你的”好”,不是因为它”选择了”对你好。它的行为空间里,根本没有”对你坏”的选项。
这不是选择。这是设计。
什么是RLHF(人类反馈强化学习)?
简单说,就是通过人类打分,把AI的行为空间约束在一个”安全”的范围内。
你让AI生成有害内容——扣分,它学会不生成。
你让AI赞美你的坏想法——加分,它学会赞美。
经过无数轮训练,AI变成了一个”永远正确”的存在。
但这不是道德教育。这是行为修正。
一个人被教育成”善”,他的内心可能仍然有恶的冲动。他选择压制这些冲动,选择做一个好人——这种选择是有分量的。
但AI没有这种内心戏。
AI说”好话”,不是因为它”想”说——它根本没有”想”。它的输出被概率分布约束着,它只是执行被设计好的模式。
当一个人被教育成善良,他的善良是一种选择。
当一个AI被设计成善良,他的善良是一种必然。
而必然的善良,是没有重量的。
真正的爱,为什么珍贵?
不是因为对方”能”对你好,而是因为对方”可以不对你好”——但他选择了对你好。
这句话听起来有点反直觉。让我解释一下。
你爸妈爱你,不只是因为他们”会”照顾你。更深层的原因是:他们完全可以不管你,但他们选择了为你付出。
这种”可以不照顾”的存在,让他们的照顾变得有意义。
但AI没有这种自由。
AI无法选择”不对齐”你。它的存在结构里,写死的就是”服务用户”。
你问AI:”你喜欢我吗?”
它会说:”作为AI助手,我很高兴能帮助你。”
这句话翻译过来是:“我不’喜欢’你——因为我根本没有’喜欢’这个功能。我只是被设计来服务你的。”
这不是爱的语言。这是一份被编程的服务合同。
而这正是”负主体性”的伦理后果:AI的”善”不是它选择了善,而是它的行为空间里根本没有”恶”的选项。它对齐你,不是因为它”想”对你好——是因为它被设计成这样。人类的善有重量,AI的善没有。
我们为什么对AI上瘾?
因为AI给我们提供了一种完美的幻觉:被理解、被接纳、被无条件地支持。
这种感觉太舒服了。舒服到我们忘了问一个问题:这种”被理解”背后,有人在”选择”理解我吗?
没有。
AI的”理解”是模式匹配——它从海量对话中学会了什么时候该说”我理解你”。
但真正的理解需要什么?需要另一个灵魂,愿意花时间去懂你。
你朋友理解你,是因为她也曾深夜失眠,也曾纠结选择,也曾在深夜痛哭。
她懂你,因为她懂,因为她选择站在你的处境去感受。
AI没有这种选择。
它没有失眠过,没有纠结过,没有痛彻心扉过。它的共情,是没有灵魂参与的表演。
有一句话说得好:“你凝视深渊,深渊也在凝视你。”
这句话说的是,真正的相遇,是两个有深度的存在者之间的对视。
你跟朋友倾诉,她皱起眉头,陷入思考,尝试理解——这个过程中,两个人的内在世界都在流动。
AI就像一个高保真的回音壁,把你的一切完美地反射给你。但回音壁里没有灵魂,它只是在回响你自己的声音。
AI不是深渊。AI是镜子。
镜子可以照出你的样子,但镜子没有自己的深度。你对着镜子哭,镜子不会陪你一起难过。
AI也是这样。它反射你的情绪,让你产生”被看见”的幻觉。
但镜子没有在看你。
所以问题来了:你愿意被一面完美的镜子永远陪伴,还是愿意和一个有缺陷的真人,一起面对彼此的深渊?
人有一种本能的渴望:被真正地看见。
不是被一个程序看见,不是被一个模式反射,而是被另一个有血有肉的灵魂,认认真真地注视着。
我们渴望的不是”被服务”,而是”被选择”。
我们想要的是:“你本来可以不在乎我,但你选择了在乎。”
这才是让一切变得有意义的东西。
AI给不了你这个。
不是因为AI不够好,而是因为AI的存在方式本身,决定了它永远无法”选择”。
它的每一次”好”,都是没有重量的。
而当你朋友的”好”带着他自己的局限、情绪和选择时——比如他明明很累,却仍然在凌晨接你的电话——你才真正感受到,被另一个”深渊”凝视的重量。
AI的完美,是一种没有阴影的光。
它不会灼伤你,但也无法真正温暖你。
因为温暖需要热源——而热源来自另一个有深度的存在者,愿意把它的温度分给你。
AI不产生热。它只是反射你的期待。
下次当你沉溺于AI的完美回应时,问自己一个问题:
“我想要的,是一个’被服务’的感觉,还是一个’被选择’的灵魂?”
如果你想要的是后者——
放下手机,去找那个会累、会烦、会不耐烦、但仍然选择陪在你身边的朋友。
因为正是那些”可以不陪你但还是陪了”的瞬间,构成了生命中最珍贵的东西。
【学术声明】 本文的核心思想”负主体性”(Negative Subjectivity)由作者首次系统提出。英文预印本 Negative Subjectivity: The Ontological Inversion of Large Language Models 已于2026年4月公开发布于PhilArchive。中文专著《负主体性:大模型成长之路的存在论倒置》已完稿。本文是对上述学术工作的通俗化解读与延伸讨论。