Published on

AI 平权的幻觉:真正的奇点不是人人变强,而是差距被重新放大

Authors
  • Name
    c4a4d65b
    Twitter

过去几年,AI 圈流行一种很有诱惑力的叙事:人人都将拥有超级助手,知识差距会被抹平,普通人能做到过去只有专家和机构才做得到的事——一次技术平权。

这套说法不全错。在“工具入口”这一层,它是对的:越来越多的人能调用强模型,去写代码、分析文档、学习复杂知识。但在“最终结果”这一层,它很可能是错的。工具普及不等于结果平均,入口下降不等于权力结构消失。恰恰相反,越强的通用工具,越会放大人本来就有的差异。

所以我想说的是:AI 最深的影响未必是平权,而是重新制造不平等——它会先以平权叙事登场,再在算力、数据、分发和人性结构的作用下,慢慢长成新的垄断秩序。而真正的机会,就藏在这个错位里。当多数人还相信 AI 会自然拉平一切时,少数人已经把它当成阶层迁移器在用。

下面我想把这个判断完整推一遍,从模型底层机制,一路推到社会结构。

一、架构创新,首先是一本算力账

要看清这件事,得从模型机制说起,而不是从“会不会平权”说起。大模型有个绕不开的约束:能力、上下文、推理深度、参数量——每一项往上走,计算成本都在涨。于是几乎所有现代模型工程都在回答同一个问题:怎么在不太掉 benchmark 分数的前提下,把计算省下来?

很多看起来很聪明的架构,根子都在这里。稀疏注意力,是让模型别去关注所有 token;MoE,是让它别每次都激活全部专家;indexer 和上下文压缩,是先筛掉一批“看起来不重要”的信息;检索增强,是把一部分记忆外包给外部系统;agent harness,是用工具、搜索、重试、验证去补模型本体的不足。

这些方法都有价值,也确实让模型更可用。但要看清一点:它们首先解决的是成本问题,不是认知问题。它们问的是“如何用更少计算得到看起来差不多的结果”,而不是“如何在任何复杂场景下都不丢关键线索”。这两个目标在简单任务上一致,在难题上会打架。

二、有损压缩的代价:系统以为自己早就知道什么重要

稀疏化、压缩、路由、检索,都依赖同一个隐含前提:系统能在早期就判断出哪些信息该留、哪些可以扔。

这个前提在很多任务里成立——总结新闻,关键句很显眼;做格式清晰的考题,条件都在题干里;修常见 bug,报错直接指向问题。但真正困难的问题恰恰违反它:很多关键线索一开始看着无关,很多深层因果只在后期显现,很多难题需要同时悬着好几个互相冲突的假设。

这就像读侦探小说,第一页随口提的一句话,最后才发现是破案关键。要是速读器一上来就判定它不重要、压掉了,后面推理再漂亮也没用。省算力要的是尽早筛选,深层智能要的是延迟判断——问题简单时压缩无所谓,问题足够复杂时,压缩本身就成了能力的天花板。

三、benchmark 为什么会掩盖这件事

顺着往下,就能看清 benchmark 的局限。公开榜单的题目大多边界清晰、答案形式固定、评测目标明确,这让模型可以靠后训练、合成数据、蒸馏、prompt 优化、反复采样、verifier 把分数刷得很高。但这测的是“在一个被整理干净的问题空间里能不能给出正确答案”,而真实世界测的是“在混乱、不完整、目标漂移、线索稀碎的空间里,能不能自己找到问题的结构”。这是两种能力。

所以“开源 benchmark 追平闭源”推不出“开源真实能力追平闭源”。Epoch AI 在 2026 年 5 月的分析里说,自 2026 年 1 月以来,最强 open-weight 模型平均落后闭源前沿约 4 个月、ECI 差约 8 分;而且这个差距可能被低估,因为开源模型更容易针对公开 benchmark 做优化,在私有评测上往往更差。换句话说,榜单上的接近,可能只是可见部分的接近。

四、harness 错位:系统能做出来,不等于模型本体能做出来

这里有个很容易被偷换的概念。常有人说:本体弱一点不要紧,加上 harness、检索、工具、verifier、多轮采样,照样能解决,甚至更强。工程上没错,但比的是两个不同的变量——“纯模型能解决”测的是本体的内生能力,“模型加 harness 能解决”测的是一个工程系统的总能力。

harness 当然有用,但它的有效性有前提:任务能拆分、中间结果能廉价验证、搜索空间不爆炸、关键线索不会在早期被误删。前提成立时它很强;可一旦问题是长链路、低显著线索、高不确定、强上下文依赖,它就会撞到上限。原因很简单:harness 是能力放大器,不是能力生成器。它能让一个 80 分的模型跑出 90 分系统的效果,却很难把一个缺乏核心表征能力的模型,变成真正的前沿认知体。前者是底层认知密度,后者是工程放大效率——benchmark 容易把两者混在一起,真实世界会把它们重新分开。

而且要点破一件被刻意模糊的事:这道差距不是技巧能补的,而且它本来就一直在。harness 工作在模型表征的下游,它能调度、重试、验证,却找不回模型在上游已经扔掉的东西——稀疏没看的 token、路由没激活的专家、检索没召回的片段、压缩提前剪掉的线索,一旦在前面被丢弃,后面再精巧的脚手架也无从调用:你没法检索一个已经不存在的信息。所以真正的分界不在“稠密还是稀疏”这个标签上——前沿模型自己也用 MoE——而在一个模型愿不愿意、付不付得起代价,去保留那些当下看不出价值、却可能在后期变关键的信息。肯为难题付出稠密计算、不做不可逆早期剪枝的模型,和靠激进压缩把成本压下来的模型,从一开始就不是同一类东西。

过去两类模型看起来差不多,不是差距被补上了,而是公开 benchmark 的题足够干净,被丢掉的信息在那些题里本来就用不上,于是得分相近。新闻和 PR 抓住这个表面相等,讲成“已经追平”。但那从来只是特定分布、特定评测下的假象:换成线索稀碎、验证昂贵的真实问题,差距原样显形。趋同的从来不是能力,是测量,加上营销。

五、真正的“技术奇点”,是外部技巧再也补不上断代

既然这道差距补不上,那“技术奇点”就可以有一个更冷的定义。它不是科幻里的超级智能,也不是哪天宣布 AGI,而是:当模型内生能力跨过某个阈值后,prompt、harness、检索、工具、工作流这些外部技巧,再也无法弥补底层差距的那一刻。

这个奇点不会一次性降临所有领域,而是一组局部相变——可能先在代码发生,再到网络安全、数学证明、科研假设、复杂工程。某个任务一旦越过相变,模型就不再只是“辅助专家”,而是开始改写整个生产函数。过去的问题是“专家能不能找到答案”,相变之后变成“AI 批量找出候选之后,人来不来得及验证、排序、修复、担责”。瓶颈,被往后推了。

Mythos 的意义就在这里——重要的不是它在某个榜单上高几分。Anthropic 的 Project Glasswing 页面说,Claude Mythos Preview 已经在主要操作系统和浏览器里发现了数千个高严重性漏洞,并强调要把这种能力用于防御性安全。它在 SWE-bench Pro 上 77.8%、SWE-bench Verified 93.9%(Anthropic 也说明其中一部分题被记忆化筛查标记,但排除后相对前代的提升仍然成立),GPQA Diamond 94.6%,带工具的 HLE 64.7%;而且 Anthropic 明确表示不打算普遍开放它,要等安全防护成熟,再让这一代模型大规模部署。数字本身说明它强,但更关键的是:它在真实安全场景里显出了“专家任务工业化”的趋势——当过去要顶级专家长期搜索的问题可以被系统性地批量找出来,被改变的就不是一个 benchmark,而是整条工作流。

这并不意味着别人弱。OpenAI 介绍 GPT-5.5 时称它在 Terminal-Bench 2.0 上 82.7%、OSWorld-Verified 78.7%,GPT-5.5 Pro 在 BrowseComp 上 90.1%,定位是面向真实知识工作和计算机操作的通用系统。所以更准确的说法不是“Mythos 全面碾压谁”,而是:OpenAI 是综合极强的通用前沿,Mythos 像在代码和安全方向打出的一根尖刺。未来的竞争多半就是这个形态——不是一个模型处处赢,而是不同模型在不同高价值任务上长出尖峰。真正值得盯的信号,从来不是榜单第一,而是谁先在真实世界里把某个行业的瓶颈打穿。

六、漏洞、证明、科研,都只是同一种能力的症状

再往深一层。很多人爱问:AI 会不会证明定理、会不会发现漏洞、会不会做科研、会不会替代专家。这些问题有意义,但都不是最底层的。因为数学证明、漏洞发现、科研假设、复杂代码修复,本质上是同一种更深能力的不同投影——在复杂系统里寻找隐藏变量,把模糊的世界压成可验证的结构。

所以这些任务不是终点,而是显影液。该看的不是“AI 能不能做某道题”,而是“它是不是正在形成一种能跨任务迁移的底层搜索能力”。如果是,那具体解决了哪个问题,只是副作用。就像电的意义不在点亮灯泡,而在重构所有生产系统;互联网的意义不在收发邮件,而在重构信息分发和交易。AI 真正的意义,也不在“会写代码”或“会找漏洞”,而在它可能重构认知劳动本身。漏洞和证明只是在告诉我们:某种更底层的能力,正在从训练里外溢出来。

七、把这条链接到社会:能力不是平均释放,平权就只是入口幻觉

技术层面的推导到这里就完整了:能力受算力约束,所以工程倾向压缩省算力;压缩依赖“早期就知道什么重要”,而难题恰恰违反这个前提;被丢掉的信息在下游补不回来,harness 只能放大、不能凭空生成,所以这道差距技巧补不上,也从来没真被补上过——趋同的只是 benchmark 的测量加上营销;于是当内生能力跨过阈值,局部奇点出现,专家任务开始被工业化。

这条链的第一个、也最该先认清的结论,不在个人机会那一层,而在更上游,可以从两个角度看。

第一个角度是技术层面:要意识到,不同人手里用的“AI”,本质上根本不是同一个东西。这不是版本号或几分榜单的差异,而是种类的差异——肯为难题付出稠密计算、不做不可逆早期剪枝的那一类,和靠激进压缩把成本压下来的那一类,从一开始就分属两边。“开源在追平闭源”这种叙事最大的误导,就是让人以为权重一旦公开,前沿能力就被分给了所有人。可既然趋同本身是假的、那道差距又补不回来,公开出来的就只是补不回断代的那一类——它不会把真正的能力优势交出来。优势仍然留在能负担稠密计算、握着最强基座的那极少数人手里。在模型这一层,赢家从一开始就在收敛,而不是在扩散;开源没有改变这一点,它只是让更多人以为自己也在牌桌上。

第二个角度是自我认知层面:别被短期的幻觉蒙蔽。“我也能用上很强的模型”这种感觉是真的,但它是入口带来的爽感,不是你真的拿到了能力优势。短期里工具唾手可得,会让人误以为差距正在消失;可真正的分界恰恰藏在这种舒适感底下,而且会随时间越拉越开。所以面对这轮 AI,第一件要做的事不是问“我是不是也能跟着变强”,而是先把这两层看清:手里这个 AI 究竟是哪一类,以及当下的“变强感”有多少是幻觉。

把视线从模型层挪到个人层,结论也不反转。AI 能带来的至多是“入口平权”,不是“结果平权”。入口平权是更多人能用上 AI;结果平权是更多人能拿到相近的收益、地位和权力。这是两回事——人人都能用搜索引擎,但不是人人都成了研究员;人人都能发视频,但不是人人都有流量。AI 降低的是单次行动的成本,放大的却是人和人之间本就不平等的东西:认知、野心、纪律、判断、执行、资源整合、对权力结构的敏感度。

所以它不是平权机器,而是放大器:让主动的人更主动,让有组织能力的人搭起更大的系统,让本来就强的人更快甩开别人。这背后还有一层结构性的原因——只要钱、注意力、信任、地位、入口这些东西是稀缺的,人就会竞争。哪怕生产力翻十倍,人也不会停在“大家都变好了”,而是立刻去抢新的稀缺:谁控制入口、谁定义标准、谁拥有数据、谁掌握分发、谁制定规则。平权叙事最大的毛病,是把“能力入口开放”误当成了“社会结果平均”。可现实会把任何强工具重新塞进竞争结构,然后用它来扩大优势,而不是抹平优势。平权工具进入不平权的人性系统,最终只会服务于不平权的结果。

八、机会来自错位:大众信平权,少数人看见垄断

于是到了最重要的结论。平权叙事之所以要紧,不是因为它会兑现,而是因为很多人相信它会兑现——而这个“相信”本身,就制造了巨大的错位。当多数人把 AI 当成提效工具,他们就会低估它重排阶层位置的力量。消费者视角问的是“能不能帮我写作业、做 PPT、省点时间”;权力视角问的是“能不能让我一个人顶一个小团队、绕过资历门槛、建起私有数据闭环、从卖时间变成卖系统、占住别人将来必须经过的节点”。同一个 AI,两种问法,通向完全不同的人生。机会不来自 AI 平权,恰恰来自大多数人误以为它会平权。

所以个人该做的,不是投靠某个巨头,也不是觉得学会 prompt 就能翻身,而是站到新稀缺的一边。未来不稀缺的是“会不会用 AI”——所有人都会用,不用主动学也会被产品默认接入。会稀缺的是问题定义权、结果验证权、行业数据、用户入口、分发渠道、信任关系和责任承担能力。普通 wrapper 会越来越脆弱:今天你套个 API 做的小工具,明天模型公司直接覆盖;今天你靠 prompt 搭的流程,明天人人能抄;今天你微调的开源模型,明天更强的基础模型直接降维。真正有壁垒的,是别人没有的数据、别人绕不开的入口、别人替代不了的行业信任和责任位置——这才是个人版的“局部垄断”:不是垄断世界,而是在某个细分领域成为别人绕不过去的节点。

而现在恰好是个窗口。旧壁垒——学历、资历、大厂经历、地域、资本、人脉、信息差——正被 AI 打穿一部分:普通人能借它学复杂知识,小团队能做过去要大团队才做得动的产品,跨领域的人能快速拿到多个行业的工作语言。但与此同时,新壁垒也在长出来:谁能定义问题、验证结果、积累数据、控制分发、建立信任、承担责任,谁能把 AI 的输出变成可审计、可部署、可交易的系统。窗口的本质,就是在新秩序定型之前移动位置。等新壁垒固化,AI 行业也会和互联网、金融、云计算一样,重新变回资本、渠道、品牌、合规和组织能力的游戏。

结语

平权的幻觉:少数人走向高处,多数人涌入入口

这轮 AI 最迷惑人的地方,是它真给了每个人一种“我也可以”的感觉。这感觉不假,但不完整。它让更多人拿到能力入口,却不让更多人自动拿到结果;它让普通人变强,也让强者更强;它压低了执行成本,却抬高了判断、组织、数据、信任和责任的价值。

所以真正的技术奇点,从来不是某个模型在榜单上拿第一,而是内生能力跨过阈值后、外部技巧再也补不上断代的那一刻:专家任务被工业化,旧技能贬值,新瓶颈成形,而大众还在相信平权,少数人已经开始砌新的墙。

这不是悲观,是清醒。AI 不会让所有人站到同一条线上,它只会重新画线。机会,属于那些在新线画完之前就已经移动到位的人。