Writing LabYC · Sequoia Digests真实 AI 智能体与真实工作:名义产出暴涨,实际价值趋零?

真实 AI 智能体与真实工作:名义产出暴涨,实际价值趋零?

Source: One Useful Thing (Ethan Mollick / Substack) 作者 / Author: Ethan Mollick 发布日期: 2025-09-29 | 抓取日期: 2026-06-19 主题: ai-transformation


一句话

Mollick 用「17 份 PPT」这个具体案例,把 AI Agent 落地的最核心风险说清楚了——AI 会无限放大「做了」与「有价值」之间的鸿沟,这正是剑桥图灵子用宏观经济「货币幻觉」框架来解剖它的切入口。


核心论点(英中对照)

  • EN: AI has crossed a threshold where it can perform "real, economically relevant work" through autonomous agents.
  • 中: AI 已越过阈值,可通过自主智能体完成「真实的、具有经济价值的工作」。

  • EN: The major reason AI lost to human experts in OpenAI's test was "not hallucinations and errors, but a failure to format results well or follow instructions exactly."

  • 中: AI 在 OpenAI 专家级测试中落败,主因不是幻觉或错误,而是格式化输出与精确遵循指令的能力不足。

  • EN: METR's measurements show exponential gains in "the length of tasks that AI can accomplish alone with at least 50% accuracy" from GPT-3 through GPT-5 across five years.

  • 中: METR 测量数据显示:从 GPT-3 到 GPT-5 五年间,AI 能以 ≥50% 准确率独立完成的任务时长呈指数级增长。

  • EN: Claude Sonnet 4.5 successfully reproduced an economics paper by independently reading the paper, opening the archive, sorting through files, and converting statistical code from STATA to Python.

  • 中: Claude Sonnet 4.5 自主阅读论文、检索数据存档、将统计代码从 STATA 转写为 Python,独立复现了一篇经济学论文的全部结论。

  • EN: "Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content."

  • 中: 「如果不认真思考我们为何要做某项工作……我们都将淹没在 AI 内容的浪潮之中。」

  • EN: The recommended workflow yields "work done forty percent faster and sixty percent cheaper" while maintaining human control.

  • 中: 推荐的人机协作工作流可实现「快 40%、便宜 60%」,同时保留人类控制权。

  • EN: "The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it."

  • 中: 「AI 带来变革性还是破坏性未来,关键不在 AI 本身,而在于我们如何选择使用它。」

  • EN: AI handling individual tasks does not equal job replacement, since employment comprises multiple interconnected functions.

  • 中: AI 处理单项任务 ≠ 取代岗位——一份工作由多个相互关联的职能构成,自动化单点并不等于裁员。

精译(高信息量段落)

1. OpenAI 专家测试——令人不安的输

OpenAI 设计了一批需要专业人士花费「四到七小时完成」的任务,受试人员平均拥有 14 年行业经验。最终人类专家「险胜」——但 AI 落败的主因并非幻觉或根本性错误,而是格式不达标、未能精确遵循指令。这意味着:AI 在「能力」层面已逼近人类专家,差距更多来自「执行规范」,这是一个工程上可以快速弥合的问题。

2. 复现经济学论文——学术复现危机的解药?

Mollick 展示了 Claude Sonnet 4.5 独立复现一篇经济学论文的全过程:自主阅读论文、打开数据存档、整理文件、将统计代码从 STATA 转写为 Python,最终验证所有结论。这一能力若规模化,可能从根本上解决学术界长期困扰的「复现危机」——大量论文结论因无人复现而悄然存疑。

3. 17 份 PPT——货币幻觉的工作场景版

Mollick 做了一个实验:把一份公司内部备忘录交给 AI,让它生成 PowerPoint。AI 轻松产出了 17 个不同版本。这个案例的恐怖之处不在于「AI 做了 17 份 PPT」,而在于:没有人问过「我们真的需要 PPT 吗?」。当生产边际成本趋零,「做」这个动作本身就会和「有价值」完全脱钩。

4. 推荐工作流——40% 快、60% 便宜

Mollick 提出三步人机协作框架:① 先把任务完整交给 AI 尝试;② 审查结果,必要时纠错;③ 若 AI 不足则人工完成。这个流程在保留人类判断权的前提下,实现了「快 40%、便宜 60%」的效率提升——是目前最务实、风险最可控的 Agent 落地路径。


金句(短视频字幕 / 标题备选)

  • "Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content." —— 「不思考为什么要做这件事,我们都会淹没在 AI 内容的洪水里。」

  • "The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it." —— 「决定 AI 是变革还是破坏的,不是 AI,是我们怎么用它。」

  • AI 落败的原因不是犯错,而是格式不对——这比「AI 会幻觉」更令人警惕。

  • 17 份 PPT,没有一份有人问:「我们真的需要 PPT 吗?」

  • 任务可以被自动化,但判断「这个任务值不值得做」,至今只有人能做。


剑桥图灵子的加工角度

反共识 / 框架重构

量化宏观透镜:货币幻觉 × 组织熵增

宏观经济中的「货币幻觉」(money illusion)是指:名义数字膨胀(工资数字上涨),但实际购买力不变甚至下降。AI 加速正在组织内部制造一个结构性的「工作量幻觉」:

维度 货币幻觉(宏观) AI 工作量幻觉(组织)
名义量 工资数字 ↑ PPT 数量、报告页数、邮件频率 ↑
实际量 购买力不变 决策质量、信息密度不变甚至 ↓
驱动力 货币供应扩张 AI 生成边际成本 → 0
受害者 误以为自己变富的工人 误以为自己变高效的组织
诊断指标 CPI / PPI 剪刀差 会议数 vs 决策速度、文档页数 vs 执行质量

组织熵增的诊断四问(图灵子版):

  1. 你们团队过去 90 天,AI 生成的文档/报告数量增长了多少倍?执行的决策数量呢?
  2. 会议准备材料平均页数涨了,但会议时长缩短了吗?
  3. 有多少 AI 产出的内容,最终进入了「无人阅读」的共享盘?
  4. 如果你的团队明天失去 AI 工具,哪些工作会停止——是「做事」还是「做决定」?

若前三问答案是「是/涨了」、第四问答案是「做事停了但决定照常」,说明你的组织已经进入 AI 驱动的熵增陷阱:用名义产出的膨胀掩盖实际判断力的萎缩。

用 17 份 PPT 类比量化:

假设每人每天生成 3 份以前需要 2 小时的 AI 文档(边际成本 ≈ 0),但组织的决策吞吐量(每周可执行决策数)固定在 N。那么:

  • 文档/决策比率 = 从 1:1 → 可能达到 10:1 甚至 50:1
  • 这就是组织层面的「名义 GDP 暴涨、实际 TFP 停滞」

这不是生产率提升,这是有组织的自我欺骗

我的判断(原作者没说,图灵子视角补充)

Mollick 的警告是正确的,但他停在了「需要人类判断」这个结论上,没有给出可量化的早期预警信号

从一手 ML 工程 + 量化宏观的双重视角,我认为:

「AI 组织熵增」会优先在以下三类职能爆发,且管理层通常是最后发现的人:

  1. 中间层汇报职能(报告撰写、会议纪要、PPT 制作):AI 边际成本 → 0,但这类工作的存在本身就是为了向上传递信息——当信息传递成本归零,「有没有人真的读了这份报告」的问题就被永久悬置了。

  2. 合规/法务/风控文档:AI 可以生成格式完美的合规文档,但合规本质是「有人对结果负责」,而不是「有文档存档」。AI 文档泛滥会制造「看起来合规」的假象,真正的风险在积累。

  3. 客户沟通/销售材料:个性化变得无限便宜,但接受方(客户)的注意力总量固定——这是一个供给侧无限扩张、需求侧(注意力)固定的市场,结局是所有个性化内容都变得无效。

诊断标准(可操作):

如果你的团队的 AI 使用量(token 消耗/文件生成数)与可量化业务产出(收入/付费用户/决策执行率)的相关性 < 0.3,你已经在熵增区间内。


短视频脚本骨架(60-90s)

  • Hook(3s): 「一份备忘录,AI 给你生成 17 份 PPT——然后呢?」

  • 冲突 / 反共识(15s): 大家都在讲 AI 提升效率,但没人注意到:当做一件事的成本趋向于零,「做了」就和「有价值」彻底脱钩了。经济学有个词叫货币幻觉——工资数字涨了但购买力没变。AI 正在组织里制造同样的幻觉:产出数字爆炸,但决策质量原地踏步。

  • 论证(30s): Ethan Mollick 在 One Useful Thing 做了个实验——把一份公司 memo 扔给 AI,让它做 PPT。AI 出了 17 份。没有一个人问「我们需要 PPT 吗?」。METR 的数据显示,从 GPT-3 到 GPT-5,AI 能独立完成的任务时长五年内指数增长。OpenAI 的测试里,AI 输给专家的原因不是犯错——是格式不对。能力差距在收窄,但判断差距一直在那。

  • 图灵子落点(15s): 从量化视角我给你一个诊断标准:你团队的 AI 使用量和可量化业务产出的相关性低于 0.3,你已经在熵增区间了。AI 能自动化任务,但「这个任务值不值得做」这个判断,永远只有人能做。

  • CTA: 「评论区告诉我:你们公司的 AI 输出,有多少真的被决策层读了?」


长文大纲

  • H2 一:AI Agent 已跨过门槛——但这不是你以为的那个门槛
  • OpenAI 专家测试:AI 输在哪里
  • METR 能力曲线:五年指数级增长意味着什么
  • 「格式问题」比「幻觉问题」更危险

  • H2 二:17 份 PPT——组织内部的货币幻觉

  • 货币幻觉的经济学定义
  • AI 如何在组织内制造「工作量幻觉」
  • 名义产出 vs 实际决策质量:两条正在分叉的曲线

  • H2 三:熵增的三个早发区域

  • 中间层汇报职能
  • 合规/风控文档
  • 客户沟通/销售材料

  • H2 四:诊断工具——你的组织在哪里?

  • 组织熵增四问
  • 可量化预警指标:AI 使用量 vs 业务产出相关性
  • 「文档/决策比率」作为新型管理指标

  • H2 五:出路——Mollick 的 40%/60% 工作流 + 图灵子的判断力优先原则

  • 人机协作三步法(原文)
  • 图灵子补充:判断力是稀缺资源,应该往哪里集中
  • 实际落地:哪些工作该交给 AI,哪些判断必须留给人

  • H2 六:对创始人 / 团队负责人的一句话建议

  • 学术复现危机的启示:AI 放大「做」的速度,人必须决定「做什么值得做」

待核实 / 风险

  • OpenAI 测试细节:文中提及「专家平均 14 年经验」「4-7 小时任务」,但原始测试报告/论文未经直接核对,引用前需确认 OpenAI 官方来源。
  • METR 数据:「从 GPT-3 到 GPT-5 五年指数增长」的具体数字未获取,抓取摘要未包含原始图表数据,引用时需注明「来自 Mollick 引述 METR」。
  • 40%/60% 数字来源:Mollick 的「快 40%、便宜 60%」数字来源于哪项研究未明确,可能是综合多项研究的估算。
  • Claude Sonnet 4.5 复现实验:具体是哪篇经济学论文未披露,无法独立核实复现结果的可靠性。
  • 本文抓取状态:Substack 内容已成功抓取,非付费墙限制内容,ok = true。但部分段落为摘要性提取,非完整原文逐字对照。