目前市场上似乎只有三类真正可行的 AI 产品

编者按: 在大模型技术狂飙突进的今天,市面上层出不穷的 AI 产品,究竟有多少是真正跑通了商业闭环的“硬通货”,又有多少只是包装精美的“伪需求”?

我们今天为大家带来的文章,作者给出了一个犀利而冷静的判断:在喧嚣的 AI 热潮背后,目前真正行之有效的大语言模型产品仅有 Chatbots、智能补全产品和智能体这三类。

文章深入剖析了这三种产品形态的生存逻辑与潜在困境:作者指出,Chatbots 虽然受众最广,但面临着“与模型本体竞争”的尴尬局面,且聊天界面在特定场景下的交互效率远逊于传统 UI;智能补全产品(如 GitHub Copilot)则通过“无感嵌入”工作流获得了成功,证明了不改变用户习惯才是最佳的赋能方式;而作为新秀的智能体,正在编码等领域通过自主规划与执行展现出巨大的潜力。此外,作者还前瞻性地探讨了 AI 生成的信息流与 AI 游戏作为未来形态的可能性,并犀利地指出了当前行业大量资源仍耗在同质化竞争中的现状。

作者 | Sean Goedecke

编译 | 岳扬

首 款基于大语言模型的产品 ChatGPT,其功能只不过是^1(译者注:文中出现的数字,为注释上标,文末可看到对应的注释内容,后同)与模型本身进行对话:换句话说,就是一个纯粹的 chatbot。时至今日,它仍然是最 受欢 迎的大语言模型产品,且遥遥领先。

事实上,考虑到该行业已投入的资金规模,有一点令人非常震惊,竟有如此多“新 AI 产品”只不过是 chatbot 而已。据我所知,目前真正可行的 AI 产品仅有三类。

01 Chatbots

在 AI 热潮兴起的最初那几年,所有大语言模型产品本质上都是 chatbots。它们虽然被贴上了五花八门的标签,也许这个 LLM 能读取你的邮件,那个能处理公司的客服文档,但核心功能始终没变:用自然语言跟模型聊上天。

chatbots 的困境在于: 最好的 chatbots 产品,其实就是模型本体。 用户想跟 LLM 对话,绝大多数需求都是通用的:问个问题、求点建议、倾诉心事,或者干点其他一百种跟你这个具体产品毫无关系的事。

换句话说,你的用户转头就会去用 ChatGPT^2。AI 实验室相比你有两个决定性优势: 第一,他们总能比你更早用上最前沿的模型;第二,他们能在训练模型的同时,同步打磨配套的聊天框架(比如 Anthropic 会专门针对 Claude Code 的使用场景来微调模型,OpenAI 也会为 Codex 做类似的适配)。

1.1 露骨的、成人向的角色扮演

你的 chatbots 产品要想胜过 ChatGPT,有一条路:去做 OpenAI 不愿碰的事 —— 比如扮演 AI 男友,或者生成成人内容。目前这类产品已经形成了一个利润可观的小众市场,它们通常依赖能力稍弱但限制更少的开源模型。

这类产品当然也存在我前面说过的那些问题。但关键在于:当你的需求就是露骨的、成人向的 AI 角色扮演,而 ChatGPT 和 Claude 又坚决不碰这块时,它们能力弱一点也无妨 —— 你能用上,就已经够了。

我个人认为,这类产品存在严重的伦理争议。但即便抛开道德层面,单从商业角度来看,随着大型 AI 实验室在成人内容边界问题上越来越“放得开”,这个细分领域也很可能被它们逐步蚕食。Grok Companions[1] 已经在朝这个方向探索,而 Sam Altman 也公开表示[2],未来 OpenAI 的模型会对生成成人内容持更开放的态度。

1.2 带工具的 Chatbots

chatbots 还有一个变体:给模型配备上“工具”。这样一来,你就不只是能和日历闲聊,还能让 chatbots 帮你安排会议等等。这类产品通常被称作“AI 助手”。

但这类产品往往效果不佳,因为精明的用户总能想办法“诱导” chatbots 调用工具。 所以你永远不敢给客服 chatbots 真正的客服操作权限,比如“给客户退款” —— 一旦你这么做了,成千上万的人立刻会摸索出越狱话术,让机器人乖乖给他们打钱。最终,你只能给 chatbots 配备那些用户自己也能完成的操作,可这样一来,你的 chatbots 其实是在跟你自家产品的原生体验竞争,而且大概率会输。

为什么你的 chatbots 会输?因为聊天本身就不是个好用的交互界面。当用户只需按下“Ctrl+加号”或点一下按钮3就能放大字体时,他们真的懒得敲一句“嘿,能帮我把字体调大点吗”。

我觉得这对工程师来说是个挺难接受的教训。我们很容易产生一种错觉:既然 chatbots 的能力提升了 100 倍,那它在很多任务上应该已经是最佳的交互方式了吧?可惜事实是,它们在一开始比传统用户界面差了 200 倍,所以即便进步神速,现在依然还是差劲一倍。

02 智能补全产品

第二款真正意义上的 AI 产品其实比 ChatGPT 问世还早:GitHub Copilot。最初,Copilot 产品(以及所有模仿者,比如 Cursor Tab)的核心理念是:使用一个快速的 LLM 充当智能自动补全工具。通过将用户实时输入的代码喂给模型,代码编辑器可以给出自动补全建议,甚至直接帮用户写完剩余的函数(或文件)。

这类产品的高明之处在于,用户根本无需与模型对话。 正如我前面所说,以纯文本对话为核心交互方式的产品界面并不是个好用的用户界面。由 LLM 生成的补全内容让用户无需改变现有工作流的任何环节,就能享受到 AI 模型的能力:他们看到的只是编辑器原本就会提供的自动补全建议,只不过强大得多。

令我有点惊讶的是,基于补全的产品在编程领域之外并没有火起来(在编程领域,它们可是一下子就创造了一个价值数十亿美元的市场)。Google Docs 和 Microsoft Word[3] 都有类似的功能。为什么这东西没引起更多轰动?

  • 也许答案是,使用这类产品的人并不活跃于 AI 在线社区,只是默默在使用产品?
  • 也许是普通的专业内容写作有什么特性,导致它不如代码适合自动补全?但我对此表示怀疑,因为那么多普通的专业内容写作,本来就是直接从 ChatGPT 窗口复制粘贴的。
  • 也可能是因为代码编辑器本来就有自动补全功能,用户对此已经很熟悉了。我敢打赌,对许多 Word 用户来说,自动补全完全是个非常新鲜且令人困惑的东西。

03 智能体

第三款真正意义上的 AI 产品是编码智能体(coding agent)。这个概念大家已经讨论了好几年,但直到 2025 年,支撑编码智能体的技术才真正变得可行(得益于 Claude Sonnet 3.7,以及后来的 GPT-5-Codex)。

智能体在交互形式上有点像 chatbots —— 用户同样通过输入自然语言与之沟通。但关键区别在于:你只需下达一次指令,模型就会带着你的初始需求“离开”,自主完成需求实现、测试等全套流程。

智能体能跑通,而“带工具的 chatbots”却屡屡受挫,核心区别在于:前者是让 LLM 自主规划并执行一整套复杂操作,后者只是让它帮你点一个按钮。 虽然单独的操作对人类来说更容易执行,但如今的智能体 LLM 已经足够聪明,能够接管整个流程。

编码智能体之所以能成为 AI 智能体的理想应用场景,有两个原因:

  • 通过运行测试或检查代码能否编译,可以很方便地验证修改结果
  • AI 实验室有强烈动机打造高效的编码模型,以加速自身研发进程

在我看来,当下这个价值数十亿美元的问题是:AI 智能体能否在编程以外的任务中发挥作用?别忘了,Claude Sonnet 3.74 发布至今还不到九个月。在这段时间里,科技行业已经成功围绕“自己领域内的工作”构建出了智能体产品。而面向其他任务的智能体产品,才刚刚起步。它们最终能否成功、又会以什么形态出现,仍有待观察。

3.1 研究智能体(research agent)

还有一类智能体不涉及编码:研究智能体(research agent)。LLM 特别擅长处理这类任务,比如“快速浏览十页搜索结果”,或者“在海量数据集中使用关键词检索某一主题的相关信息”。我自己就经常用这个功能处理各种事情。

目前已有一些基于此能力打造的 AI 产品,比如 Perplexity[4]。在大型 AI 实验室内部,这类功能往往被整合进了 chatbots 产品线:例如 OpenAI 的“深度研究”(deep research)就从独立功能,演变成了 GPT-5-Thinking 自动执行的操作。

我认为,在特定垂直领域(比如医疗或法律)打造专属的研究智能体,几乎肯定存在潜力。

04 信息流

如果说智能体是最近成功的 AI 产品,那么 AI 生成的信息流可能就是即将问世的那一个。各大 AI 实验室目前正在尝试为用户打造无限滚动、高度个性化的内容流:

  • Mark Zuckerberg 曾谈及用自动生成内容填满 Instagram
  • OpenAI 最近推出了基于 Sora 的视频生成信息流
  • OpenAI 还开始引导用户使用“Pulse” —— 一种 ChatGPT 产品内的个性化每日内容摘要
  • xAI 正致力[5]于在 Twitter 中植入无限图片和视频信息流

虽然现在这些 AI 信息流产品还没做成,但因为大家本来就爱刷手机,所以这条路只要走通了,前景就很大。在我看来,五年后大多数互联网用户每天花大量时间刷 AI 生成的信息流,这完全是有可能的。

与基于智能补全的产品类似,信息流的优势在于用户无需与 chatbots 交互。模型的输入来自用户与信息流的互动方式(点赞、滚动速度、在某条内容上停留的时间等)。用户无需改变任何消费习惯,就能体验使用 LLM 生成信息流的好处(如果有的话)。

支撑当前人类创作型无限信息流背后的技术,本身就是前沿机器学习的成熟应用。当你刷 Twitter 或 LinkedIn 时,你其实已经在和一个模型交互 —— 只不过它生成的不是文本,而是生成包含他人帖子的列表。换句话说,现有信息流系统已经能精准构建你个人偏好的高维嵌入(embedding)。从“用该嵌入表征推荐相关内容”到“用该嵌入表征生成相关内容”,这一步可能非常短。

我对 AI 生成的无限视频信息流持相当怀疑的态度,但我确实认为其他类型的无限信息流是一种未被充分探索的产品形态。 事实上,我自己就做了一个基于信息流的业余项目,叫做 Autodeck[6]5。其理念是用 AI 生成的信息流来制作间隔重复卡片用于学习。效果相当不错!至今仍有不少用户通过我的博客找到它并持续使用(当然,还有我和我伴侣自己也在用)。

05 游戏

另一种被讨论了多年的 AI 生成(AI-generated)产品形态,是基于 AI 的视频游戏。这方面最大胆的尝试是构建完整的世界仿真系统,比如 DeepMind 的 Genie[7];但也有人探索用 AI 生成游戏的局部内容,例如纯文本冒险游戏 AI Dungeon[8],或者这个为《上古卷轴》添加 AI 生成对话(AI-generated dialogue)的模组[9]。更多游戏开发者则选择将 AI 生成的美术或音频素材融入自己的作品中。

有没有可能诞生一款真正将 LLM 深度融入游戏玩法、从而带来变革的游戏产品?我不认为《ARC Raiders》仅仅因为用了 AI 配音就能算作“AI 产品”,而那些更具野心的项目,目前也还没真正跑起来。原因何在?

第一个原因可能是: 游戏本身的开发周期就长得惊人。2016 年《星露谷物语》风靡全球时,我曾以为会立刻涌现出大量像素风农场模拟游戏,但这类作品真正集中出现其实是 2018、2019 年的事 —— 做一款游戏,就是这么耗时!所以,即便现在有人已经有了绝佳的 LLM 游戏创意,我们可能还得再等一两年才能玩到。

第二个原因是: 不少玩家对 AI 其实相当反感。在游戏里加入生成式 AI,几乎注定会引发争议(虽然看样子未必致命,《ARC Raiders》的商业成功就是例证)。如果有游戏开发者干脆觉得“为 AI 创意冒这个险不值”,我一点也不会意外6。

第三个原因或许是: 生成式内容本身和游戏机制就不太搭。诚然,ChatGPT 式的对话塞进大多数游戏里都会显得格格不入。AI 聊天机器人也不太擅长“挑战用户” —— 它们的后训练目标全是“尽快让用户满意”7。不过,我倒不认为这是无法攻克的技术难题。你完全可以朝另一个方向对语言模型做后训练(只是游戏公司可能还没拿到做这件事所需的资源)。

06 总结

据我统计,目前真正跑通的大语言模型产品只有三类:

  • Chatbots,比如 ChatGPT,已有数亿用户用它处理各种各样的任务
  • 基于智能补全的编码产品,比如 Copilot 或 Cursor Tab,受众虽小但能即刻带来价值
  • 智能体类产品,比如 Claude Code、Codex、Cursor 以及 Copilot 的 Agent 模式,这类产品真正可用也就是最近六个月的事

除此之外,还有两类基于 LLM 的产品目前还没完全跑通,但可能很快会有突破:

  • LLM 生成的信息流
  • 基于 AI 生成内容的视频游戏

市面上几乎所有的 AI 产品本质上还是 chatbots(比如 AI 客服)。这类产品面临两个困境:一是得和 ChatGPT 这个更通用的“全能选手”直接竞争;二是没法放心赋予强大的工具权限,因为用户很容易就能越狱模型。

智能体类产品还很新,但在编码领域已经取得了巨大的成功。它们在其他领域会呈现什么形态,目前还不好说,但我们几乎可以肯定会在法律等垂直领域看到专属的研究型智能体。编码领域的研究智能体其实也已经有一些成功案例(比如代码审查或自动化安全扫描类产品)。

无限滚动的 AI 生成信息流目前还没真正成功,但已有数亿美元资金正在涌入这个方向。OpenAI 的 Sora 会成为 Twitter 或 Instagram 的真正竞争对手吗?还是说这些平台会推出自己的 AI 生成信息流产品吗?

基于 AI 生成内容的游戏听起来是个好主意,但到底该怎么把 LLM 融入游戏玩法,目前还没有清晰的可行路径。纯世界模型,即整个游戏逐帧由 AI 生成,如果只是作为技术演示确实很酷,但距离成为产品还有很长的路要走。

还有一件事我没提到:图像生成。这算 chatbots 产品的一部分,还是一个独立工具?坦白说,我觉得 AI 图像生成目前更像玩具而非产品,但确实有大量用户在用。如果能有产品成功区别于 ChatGPT 内置的图像生成功能,这里或许还有值得挖掘的机会。

整体来看,这种感觉很像互联网的早期时代。LLM 潜力巨大,但我们大部分时候还在重复造同样的轮子。肯定存在一些极其简单的产品创意,等它们出现后,我们会回头感慨:“这道理多明显啊,怎么当初没人立刻去做?”

这篇文章在 Hacker News 上收到了不少评论。有读者认为我的分类过于宽泛,这个批评很中肯:就像说“电力产品”只有两类 —— 一类让电机转动,一类让导线发热。

也有读者指出我漏掉了文本摘要、便捷翻译和语音转文字这些产品。我不同意这个看法:你自己有没有专门买过某款基于 LLM 的摘要、翻译或转录软件?大概率没有吧 —— 你直接用 chatbots 就搞定了,对吧?所以我认为这些是 chatbots 产品的功能特性,而非独立产品。

还有一位读者提到[11],可能有一大批“零热度”产品正在默默发展、未被大众关注。这话说得确有道理!我不知道的我确实不知道。


1 当然,这里的“不过是”一词背后,其实涵盖了训练更强模型的大量进展,以及 RLHF 方面的真正创新,正是这些才使得与纯 LLM 对话成为可能。

2 这是大多数 AI 企业项目失败的一个重要原因[12]。根据我的观察,我听到了许多对企业定制 chatbots 的不满。大家只想用 ChatGPT!

3 如果你不信,随便拿一个你用得顺手的设备(比如你的手机、汽车、微波炉),想象一下必须把每一条指令都打出来。也许非常优秀的语音识别能解决这个问题,但我对此表示怀疑。

4 我起初误写成了“3.5 Sonnet”。感谢一位读者的指正。

5 我在这里[13]写过相关介绍,顶部导航栏里也有链接。

6 不过,这可能会被另一种力量所抵消,因为我确信高管们会强烈施压要求入局,“用 AI 做点什么”。

7 如果你曾试着让 ChatGPT 给你当 DM,你就会有切身体会:模型会立刻试图向你展示很酷的东西,从而跳过了那些营造紧张感和真实感所必需的枯燥铺垫。

END

本期互动内容 ?

❓你见过哪些“看似创新、实则只是 Chatbot 套壳”的 AI 产品?它卡在哪个环节没能跑通?

文中链接

[1] https://tremendous.blog/2025/07/15/grok-companions-elons-ai-girlfriend/

[2] https://www.theverge.com/news/799312/openai-chatgpt-erotica-sam-altman-verified-adults

[3] https://support.microsoft.com/en-us/office/editor-text-predictions-in-word-7afcb4f3-4aa2-443a-9b08-125a5d692576

[4] https://www.perplexity.ai/

[5] https://www.testingcatalog.com/grok-will-get-infinite-image-gen-and-video-gen-with-sounds/

[6] https://www.autodeck.pro/

[7] https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

[8] https://aidungeon.com/

[9] https://www.nexusmods.com/skyrimspecialedition/mods/98631

[10] https://www.polygon.com/arc-raiders-ai-voices-the-finals-embark-studios/

[11] https://news.ycombinator.com/item?id=45946498

[12] https://www.seangoedecke.com/why-do-ai-enterprise-projects-fail

[13] https://www.seangoedecke.com/autodeck

本文经原作者授权,由  Baihai IDP  编译。如需转载译文,请联系获取授权。

原文链接:

https://www.seangoedecke.com/ai-products/


请使用浏览器的分享功能分享到微信等