
编程自动化的悖论:为何代码越多,需要的“建造者”反而越多?
Harry Stebbings:Alex,我对此真的太兴奋了。我之前在参加一个PE会议(私募股权会议),我满脑子想的都是:谢天谢地,接下来我要和Alex聊,因为这一期一定会非常棒。所以真的非常感谢你来参加,哥们。
Alexander Embiricos:非常兴奋能来这里,谢谢你。
Harry Stebbings:好,这个开场可能有点怪,但你先顺着来。你会理解我作为英国人的那些小别扭。我一直对人的动机非常着迷。你更多是被“害怕失败”所驱动,还是被“赢的刺激与兴奋”所驱动?
Alexander Embiricos:我是一个极端主义者。我绝对更多是被“赢”这个想法所驱动,而不是害怕失败。但我得向你承认一件事:在我加入OpenAI之前,我曾经在运营一家创业公司,而在那段时间里我经历过的一些最黑暗的时刻之一——而且创业过程中黑暗的时刻有很多——就是我意识到,我在最初的几个月里,其实一直在努力避免失败。
然后突然之间我意识到:天哪,这就是我为什么这么不开心的原因。这大概也是这家创业公司进展不顺的原因。于是当我们做了一个转变,基本上我需要时不时“拽住自己”,把自己重新切换回“追求赢”的状态。但真正比这更能驱动我的,是我真的非常热爱“创造东西”,而且是为人们创造东西。而且老兄,我对今年感到无比兴奋,因为很多现在还不存在的、非常了不起的东西,将会被创造出来,并交付给大量的人。
Harry Stebbings:那我直接切入正题。Elon说,编程会成为最早被大规模自动化的职业之一。从你的职位和你每天看到的情况来看,你同意吗?
Alexander Embiricos:我觉得,毫无疑问,我会同意:编程确实是llm非常擅长的最早领域之一。不过你知道,“编程被自动化”到底是什么意思呢?这是一个分量很重的说法,对吧?比如说,当我们不再手写汇编语言,而是转向更高层级的编程语言时,当这个变化发生的时候,我们会说“编程被自动化了吗”?其实并不会,对吧?我们只是能够写出多得多的代码,而结果反而是,对代码的需求大幅增加,需要的软件工程师也变得更多了。当然,过去工程师做的一部分工作确实被自动化了,就像——你知道“computer”这个词最早的来源吗?
Harry Stebbings:不知道,我……
Alexander Embiricos:我可能会把地点念错,但我记得是在Bletchley Park(英国二战时期的密码破译中心),当时有很多机器用来破译德国的Enigma(纳粹德国使用的加密机)。那时候还有人类,会去打孔卡(punch cards,把数据打在纸卡上的早期数据输入方式),然后把它们放进机器里,进行大量表格式的计算。
我可能把细节说得一团糟,但核心是:当时的工作中有非常强烈、非常繁重的人工部分。甚至连最早的电子表格软件,在某种程度上,都是基于这样一个想法:你有一整个办公室,桌子按网格排布,人们在做表格计算,然后把自己的纸张传给下一个人。所以,这些事情里的具体任务后来都被自动化了。
但每一次自动化发生之后,对“产出结果”的需求都会出现爆炸式增长。即便具体的任务形式发生了变化,你实际上仍然需要更多的人来做这类工作。
Harry Stebbings:所以你的意思是,五年后工程师会更多,而不是更少?
Alexander Embiricos:对,而且有时候我们会改变一个词本身的含义,对吧?比如现在,“computer”这个词指的是完全不同的东西,而现在我们有了“software engineer”这个称呼。所以我非常确信,我们会拥有更多的建造者。
有一件我现在观察到的很有意思的事情是:人才栈正在被压缩。现在你仍然需要软件工程师,你仍然需要设计师。我是PM,那你还需不需要PM呢?你当然可以拿这个开点玩笑。
我其实不觉得你一定需要PM。当然,也许你在说“工程师”的时候,脑海里想的是一种比过去更“全栈”的角色。哪怕只是回到几年前,当时前端工程师和后端工程师的分工要清晰得多。而现在,至少如果我看看Codex团队,这种情况已经少得多了,大家更偏向真正的全栈。所以我认为人才栈会被压缩,但我们仍然会有大量人在进行创造。
Harry Stebbings:那你为什么觉得在这个世界里我们不需要PM?你这话可把我胃口吊起来了。
Alexander Embiricos:这只是我开的一个玩笑。首先,我觉得非常难定义PM是什么,或者说产品经理到底是什么。我某种程度上认为,这个角色本身就是“被明确地定义为不被定义的”,你的目标就是去适应团队或业务当下所需要的一切。
而且你知道,很多时候,如果你有一群人,比如像我们现在这样,试图以最快的速度去构建产品,那么产品经理能做的事情,就是花时间后退几步,试着“看向拐角之外”,弄清楚接下来该做什么,和市场团队协作,走向市场,或者成为团队里最大的拉拉队长和质量把关者。
但我刚才描述的所有这些事情——也就是我现在所做的这些事——其实完全可以由一个非常强的工程负责人,或者一个对产品有深度思考的设计师来完成。所以我认为,产品经理这个角色通常是有用的,但在团队真正变得很大之前,你可能并不需要太多。
超越算力迷思:人类的“打字速度”才是AGI真正的瓶颈
Harry Stebbings:我过去几天真的把你“扒了个底朝天”,这是一场非常有意思的探险——深入读了你的文章、你的推文,还有你之前的访谈。你曾说过:人类的打字速度和验证工作,才是通向AGI的关键瓶颈,而不是模型算力或架构。
但你当时就停在那儿了,我当时就在想:帮我理解一下,为什么“人类打字速度和验证工作”会是关键瓶颈?你真正想表达的到底是什么?
Alexander Embiricos:当然可以。好,这个问题很有意思。我觉得瓶颈其实有很多个,但这个可能是最“标题党”的那个。如果你不介意,我稍微用一点苏格拉底式的方式来问。你觉得你今天一天大概会用AI多少次?
Harry Stebbings:每天30次以上。
Alexander Embiricos:好,明白。那你觉得——假设你完全不需要付出任何精力——AI每天可以帮你多少次?
Harry Stebbings:我是说,在所有事情上,我觉得它会24小时全天候地运行,覆盖每一件事。
Alexander Embiricos:完全正确。而且我现在从工程师那里听到一些说法——无论是在OpenAI内部还是外部——他们会跟我说:“我一直让Codex运行着,我从来不关电脑。如果在开会的时候它没有在跑,那我就是在浪费时间。”“我得确保Codex随时都有活在干。”这真的非常酷、非常令人兴奋,但这其实是很多工作,对吧?要去管理这些东西、管理这些agents,并确保它们一直在运转。
再回到你刚才说的“每天30次”这件事。当我们看Codex用户实际使用Codex的频率时,大概也是这种“几十次”的量级。但我认为AI本来应该每天帮我们成千上万次,当然前提是算力预算允许,而我们也会随着时间慢慢走到那一步。
但问题在于——至少以我自己为例——我就在做这件事,我也知道我应该在所有事情上用AI,但我就是太懒了,懒得打那么多prompt。我也不够有创造力,想不出AI所有可能帮到我的方式。于是我最后用AI的次数,其实和你差不多。
甚至我现在还停留在这样一个阶段:当我用AI做了一件很酷的事情,比如为这次和你的对话做准备,我还会有点为自己感到骄傲。
我会觉得:“哦,挺酷的,我又用了一种新的方式来用AI。”这对你我这样对这个话题非常感兴趣的人来说没问题。但我不认为,大多数人如果想从AGI中受益,就应该被期待去付出这么多努力来研究“如何使用这个工具”。
它对他们来说,应该是毫不费力的。所以我认为,我们真正想要到达的世界是:你在使用AI时,根本不需要琢磨该怎么prompt。一切都应该对你来说非常简单,你甚至不需要意识到“AI可以帮我”,它只是了解你、连接到你的上下文,然后恰到好处地主动帮上忙。
Harry Stebbings:这也是为什么我觉得Claude在“包装”这件事上做得很好。他们做了Claude for Legal、Claude for Excel,你可以直接把它嵌进去,然后生成一个DCF模型。我对模型本身不太感兴趣,但这确实比以前人们能做到的要好得多。那你觉得,你们的工作是不是就是把prompt和人类的操作“产品化”,从而消除这个瓶颈?
Alexander Embiricos:对,完全是。我认为我们的工作,就是确保模型本身具备极强的能力,然后最终走向一个高度产品化的世界。在那个世界里,你可能只有一个“魔法文本框”、或者一个语音输入,或者随便什么形式,甚至你只需要把AI加进一个群聊里,它就会开始帮忙。但我觉得,中间其实有一个非常有意思的过渡阶段,而且我认为,当下最大的价值其实就在这个阶段。
我解释一下我的意思。你当然可以尝试把AI的某一个具体能力,产品化给某一个具体市场——很多公司正在这么做。但问题是:到底什么会真正奏效,其实很难判断。正确的产品状态到底是什么?你之前播客里有一位嘉宾提到过一件我觉得很有意思的事情:他说,企业如果不配备FTEs(全职员工),就无法真正采用AI。
Harry Stebbings:对,那是Invisible AI的Patrick。
Alexander Embiricos:对。尽管我现在确实在招聘FDEs(前线部署工程师),而且如果你是FDE,请一定来申请我的岗位,但我其实完全不同意那个观点。我认为我们需要做的,是构建工具,让像你这样的人,可以像Fitzpatrick在播客里说的那样,使用FDE来自动化工作流。但这样一来,你就会受限于:你从自上而下的视角能想到什么,以及你通过FDE编制,能够实际搭建什么,对吧?
但对我来说,AI最令人兴奋的未来,是每个人都感觉自己像个“超人”。是被AI全面赋能的状态。而要做到这一点,我们需要的是面向个人用户的工具,让每个人都觉得自己对AI是“流利的”。
所以我认为,当下这个阶段最有意思的地方,正是在于:为那些有兴趣探索“如何使用AI”的人而构建工具。这也是为什么,我觉得当Claude Code第一次发布时,真正做对的一件事是:他们提供了一个极其容易使用、适用于任何上下文的工具,就直接在你的终端里。于是人们开始实验:到底可以在哪些地方用它。
当我们思考AI如何被用于“非编程工作”时,最重要的一件事,不是过度地把它限定成:“这是AI的能力,但只适用于金融”、“只适用于某一个特定工作流”,而是要构建一个更加开放式的工具,让人们可以在任何任务中,创造性地使用它。
Harry Stebbings:但这样一来,不就又把负担、努力和责任重新推回到用户身上了吗?这不正好回到了你所说的那个瓶颈———人类需要采取行动,而人类往往既缺乏定义任务的能力,也缺乏去做这件事的意愿?
Alexander Embiricos:是的,我同意。这正是为什么我认为它是瓶颈。基本上,在我脑海里,这里存在三个阶段。
Alexander Embiricos:首先,让agents在软件工程和编程领域真正跑得很好,因为llm(此处原文用语,指一类语言模型)恰好非常擅长这一点。接下来,我们会意识到:要让一个agent在更通用的场景中真正有用,“会用电脑”这件事极其重要。同时,我们也会意识到:所有的agents本质上都是编程型智能体,因为编程是agent使用计算机的最佳方式。
所以,让我们把同样这种极其灵活的理念,开放给任何一个对探索和折腾感到兴奋的人。我们已经开始看到人们在Codex app上这样做了。比如说,Codex app是为软件构建者打造的,但我们看到构建者们正在用它完成各种各样与编程无关的任务。
然后,最后一步,当我们看清楚什么是真正有效的,我们就去做你刚才提到的那种产品化。你会拥有一些高度具体的功能,开箱即用,立刻生效。而且我认为,我们会在接下来的一个月里,把整个“1、2、3”的路径直接速通。
Harry Stebbings:我对你刚才关于 FDS(原文用语,泛指部署到前线的技术角色)以及在企业内部实施的说法,有一个挑战。那就是:数据安全的敏感性、权限访问和授权配置真的难,而且我觉得,人们其实远没有我们想象中那么聪明、那么自信,尤其是在大型企业里。
我的意思是:我认为你确实需要一个FDE(前线部署工程师)进场,去为大量不同的横向解决方案做定制适配,才能真正跑起来。我说错了吗?
Alexander Embiricos:如果你的目标是从0到1一步到位,而且你有一个——我这里不是贬义——一个宏大的愿景,想要构建某种“终极工作流自动化系统”,那是的,你确实必须跨过所有这些安全门槛、合规门槛——而且这些门槛都是真实存在的,对吧?
你得去连接各种数据系统、各种权威数据系统。所以,是的,你需要NFD(此处原文用语,语境中指前线部署类工程角色)来完成这些事情。
但我看到的情况是:当我们完全自上而下地做这些事情时,往往会极大地低估和浪费AI的潜力,也无法真正帮助到这家公司。当然,你也许可以并行推进这些事。但如果你只是把AI直接交到真正做具体工作的那群人手里,他们就能开始建立起一个“AI能如何帮助我”的心智模型,并且同时开始把AI拉进自己的工作流里。
这里我打个比方。想象一下,你在做客户支持相关的工作,AI被引入你的岗位,并开始自动化你工作中相当有分量的一部分,但你从来没听说过ChatGPT,甚至你也不被允许使用它。在这种情况下,你对这个东西几乎没有任何直觉理解。
而在另一个世界里,你一边在工作中使用ChatGPT,一边看到自己的一部分工作正被自动化,你对这套系统的运作方式就会有强得多的直觉。我会认为,在这种情况下,你会感觉自己被极大地赋能,你会觉得这是一次加速,而且你在某种程度上,可以影响和引导这些自动化被构建的方向,而不是感觉这一切像某种完全“ex machina(机械降神,指突如其来、不可控的外力)”的东西,让人感到被剥夺了力量。
所以拉回到我们刚才的话题:我认为,这件事是有解法的,尽管你提到的数据控制问题确实存在。但归根结底,每一个工具、每一个功能、每一个工作流,都是为“人”服务的,而这些人,是某个组织里的员工。这些员工最终都是通过浏览器,或者通过本地文件系统来访问工具的,对吧?
所以说到底,一切最终都会收敛到某种界面,而一个运行在你本地计算机上的agent,是可以与这些界面交互的。我认为这一点其实非常不寻常。
比如在OpenAI,我们正在构建一个浏览器项目代号。你可能会好奇:为什么要做浏览器?原因有很多,但我认为其中一个关键原因是:通过构建浏览器,并且对其进行端到端的严格控制,我们可以为企业构建安全的智能体式浏览。这是一种访问方式,可以让agents去访问那些尚未由FDs构建完成的系统。
Harry Stebbings:我现在脑子里有太多问题想问你了,在我跑偏之前我想拉回来一点。你之前提到,有些工程师甚至不关电脑,因为他们不想在构建时损失任何一点生产力,尤其是在使用Codex的时候。你们和Cerebrals达成了合作,而Cerebrals显然是目前推理速度最快的提供方。我觉得这对双方来说都是一次巨大胜利。我直说吧:对于开发者来说,在使用Codex以及AI编程的未来中,“速度”到底有多重要?
Alexander Embiricos:呃,简单的答案是:它极其重要。
Harry Stebbings:那这会不会变成一种“推理垄断”?也就是说你们现在拥有这个能力,而竞争对手没有?
Alexander Embiricos:这只是我个人的看法,但我并不认为最终会走向那种垄断式的世界。我觉得竞争压力会非常大,这件事最终会有多种不同的解决方案。不过我可以说的是,关于这次合作,我们很快会有一些消息发布,我对此真的非常兴奋。这会非常棒。
即便如此,GPT5.3Codex这个模型本身,就已经比之前的模型高效得多。而我们收到的反馈是:人们现在真的感觉它在速度上已经非常有竞争力了。所以有很多事情是你可以做的。一方面是模型本身,另一方面是你如何去做inference(推理)。
我们最近就上线了一项改动:在API中,这些模型的服务速度提升了大约40%;而在Codex中,速度也提升了大约25%。所以我认为速度非常重要,而且我们正在从所有维度推进这件事:包括硬件层、inference方式,以及模型层。
Harry Stebbings:你之前提到过把AI交到用户手里。我们刚才也聊到了inference。我有一位很好的朋友,Jason Lemkin,来自zasta,他说:inference正在成为新的销售和市场。也就是说,你不再是为销售和市场团队付费,而是为inference付费,让用户可以快速上手、迅速看到价值,最终你甚至会看到销售和市场团队被移除。这有点像下一代的PLG(Product-Led Growth,产品驱动增长)。
Alexander Embiricos:我不知道,我对这个观点其实有点不确定。我认为,从根本上说,在这样一个任何人都能构建东西、而且构建门槛越来越低的世界里,真正困难的事情是什么?是与客户建立良好的关系,是理解他们真正需要什么。而这件事,和以往一样困难,甚至可能更难,因为市场里可供选择的东西实在是太多了。
其他依然困难的事情还包括:构建“正确的产品”,以及构建“高质量的产品”。但回到销售和市场这个话题,我并不认为它们会消失,因为就像我刚才说的,随着任何一个市场里的软件数量不断增加,这件事只会变得更难,而不是更容易。
告别IDE与结对编程:开启“任务委托”与Agent协作的新纪元
Harry Stebbings:我能不能问一下:你们现在内部的代码里,有多少是由Codex生成的?我记得之前在Claude for Work的讨论里,Boris说几乎是100%,或者接100%。那你们内部的coded-aperture(原文用语,指内部代码生产情况)大概是多少?
Alexander Embiricos:那我先说我自己,再说整个团队的情况。我会说,我认识的大多数人,基本上已经不再打开编辑器了。
而这是一次阶跃式的变化。它其实是逐渐发生的,但我认为,外部市场真正感知到这个变化的时间点,是GPT5.2Codex发布的时候。那一刻,模型突然在长时间运行、端到端处理任务、管理上下文以及遵循指令方面都变得好得多。于是我们看到了这个拐点,而这也正是我们构建这个app的部分原因。
所以,整体来看,在GPT5.2Codex之前,我们用来写代码的AI功能更多像是自动补全,或者你是在和模型做结对编程。在我看来,那时你仍然需要坐在电脑前、手放在键盘上,模型也许会出去做一点小活,但你仍然需要在场、主导整个过程。它只是帮你处理一些小事情。
而到了2023年12月GPT5.2Codex的时候,我们基本上切换到了另一种模式:“我会把这个任务完全委托出去。”不是马上让它写,而是:先和它一起制定一个plan,确认我们认可它将要执行的spec(规格说明),然后我就让它自己去“慢慢煮”。这是一种完全不同的工作方式。
而且这件事真的就在我们对话的当下还在变化。所以,我们上周发布这个Codex app的部分原因,就是我们想构建一种产品形态或用户体验,让“委托”这件事比“结对”更加自然、更加符合人体工学。也就是:你可以同时把任务委托给多个agents。
所以即便是在OpenAI内部,这件事也正在发生巨大的变化。我没法给你一个精确的百分比,但我会说:绝大多数代码都是由AI写的。而且现在,大多数人甚至都不会再打开IDEs(集成开发环境)。如果他们真的打开IDE,可能只是因为你想“掌控接口”,对吧?比如你会帮忙把两个模块之间的接口梳理清楚,然后让AI把剩下的部分补全。或者你想和AI一起协作制定一个计划,然后再让AI去填充实现。但代码本身,已经不再是由人类来写了。
Harry Stebbings:那在24个月后,IDE还会是技术栈的一部分吗?
Alexander Embiricos:好,那从形式定义上来说——集成开发环境,这个词本身就非常模糊,几乎任何东西都可以被称作 IDE,对吧?所以我觉得这个定义本身并没有太大意义。
如果你这么定义,那你甚至可以说Codex app也是一个IDE。但我个人并不这么看。在我看来,IDE是一个非常强大的编辑器。而我们在Codex app里刻意没有加入文本编辑功能,因为我们希望非常清楚地传达:你应该如何使用这个工具。它有大量用于管理多个agents、进行委托、审查变更的能力。它还有非常显眼的技能——这是一个开放标准,非常适合用来做非编程工作,比如调试任务、监控部署之类的事情。但它不提供文本编辑。
Harry Stebbings:如果我们假设,大部分代码都是由Codex生成的,那你们是如何做代码审查的?AI会负责内部的代码审查吗?
Alexander Embiricos:这里有几个层面。首先,你要做什么的spec(规格说明)或plan(计划),变得前所未有地重要。也就是说,要从架构层面思考:这段代码应该如何运作?
我们最近上线了一个非常显眼的plan mode,它和其他工具有点不一样:你会让agent先出去,提出它打算如何完成这件事。这是一个相当长的计划,然后它会问你:你是否同意它的执行方式?或者你是否想提供一些输入?
这非常类似于:如果你新招了一个工程师,他刚加入你的代码库,在真正开始干活之前,需要先向团队提交一份RFC(请求评审文档)。所以,尽管这并不算是传统意义上的code review,但我认为,对“计划”的审查正变得越来越重要,因为我们正在进入一个以“委托”为核心的agent协作阶段。这是一个被严重低估的点。
Alexander Embiricos:然后——真正的代码审查。我听到很多人,尤其是在开源世界里,都在抱怨一个问题:大量的AI slop(AI垃圾代码)。人们会直接往开源仓库里提PR(Pull Request),但这些PR很烂。提交的人可能根本没有测试过,甚至也没有审查过代码。我认为这是一个真实存在的问题。
因此,在Codex的常见实践中,就是让Codex审查它自己生成的PR或修改。而Codex在这方面真的非常强。我们明确地训练过模型,让它擅长做code review。这包括:让它擅长给出高信噪比的反馈,也就是说,它几乎不会给出误报的批评。这意味着,当它真的给出反馈时,你是可以高度信任的。
所以我们不仅鼓励团队内部和外部的人直接让Codex来review,你甚至还可以把它设置成自动审查。在OpenAI,几乎所有代码,只要你push到Git repo,都会被Codex自动审查。事实上,有一个挺有意思的现象:一些还没怎么用过Codex,或者很久没用的人,会用Codex去审查其他模型写的代码。结果他们往往会说:“靠,我可能真的应该直接用Codex来写代码。”
Harry Stebbings:你刚才说了一点很有意思:对于那些可能还没试过,或者正在回归使用的人来说,你是如何看待这个品类的留存的?我记得Tom Blomfield(YC合伙人)几个月前发过一条推,一直让我印象很深。他说了一件很奇怪的事:在不同提供方之间切换的成本其实非常低。无论是Cursor、Raw Code,还是Codex——老实说我已经记不清他当时具体说的是哪个了。那用户到底有多“粘”?你们又是如何思考留存的?
Alexander Embiricos:我们在Codex上采取了一种有点反直觉的做法:就是把它构建得非常开放。比如说,Codex的核心执行框架是开源的,而且我们一直在努力让切换成本变得更低。
举个例子:当我们去年首次发布Codex时,我们确立了一个约定,叫agents.md。这本质上是一个文件,你可以在里面给agent写指令。我们没有把它命名成Codex.md,因为我们希望它是所有agents都可以使用的通用标准。现在,几乎所有agent都在使用agents.md,除了Claude(这其实也挺酷的)。
就在上周,我们还推动把skills(技能)——也就是我们用来给agent提供指令和脚本的标准——放进一个中性命名的文件夹,叫agents,而不是codec之类的名字。结果,除了“老熟人”之外,几乎所有人都跟进了。我觉得这对开发者来说非常棒,他们拥有了更多选择,而我们也在努力让他们更容易尝试不同的东西。
当然,话说回来。这些编程任务——也就是你让agent写代码的场景——其实是非常“密封的”。我的意思是,如果用电视剧来类比,它更像是单集剧。你有一个开放的agent文件,任何agent都能读;你有skills,任何agent都能用;你让agent写代码,它生成一个patch,然后这个patch进Git。
所以在这个流程里,前后两端都非常中性、vendor-neutral,这使得在不同工具之间切换非常容易,但当agents开始做的事情不再只是写代码,而是更通用的工作——无论是为软件工程师,还是为任何builder,它们就必须开始和其他系统打交道。
比如,你的agent开始和错误监控系统对话,或者和Google Docs之类的系统交互。那我认为,这些agents就会变得非常“粘”。因为,一旦你决定把agent接入这些系统,这本身就是一个高粘性的决策。
如果你是一家企业,真正去信任一个agent,让它访问这些工具,同时确保它有可靠的安全护栏、sandbox(沙箱环境)和控制机制,我认为这是至关重要的。而且这件事,你不会想反复做很多次。所以我们在构建Codex的时候,就已经预见到这一点。因此我们采用了最保守的sandboxing(沙箱隔离)方案。Sandboxing本质上是一整套操作系统层面的控制,用于限制agent能做什么。
Harry Stebbings:但我是《Seven Powers》这本书的粉丝——这是一本非常棒的书,讲的是企业如何通过七种方式积累价值与可持续性。其中一个就是粘性和留存。如果我们现在站在同一阵营、一起做Codex,我们该如何创造真正的留存模式、行为和机制,确保用户会留在Codex,而不是在出现更好模型时转向Cursor,或者Claude Code?
Alexander Embiricos:是的,这点很有意思。一方面,当然,我们是在经营一家企业。但另一方面,我们的使命是确保将AGI的益处安全地交付给全人类。所以,关于Codex团队,有一件事对很多人来说其实是不太直觉的。
Harry Stebbings:你其实——我知道——你的工作就是让Codex成功。
Alexander Embiricos:我们的工作是“智能的分发”(distribution of intelligence),对吧?所以我们当然在构建Codex,而这对很多听众来说是非常反直觉的。但事情是这样的:我们投入了大量精力去训练这些模型,然后又把这些模型提供给我们的竞争对手使用。而从我们的视角来看……
Harry Stebbings:作为一名风险投资人,这件事对我来说真的太难理解了。你意识到这一点吗?
Alexander Embiricos:我完全意识到这一点。OpenAI是一个非常有趣、也非常不寻常的工作场所,但本质原因在于,我们是在打一场非常长期的战役。对我们来说,如果竞争对手变得更强,我们反而能从中学习,这实际上是对我们有帮助的。所以我们在非常用力地推动Codex的增长,因为——
Harry Stebbings:如果他们是封闭的、自己变强了,你是学不到东西的。
Alexander Embiricos:我并不这么认为。比如说,最近有一系列发布,甚至就在今天早上,我真的刚刚quote tweet了一条关于Warp的新发布(没有任何利益相关)。他们在“代理如何同时在云端和本地运行”这一点上的设计方式里,有很多很酷的想法。对我来说,这是非常有启发性的。我从各家公司身上看到这些东西。而这个领域最酷的一点就是:我们几乎不可避免地在一起得出相同的结论。
然后在Codex团队内部把这些东西真正做出来。我们确实有一些巨大的优势:我们有ChatGPT带来的巨大分发优势;我们有训练自有模型的能力优势;我们能让模型在我们自己的harness(模型运行与评测框架)里表现最好,同时也不断让harness适配新模型。而这些,没有任何其他人能提前接触到。所以我认为我们是在“为了赢而打”,我们有非常明显的一系列优势;但与此同时,我们也在打这场长期战:把模型服务给所有人,推动开放标准,让所有人都能使用我们正在推动的这些东西。
Harry Stebbings:我想问你一个问题:什么才算“赢”?我知道我在用风险投资的语言,而你们的视角更自由、更开放。但如果我一定要逼你回答——真正决定胜负的,是GTM(go-to-market,市场进入与销售执行)吗?毕竟,全球的大型企业都想和OpenAI合作,我在你们销售团队里有很多朋友,来自顶级品牌的inbound(主动咨询)非常惊人。
所以,是GTM?还是因为品牌与产品执行力?还是因为Codex本身就是一个他妈的好产品?还是计算力/推理速度上的真实优势?哪一个才是“定义性的胜利因素”?
Alexander Embiricos:好,如果从OpenAI的整体视角来说——当然,这已经远远超出我的职级了——我会说是算力优势(compute advantage)和拥有最好的模型。而为了实现这一点,我们必须构建能够产生收入的业务。
另外一件非常有意思的事情是:Codex团队是一个研究与产品高度融合的团队,而通过打造成功的产品,我们反过来对模型改进施加了巨大的压力,让模型进化得更快。这是从公司层面的视角。
如果回到产品层面,最重要的一件事就是:做出一个人们真正想用的好产品。就像我之前说的,我们非常希望先为“个人”构建产品,让人们对这些产品变得足够熟练,然后再把自动化拉进来。这听起来可能有点反直觉,但我认为它带来的影响力,会远远超过那种只从“企业工作流”视角出发的方式。这本质上是一个产品执行问题。
当你进入企业市场,GTM就非常重要了。我吃过的一个大亏是:如果你只是走进一家企业说——“嘿,我们在这儿,你们随便用吧。”那是行不通的。你需要大量的教育、配置支持,以及对整个团队的赋能。真正有效的方式更像是:去pitch,去见developer experience的负责人,理解他们希望团队如何运作,然后给他们工具,把这种运作方式扩散到整个组织。
Harry Stebbings:你刚刚提到了收入,这是衡量一家企业的一个指标。那如果你坐下来和BA(Brad或其他高管)说:“这是我们现在真正要优化的东西。”你的最核心指标是什么?
Alexander Embiricos:其实不是收入。最核心的指标是活跃用户数。
Harry Stebbings:你们怎么衡量活跃用户?
Alexander Embiricos:我们看的是周活跃用户。定义非常简单:这个人这一周有没有在产品里完成一次“交互”(turn),比如发出一个prompt。
Harry Stebbings:你觉得周活跃够频繁吗?如果这是在替代IDE(集成开发环境),daily active(日活)是不是更合理?
Alexander Embiricos:我觉得很快就会是日活更合理。我们现在用周活,更多是历史原因,一开始这样是合理的。但我同意这个批评。我们需要进入一个世界:对于任何一个任务,你的第一反应就是“让一个agent来帮我”。
就像Google Search一样:任何事情,我先打开搜索框;ChatGPT出现后:任何信息问题,我打开这个输入框;而我认为今年的下一阶段是:任何任务,不只是获取信息,而是“做事”,我都走向这个输入框,然后某些事情开始发生来帮我。
Harry Stebbings:你刚刚提到ChatGPT作为界面。我对此非常着迷,因为它对忙碌的人类来说似乎是一个极其高效的输入方式。但我和Andreessen的GP(普通合伙人)Akaya聊过,他说:不不不,这个东西是Sam和Elon为高效人群设计的,而地球上大多数人更想要基于浏览器的探索式交互UI。你认为ChatGPT会成为下一波AI与人类交互的长UI吗?
Alexander Embiricos:简短答案是:是的。但实际上这里有两个层面。如果你想象未来——比如一部科幻电影——AI会是什么样?我认为科幻作品往往是未来的一个很好预测器,而答案通常非常简单。它就是一个你可以随意交谈的“存在”,你想聊什么都行。
我不应该被迫切换到“这是我的编程AI”、“这是我的销售AI”。我只想对着一个东西说话,它就帮我。所以ChatGPT或语音将成为一切的支柱。你可以把它加进任何群聊,它能自己发现如何帮你。
但如果你是一个power user(高阶用户),你并不总是想通过“对话”来中介一切。就像你有一个执行助理,但你只能通过说话和TA工作——那会非常烦。所以在某个点上,你想直接看、直接改。因此,ChatGPT会和高度定制的功能型GUI(图形界面)一起存在。
比如我:我可能用ChatGPT来做播客准备;但当我真正看产品、看代码时,我会进入Codex app深度使用。而一个市场营销人员可能只用ChatGPT问问题,然后在一个专门的广告分析GUI里工作。
Harry Stebbings:我完全理解。我想问你另一个问题:你如何看待agent-to-agent(代理对代理)的交互体验?比如一个代理替我提交差旅报销,另一个代理在合规部门审批。
Alexander Embiricos:最快的回答是:对agent来说最好的接口,通常也是对人类最好的接口。比如测试输出:如果你把所有测试结果全部打印出来,人类很痛苦,AI也一样。只输出失败测试——对人更好,对agent也更好。所以agent-to-agent的交互点,大概率会非常像“人类在循环(human-in-the-loop)”的系统。
Harry Stebbings:有人让我一定要问你:coding数据是否已经被Anthropic拿走了?
Alexander Embiricos:就我们看到的情况而言,我们有足够的数据来构建非常好的coding模型。反而更有挑战的是知识工作数据——它们根本不存在于互联网上。你可能需要付钱让人模拟工作流程;或者收购已经倒闭但有大量内部数据的公司(比如Slack数据)。知识工作任务的数据,比coding难得多。
Harry Stebbings:你们会在数据供应商上花10倍的钱吗?
Alexander Embiricos:我们的核心问题永远是:怎么跑得最快?内部搭建这些能力非常耗时,而我们团队很小。所以目前,如果要做大规模数据活动,我们通常会借助这些公司。
Harry Stebbings:在消费者侧,你们会和Lovable、Replit这类工具竞争吗?
Alexander Embiricos:目前还没有直接竞争。但我们发现,越来越多技术门槛较低的人正在开始用Codex构建东西。很多是“hello world”级别。而现在Codex已经向免费ChatGPT用户开放了一部分能力。这会让很多人用Codex做原本会去用专门工具做的事情。
Harry Stebbings:你最想做、但现在做不了的事情是什么?
Alexander Embiricos:这是个有意思的问题。说实话,这几周对我们来说都非常好。我现在对发生的一切都非常兴奋。
Harry Stebbings:这真的很有意思。你刚才说最近这几周对我们来说非常好,我也强烈地感受到了这一点。团队内部是否也能感受到这种动量的风向变化——无论是在正向周期还是负向周期中?
Alexander Embiricos:当然,我们对这一点非常敏感。如果你回顾Codex的历史,去年我们发布的第一个东西,是一个让人极度兴奋的想法。大概就是:“嘿,我们要在云端给agent一个属于它自己的电脑。你可以拥有任意多个agent,让它们并行地为你处理任务。”这是一个非常棒的想法。”但老实说,它的效果并没有我们后来发布的产品那么好,它并不是最优解。
然后从8月开始,随着GPT-5的推出,我们开始在交互式编码上非常用力地推进——而这正是当前市场竞争最激烈的地方。我们可以说是一路狂奔。我记得公开指标大概是:自8月以来,我们增长了大约20倍,而在年底阶段,从12月到现在又翻了一倍。具体数字我可能记不太准确,当时竞争基本上是势均力敌、咬得很紧。但我们在上周感受到的转折是:我们第一次觉得,我们拥有了当前最智能的模型,而这一点被“免费Codex”牢牢确立了。
此前我们收到的反馈主要集中在:模型有点慢;用起来可能没那么有趣;在我工作的时候,它和我沟通得不够好。我们正面解决了这些反馈。而且这在对比一些竞争模型时依然成立——有的模型在我们发布前20分钟刚刚上线,号称是SOTA(当前最先进)。那种感觉就像汽水一样——只爽了20分钟。与此同时,我们一直也在收到大量关于用户体验质量的反馈。
在Codex中,我们最受欢迎的使用入口一直是IDE插件,而CLI(命令行界面)相对来说打磨得没那么好。但随着App的推出,市场反馈几乎是一边倒的:这是一个非常高质量的体验。它简单、直觉(原文如此)、易用,人们非常喜欢使用它,甚至我们最大的批评者,也被转化成了用户。
再加上我们投放了超级碗广告,然后又转向免费策略。所以回到你刚才的问题:“我最想做出哪些不同的改变?”第一点是:我其实很想重新回到云端。去年我们从以云端agent为核心的策略,转向更偏向交互式体验的方向,背后的逻辑非常简单。这和我之前跟你提到的FTEs(全职人力等价)有点类似。如果你在终端用户还没有真正熟练掌握工具、还无法轻松把它用起来之前,就过早推进完整的工作流自动化,那么就会出现一种脱节,最终只剩下一个不切实际的“管道梦”,只有极少数高阶用户才能真正用好。
但一旦你建立了一个基础:人们每天都在使用你的工具;他们会对它进行配置;而且每用一次,工具就变得更好;那么再进一步让它在云端独立运行,其实只是一个非常小的跃迁。所以我认为,现在是我们重新构建云端产品、并让它与本地产品高度紧密集成的时候了。事实上,它们已经在一定程度上是集成的。
第二件我想做得不一样的事,是开始更加认真地思考瓶颈问题。今天,代码生成本身几乎已经变得微不足道了。真正困难的是:代码评审;我们如何判断代码质量是否足够好?我们如何确认自己正在做“正确的事情”?这些瓶颈依然被严重低估,也严重缺乏投入。
我希望我们能走向这样一个世界:你可以信任一个agent,让它完整地负责一个微系统或内部工具,能够独立完成完整的迭代闭环,包括吸收来自用户的反馈,而不必每一步都经过人工审查。这是一个极其困难的问题——不仅是智能层面的挑战,也是安全与控制层面的挑战。
Harry Stebbings:那我们到底应该在benchmarks和evals(评测)上放多大的权重?
Alexander Embiricos:我觉得这个答案你可能会觉得有点烦:要放“一定的权重”,但不是全部。在我看来,benchmarks在衡量“智能水平”方面非常有用,尤其是在eval还没有被刷爆之前,当你看到这些基准测试出现实质性进展时,它们非常有价值。
但你必须把这一点和另一件事结合起来看:“使用这个模型的感觉如何?”而这一点,完全是感觉驱动的。无论是和内部同事交流,还是和模型的客户交流,我总是会感到惊讶——人们对模型的评价,在很大程度上是基于感觉的。
智能分发的终局:当AI成为像Slack一样的“工作重力中心”
Harry Stebbings:生活本身就是vibe驱动的。人们更愿意和自己喜欢的人一起工作。从投资的角度来看,我需要思考这个市场最终会走向怎样的终局状态。它会像Uber和Lyft那样,绝大多数市场集中在两家公司手中?还是会像AWS、Azure、Google Cloud那样,形成33/33/33的格局?
Alexander Embiricos:我认为最终可能会是更少的参与者,在长期捕获绝大部分价值。原因在于——也许这个观点有点“辣”,但我认为我们正处在一个暂时性的阶段。现在,agent在coding方面非常强;如果你回看去年,可能很多人以为agent也会在其他领域同样强,但那并没有发生。
所以从整个行业来看,我们目前只有coding agents拥有PMF(产品市场匹配)。此外还有一些非常狭窄的使用场景,比如客服。但我认为这很可能只是暂时的。从长期来看,我们会拥有那种几乎什么都能帮你做的agent。你只需要和一个超级助手对话;如果你在某个具体职能上需要深入操作,再进入对应的UI。
在那样的世界里,你并不希望公司里有12个agent,让员工自己去搞清楚该和谁对话。因为那样他们无法形成熟练度,而如果没有熟练度,他们也不会把自动化真正引入自己的工作。但如果你有这样一个“什么都能聊”的统一入口,新员工入职时只需要被告知:“你有任何需求,就去跟它聊。”那么人们就会形成肌肉记忆,它会成为工作的重力中心,自动化也会自然地被引入。
作为构建ChatGPT的团队,我们在交付这种未来形态上处在一个非常有利的位置,我打一个可能有点牵强的类比。我以前在Dropbox工作,那是在Slack还没有真正崛起之前。当时我们曾经思考过一个问题:人们到底应该在Dropbox的文档里评论,还是应该去Slack里讨论这些文档?
从理论上讲,在Dropbox里直接对视频的具体时间点、或文档的具体位置进行评论,是更高效的。但现实中我们看到的是:Slack成为了人与人交流的绝对重力中心。没有人真的想在文档里评论,我只想直接在Slack上跟你说。于是我们看到,即便效率更低,事情还是会被强烈地拉向Slack。
我认为agent也会发生类似的情况。如果有一个agent几乎什么都能用,它会形成巨大的吸引力。人们会讨论如何最好地使用它,团队之间会分享最佳实践,围绕它举办hackathon,最终你只会剩下少数几个这样的agent。
Harry Stebbings:你刚才提到,除了coding之外,agent的使用并没有真正大规模扩散,而客服可能是一个例外。我的问题是:假设我今天是一名投资人,我在寻找那些能够长期积累价值、并为客户提供卓越产品的公司。现在市场上有一种看法认为:大型SaaS公司的收入耐久性已经为零,SaaS已死,因为模型提供方——比如你们、Anthropic等——会“来抢我们的饭碗”。你会给我什么建议?
Alexander Embiricos:一切最终都是为人服务的,否则还有什么意义?即便是SaaS工具,本质上也是为人类构建的。所以对我来说,我会问两个问题:这家SaaS公司是否拥有与某个具体人的关系?或者,这家SaaS公司是否拥有一个极其重要的权威数据系统?
如果它拥有其中之一,我并不认为它会消失。如果两者兼有,那就更是如此。实际上,我认为人与人的交互关系,以及系统记录的掌控权,比以往任何时候都更加重要。相反,如果一家SaaS公司只是一个“胶水层”,但既不掌控人与人的关系,也不掌控系统记录,虽然我不是这方面的专家,但我会对这种公司更加担心。
Harry Stebbings:那如果我们以这个立场来看,比如Salesforce的服务业务现在下跌了20%、30%、40%。我认为这种反应被严重夸大了。当然,也确实有一些公司是理应如此的恕我直言,我认为Dropbox现在处境非常艰难。但像Monday.com这样的公司——对于绝大多数中小企业(SMBs)和消费者而言,而他们恰恰构成了其市场的大多数——他们能不能通过vibe coding自己做一个to-do list?可以。但这样做成本高效吗?并不高效。
等你把它定制、打磨到可用状态,说实话,一个待办事项列表本身也非常简单:新增任务、完成任务、查看历史任务、给新成员分配任务。这并不难。所以最终你还是会选择继续使用现有产品。因此我认为市场的反应被极度放大了,这是一种典型的非理性反应。但我确实认为——客服领域会受到冲击,我不想待在那个赛道里。
Alexander Embiricos:我觉得这可能会改变你应该投资什么样的创始人。可能在某个阶段,作为一个产品构建者,我也曾非常喜欢那种:只要能把产品做好,其它什么都可以暂时不管的创始人。比如他们是否有清晰的客户假设、go-to-market 策略或分发能力。因为当时,构建一个好产品本身就已经非常难了。
但我认为那是一个异常阶段。放到今天,构建一个好产品相对变得更容易了,因此你更应该回到:投资那些真正理解分发、并且对特定客户要解决什么问题有深刻领域认知的创始人。
Harry Stebbings:那如果你站在我团队的角度,作为投资人,你会如何思考那些既能长期积累价值、又不会被模型提供方威胁的投资方向?比如你们显然会进入医疗、会进入coding、会进入客服,那你们不会进入哪里?Claude Code又不会进入哪里?
Alexander Embiricos:我有点想直接说:我不知道。这对投资人来说是一个非常困难的时期。市场变化太快了,很难下结论。
Harry Stebbings:这确实是一个非常难以投资的时代。我的回答其实有两个方面:第一,我会寻找那些拥有物理基础设施的领域。我不认为你们会进入能源供应。第二,是FinTech和银行集成,那些极其复杂、棘手的金融产品。我不认为OpenAI会跑去东南亚和500家银行建立合作关系。
Alexander Embiricos:是的,我基本同意。归根结底还是那一点如果你进入的是一个高度复杂、需要深度客户关系和市场知识的领域,那依然非常有吸引力。
Harry Stebbings:英国的人才战争到底有多激烈?我看旧金山,然后我会跟公司说,其实在欧洲建团队反而更好,因为在这边几乎不可能招到人才,也不可能留住人才。我是错的吗?
Alexander Embiricos:我认为现在的人才争夺战极其激烈。你知道的,显然在OpenAI,我们有一个非常强大的品牌,因此我们确实能够吸引大量人才。但即便如此,我们依然要花费大量精力去“成交”那些我们真正感到兴奋的候选人。即使是我们,也完全不是那种“你想要谁就能免费得到谁”的状态。
Harry Stebbings:我可以问一下,你们给人才的股票入场价格,对最顶尖的人才来说现在还足够有吸引力吗?
Alexander Embiricos:目前还没有任何人跟我说过相反的情况。
Harry Stebbings:在你看来,寻找“完美匹配的人”与寻找“足够好的人”之间,你们更偏向哪一边?
Alexander Embiricos:我之前开玩笑说过PM(产品经理)某种程度上是可有可无的。其实那并不是真的。你仍然需要产品人才,但我确实认为,他们必须是“完美匹配”的那种人。如果你找了一个并不完全匹配的人,他们带来的伤害可能会大于帮助。所以这也意味着,相比我以前的角色,我们现在的筛选标准要严格得多。
Harry Stebbings:假设我是一个CS学生,好吗?我在Stanford,我在Imperial,我在Cambridge,或者我在ETH这种顶级院校。站在你现在所知道的一切角度,你会给我什么建议,来帮助我规划接下来五年的职业生涯?我希望在明年进入职场时,作为一名工程师,能在AI生态中变得有价值。
Alexander Embiricos:基本上,我会说:现在可能是成为工程师的最佳时代。你拥有极其强大的工具,可以非常快地变得“非常厉害”。你进入一个复杂代码库的速度也从未如此之快,因为你可以向AI询问大量关于代码库的问题,你还可以让它帮你规划修改方案,而这些事情在过去可能需要你花上好几天去研究。
所以第一点,我会说:你应该对未来保持非常乐观。但接下来的问题当然是:当你进入职场后,你的能力不是问题,真正的问题变成了:你如何拿到这份工作?
正因为现在“构建东西”变得前所未有地容易,真正变得稀缺的是:行动力、品味和质量。所以我会强烈建议你:去不断地构建东西;展示你的主动性;展示你在“做什么、为什么做”上的品味;并且去构建高质量的项目。然后,把这些东西分享出来。你知道的,我们会收到大量主动联系——不论是通过招聘页面,还是通过社交媒体。就我个人而言:当有人给我写信,附上了一些有意思的思考,以及一个有意思的项目链接,这比一份普通简历更能吸引我的注意。
Harry Stebbings:最后一个问题,在进入快问快答之前。你之前提到过Dropbox,Dropbox的校友群体真的非常惊人,能看到那么多优秀的人才从Dropbox走出来,真的很震撼。你从Dropbox学到的、对你现在在OpenAI的思考影响最大的一条经验是什么?
Alexander Embiricos:这个我甚至不用想。这其实就是我之前跟你说过的那一点。当你在为人、为终端用户构建工具时,你必须把这个工具视为一个“system of engagement(参与系统)”。如果人们不想用你的工具,如果它没有一种“这是完成某件事最轻松方式”的自然感觉,那人们就是不会用它。
我正是通过观察Slack如何彻底爆发式增长,学到了这一点。所以现在,当我们在构建agent时,我会一直问自己:如果我们把agent纯粹当成一个工作流自动化工具来做,那启动它永远都会像拔牙一样痛苦;你得请Accenture之类的咨询公司;他们需要投入大量全职人力;整个过程会非常艰难。
但如果你能构建一个人们真心喜欢使用的系统,哪怕一开始他们只用它来完成部分任务,随着时间推移,他们会越来越熟练,你也会逐步把它连接到更多工具上,最终,你就可以一层一层地引入自动化。当然,这些路径并不是相互排斥的。
Harry Stebbings:那你觉得,今天的Dropbox要如何重新点燃增长?
Alexander Embiricos:至少在我还在Dropbox的时候,我们最独特、最擅长的一点是:桌面软件。桌面软件很有意思,它从来没有真正消失过。但现在,它是真的“回来了”。如果你是在解决生产力和知识工作的问题,确实,到处都有system of record需要去连接,但最终,一切都发生在用户的电脑上——要么在浏览器里,要么在本地应用中。
所以我确实认为:agent在工作场景中带来生产力提升的最快路径,是首先直接进入用户的电脑。和他们已有的工具一起工作,而不需要先部署FTE去做复杂配置。然后,随着时间推移,再逐步接入各种系统。如果我是Dropbox,我会思考:我们如何利用自己在桌面软件上的独特领域能力,以及“覆盖在电脑之上的协作层”,来赋能生产力agent?这个方向有点宽泛,但我认为这是最合理的切入点。
Harry Stebbings:不,我非常喜欢这个回答,也真的很感激。最后一个问题,然后我们进入快问快答,我保证。我是被教育在一个“利润率极其重要”的世界里成长的。软件的高利润率,是它成为优秀投资品类的核心原因。但现在我们看到,尤其是在推理成本极高的玩家身上,利润结构发生了巨大变化。
我应该在多大程度上暂时忽略这一点,认为成本会下降、token成本会下降,最终只要用户规模和用户喜爱度上来了,利润自然会回来?还是说,不,利润率真的很重要,你就该一直盯着它?
Alexander Embiricos:我认为这两点同时成立。成本会大幅下降。同时,如果今年是agent被广泛部署、并开始真正接入工作系统的一年,那这也将是agent被连接到各种系统的一年。而这种连接一旦发生,就会非常“粘”。所以我把今年看作是一场竞赛。你需要赢下这场竞赛,在此过程中,短期牺牲一些利润率是可以接受的。
Harry Stebbings:快问快答。我说一句简短的陈述,你给我第一反应,可以吗?过去12个月里,你在哪个问题上改变了看法最多?
Alexander Embiricos:我加入OpenAI的时候——那已经不止12个月前了——我曾以为,一年之内我们就会整天开着电脑屏幕共享,然后和一个agent直接通过语音对话。这个判断完全错了。多模态模型,支持视频和音频的进展速度比我预期得慢。相反,我们看到的是:agent通过代码与电脑交互,反而先走通了路径。这对我来说,是一次彻底的认知重构:我们如何把AI的价值带给普通人,并不是主要通过视频和音频。
Harry Stebbings:你最尊敬的、但不太为人所知的competitor是谁?为什么?
Alexander Embiricos:我脑海中第一个浮现的是Amp。我觉得你说的是Amp,它来自Sourcegraph的那群人。他们的产品有着极佳的口碑,总是在“远超其体量”的情况下打出惊人表现。但我更敬佩的是:他们帮助推动了整个agent生态的标准化,包括agents.md、.agents/skills。
正如我之前说的,这让用户更容易管理他们正在尝试的多个agent。我们发布了agents.md,他们也发布了agent.md。事实上,这一切的起点只是Quinn发了一条推文,说:“嘿,你们买了agents.md这个域名吗?我们可以统一拼写,直接标准化。”这件事看似很小,却引发了一整套社区层面的标准化,我觉得这非常棒。
Harry Stebbings:你觉得大家对Anthropic广告的反应是正确的吗?
Alexander Embiricos:反应其实非常多样。我听到的那个——我认为是对的——是这样的,一家公司在描绘一个相当悲观的未来,而另一家公司——我们OpenAI——是在告诉人们:你可以去构建、去梦想。我觉得那种回应非常精彩。
Harry Stebbings:你在Codex期间,做过的最艰难的产品决策是什么?
Alexander Embiricos:我可以告诉你一个最痛苦的。有一段时间,Codex Cloud几乎是无限使用的。不是完全免费——你需要订阅ChatGPT——但一旦订阅,你就可以无限用。我们每天都知道:只要无限制状态持续得越久,未来想收回就会越痛苦。但当时我们太专注于在其他、更有PMF的方向竞争,就一直拖着这个决定。
当我们最终把无限使用收紧到一个更合理的限额时,用户的反弹非常大。虽然真正强烈不满的只是极少数用户,他们觉得一切都应该“永远免费”,但社交媒体的噪音会被无限放大,根本不会区分具体细节。我从中学到的教训是:你不能把“无限制”这个状态维持太久。
Harry Stebbings:数据定价、祖父条款定价真的太难了。今天我们在工程和产品上做了哪些事,你觉得五年后回头看会说:“天哪,我们当时怎么会这么干?”
Alexander Embiricos:为什么不是:手动编辑代码本身?另一个可能更“辣”的是:手动管理系统的部署和监控。我基本上认为,大公司可能需要很长时间才能转向新的方式,但很多初创公司可能会直接构建在一个全新的、完全由AI管理的技术栈之上。
需要澄清的是:这个栈现在还不存在。但它会是一个fully managed AI stack,具备非常强的、确定性的护栏,控制agent能做什么、如何部署到真实世界。
最终,你创办一家公司的方式可能会变成:先找一个agent,让它开始构建东西;然后不断加入更多agent;最终,你甚至可能把联合创始人拉进这个agent协作系统。于是,你的主要沟通工具,可能不再是Slack,而是agent通信工具。你也不再需要人肉维护那套痛苦的CI/deploy流程,而是让agent来完成这些事情。
Harry Stebbings:有点奇怪的问题,但我很好奇:agent的护栏是谁来提供的?是你们吗?还是会有第三方来告诉agent:“你不能访问人力资源”,“你不能访问市场部”?你如何看待护栏的提供者角色?
Alexander Embiricos:我认为最终两种都会存在。我们在agent护栏上投入了大量精力。比如,我们几乎是唯一一家认真做OS-level sandboxing(操作系统级沙箱)的公司,尤其是在coding agents上。Windows上甚至还不存在这种能力,是我们在构建,而且是开源的。
ChatGPT还支持connectors,比如连接Google Docs,我们也在agent能对这些系统做什么上,设置了非常严格的护栏。但我也认为:仅靠我们是不够的。未来一定会出现第三方,为非常具体、非常定制化的企业需求提供护栏。那大概会是下一个创业浪潮。
Harry Stebbings:最后一个问题。如果你看向未来10年,你最兴奋的是什么?
Alexander Embiricos:这件事很可能不需要等10年。当我加入公司时,我个人的使命感是:即便是一年半前的模型,其实就已经拥有大量“能力溢出”,只是我们没有构建出合适的产品形态。结果是:像我这样的人,比我奶奶获得的好处多得多。
我最兴奋的,是找到一种AI的“形态”,能真正帮助所有人——尤其是非技术人群,尤其是年长的人。一个非常具体的画面是:有一天,我们会把一个agent加进家庭WhatsApp群,它自然地开始对家庭有用,而不需要任何人额外学习或思考。当然,还有很多实现路径,但这是我能为我奶奶想到的、最直观的一种。
Harry Stebbings:兄弟,真的太感谢你了。感谢你包容我跳跃式的问题,也感谢你的精彩分享。
Alexander Embiricos:非常感谢你。老实说,我也感谢你包容我同样跳跃的回答。
盛达优配提示:文章来自网络,不代表本站观点。