AI Coding 最全图谱:Agent 将若何颠覆软件

AI Coding 最全图谱:Agent 将若何颠覆软件

Coding 领域的投资在两个中枢变化的趋势下,底层推理引擎的合手续杰出和商场空间的变化,因此格外值得咱们眷注。LLM 作为推理引擎,coding 是最佳的哄骗场景:代码的逻辑比当然谈话更表示,施行的收尾能由 AI 自动化考据。因此咱们看到从 Sonnet 3.5 到 o1 pro,每一次模子智商的培育王人会反应在 coding 智商的培育上,这一领域的哄骗杰出就尤其显耀。

智商的合手续杰出让咱们期待软件出产经由中有专科拓荒者除外的更多用户参与进来。本次筹谋对 AI coding 领域的标的和公司进行全览,筹谋框架中除了面向 professional(专科,包括企业和沉寂)拓荒者的家具,还有 citizen(小白,泛学问责任者)拓荒者标的的公司,他们的家具重点有所各别。

面向 professional developer,咱们期待的是 coding 能比其他垂直标的更快地从 copilot 进化到 agent,何况两者共存。现阶段Cursor、Windsurf 等家具体验终点优秀的 copilot 对沉寂拓荒者的责任体验和出产力依然带来了巨大培育。而企业中有弘远的 codebase、复杂的 engineering context,以及严格的安全合规要求,这些短期之内很难快速处治。因此 agent 会在 testing、review、migration 等具体 use case 上落地,同期通用的 copilot IDE 仍能阐扬价值成为 coding agent 的责任环境。

关于 citizen developer,咱们期待软件出产现象有颠覆性的变革,出现新一代家具形态 task engine。AI coding 能使更多学问责任者的长尾需求被已矣,生成出 disposable app:随用随抛的下一代软件,每一个 app 不需要满足大宗 DAU,而是针对不同用户有我方个性化的体验,其中的内容致使可以及时生成。UI/UX 交互层面的革命是必要的,交互门槛更低的家具能允许更多用户抒发个性化需求,形成 coding agent 层面的新一代 OS。类比 PC 历史,现时的家具还在敕令行期间,咱们期待 AI coding 标的的“GUI 时刻“。

01 Investment Thesis

Coding 领域的投资主要靠近着两个大变化,底层推理引擎的合手续杰出和商场空间的变化:

1)Coding 智商是 LLM + RL 范式下智商进化最快的标的,会是从 copilot 渐进到 agent 的第一个领域。

RL 范式下,自动化考据的环境、明确的reward model 是推忠良商培育的艰辛前提。coding 即是最得当稳当这个要求的场景,很可能是 LLM 从 copilot 走向 agent 的第一个场景。o1 pro 的发布再次考据了这一 thesis。

2)Task engine 会把商场从 5000 万拓荒者拓展到 5 亿学问责任者,从 professional citizen developers。

专科拓荒者独一 5000万,寰宇上有 99%的东谈主不会写代码。但其实有好多东谈主有个性化的任务需求,得当由软件来进行程序化。之前软件行业的试错资本太高,而 AI 生成式的 task engine 能带来这么的好多软件。

想像下一代的互联网,用户在浏览器网址框输入的不再是网址,而是当然谈话 prompt,需要的内容就会及时生成渲染出来;下一代的操作系统每次灵通,王人会凭据用户近期行为和时刻环境得到最得当的内容。这里可能助长着 AI 期间 Google 的契机,成为赛博寰宇的新进口。

以上是咱们看好 AI coding 领域投资契机的根底原因,接下来先容对 AI coding landscape 中兴起几类家具的分类坐标系:

• Y 轴界说尺度:家具多猛进程地需要 human in the loop,上方家具更能端到端完成任务,下方更专注于 empower developer;

• X 轴界说尺度:家具的办法用户的拓荒智商有多强。左侧家具偏向于处事专科拓荒者,右侧偏向于处事莫得编程基础的用户。

3)Copilot for pro & Agent for citizen 是现时模子智商与家具需求相匹配的领域。

• 左下象限,Copilot for pro dev:

最近口碑优秀的家具 Cursor、Codeium Windsurf 等基本王人在这个象限。他们能在 early adopter 拓荒者圈子赢得了优秀的口碑,对用户需求的潜入分解和 Claude Sonnet 3.5 出色的意图分解智商在这里不可偏废。

他们要保合手的增长的重要问题是,优秀的家具体验能得到 indie developer 的赏玩,但这关于 enterprise GTM 仅仅必要条件,而不是充分条件。从家具到企业信任,还有 privacy/compliance 等好多复杂需求。同期最近醒觉启动加快迭代的 Github Copilot 对他们的商场空间也会压缩。

• 右上象限,Agent for citizen dev:

给频频东谈主的 coding agent 家具形态还莫得固定:几个 coding 领域的前端deployment 和 web IDE 独角兽推出了我方的家具,Vercel V0, bolt.new 能智能地生成前端 web app,Replit agent 可以跟用户多轮交互生成基础的软件;而早期的创业公司则有更革命的家具形态,websim 在模拟及时生成的 chrome,wordware 用雷同 notion 的交互使用户在其家具中创作软件。

但这个象限的契机可能才刚刚启动,因为现时的家具还痴呆于之前的念念路。可以类比施乐实验室革命 GUI 之前的敕令行期间,对大家用户的使用门槛很高,停留在 early adopter 圈子。

• 左上象限,Agent for pro dev:

要已矣这一愿景,现时的模子智商还要接续培育。泰西有>5家融资畛域上亿好意思金的公司在这个领域攻坚,因为 code token 的蹧跶量级很大,要处治的工程问题也好多。其中最重要的问题是企业 codebase context 的问题:

一方面,若何从巨大的 codebase 中作念精确的 retrieval 是个难题,在科技大厂中也不时有老工程师辞职之后之前的代码技俩难以分解的问题,AI 表面上能有更长的 context window 但现时分解并搜索的精确度还不够;另一方面,enterprise codebase 中包括了大宗公司里面的业务逻辑,需要私稀有据微调、致使 on-prem deployment。MS Stanley/Coca Cola 这么的大型企业 developer 数目是不比 Google、Meta 少的,而他们对 compliance 和 privacy 的要求高于技巧本人。

• 右下上限,copilot for citizen dev:

这一个领域依然有比拟训诫的处治决策,因尔后文的公司 mapping 中不会出现这一象限。之前几代 low-code/RPA 有不少得胜的家具,也有 UIPath 等上市公司和 Retool 等独角兽公司。但他们王人停留在 copilot 阶段,其概括现象只可援手一部分用户固定的责任流。

反而 excel 成为了最佳的 no-code 家具,匡助大部分学问责任者已矣了好多科学盘算推算和统计任务。这是一个道理的历史启示,这一代 AI Coding 家具面对的 "Excel" 是 ChatGPT 这个 5 亿 MAU 的家具,若何绕过他们的 user base 和最强模子是创业团队们要念念考和保合手迭代的问题。

02 State of AI coding landscape

据以上 thesis,咱们对扫数这个词 AI 编程图景下的创业公司进行了 mapping:

• Copilot for pro:凭据拓荒责任流可以分为 Coding、Testing、Code review 和 Code search。其中中枢价值照旧集合在进口级的 coding 部分。

• Agent for pro:这个领域有两类公司,Coding agent 和 coding model 公司。他们之间最大的各别是是否重新拓荒模子。前者是基于顶尖 LLM 之上去成就责任流和 agent,而 coding model 类公司则我方重新启动磨真金不怕火 coding-specific 模子。其中并不看好后一类,因为在 LLM 公司的主航谈上。

• Agent for citizen:这个领域的公司现时还莫得明显的不断,咱们可以分为三类。第一类是 task engine,为用户完成任求已矣 Prototype 的 Task engine 类公司;第二类是前端网页生成;第三类是 low-code 类使用“乐高”式组件搭建哄骗的家具。最终大众的办法可能王人是 task engine,仅仅现时大众选拔了不同的道路 bet on。

• Coding 代表公司:Anysphere(Cursor), Codeium, Augment

Product

专注在编程体验的家具可以分为两类:IDE 和 VSCode extension。两者有各自的上风:我方作念 IDE 能有完竣的家具开脱度和用户数据积攒,作念 VSCode Extension 则愈加敏捷、用户迁徙资本比拟低。

Cursor 团队在这里的选拔很灵巧,通过 fork VSCode 赢得了两个选拔各自的上风。Codeium 也在通过 Windsurf 也王人在往 IDE 的标的切入,因为 IDE 照旧更好的进口级家具,能我方积攒数据、有更多 feature 修改的空间,这关于家具构建我方的壁垒至关艰辛。

Cursor 在用户体验上花了好多元气心灵,作念到“快”和 next action prediction。这么用户的拓荒经由即是陆续按 Tab,参加很快得到反馈的正轮回中(快=fun,参加心流)。上个月他们收购 Supermaven,即是把家具体验中的“快”作念到极致;这意味着短期内的重点还在东谈主与 AI 的同步和谐,o1 这么的异步交互暂时还不在家具干线上。

而 Codeium 团队从 VSCode extension 启动到 IDE,体现出了和 cursor 团队念念路的分散。Cursor 更强调编程体验和对用户下一步意图的识别,Codeium 的新家具 Windsurf 更强调高自动化。他们的 Chat 功能比 Cursor 作念得愈加完善,好多用户无须 hands-on code 也能完成基础的拓荒。

同期,他们的家具还体现出了更强的对企业级需求更强的分解,营救 on-prem 私有模子和多样compliance契约。这里就要提到他们在 GTM 政策上的巨大各别。

Market

凭据 Sacra 最新文告 Cursor 家具 ARR 依然达到 $65M,也即是节略30万付用度户。由于 Cursor 的家具莫得对企业级codebase的深爱,他们的中枢用户照旧硅谷 indie hacker。那他们将来的重要 bet 是 indie hacker 是否能在扫数拓荒者比例中变高:如果 AI 家具的拓荒范式下沉寂拓荒者数目达到500万,也就等至今天扫数拓荒者的 10%,cursor 的商场空间智力达到十亿好意思金。

而企业侧 BD 和拓荒者商场的增长现象不一样,Codeium 在企业 GTM 订立单上的智商很强。因为企业数据 compliance 需求不是最顺畅的家具体验,而是在安全、合规等企业真贵的标的有。在 Latent Space 的一篇专访中 Anshul 建议了 enterprise infra native 的见识,强调了要作念钞票500强用户,需要打破硅谷拓荒者圈子的mindset:

• 安全:需要营救多种部署选项,比如 self-host 或夹杂部署;容器化部署(Docker、Kubernetes)是重要,需确保客户环境的数据遮拦。

• 合规:企业对 LLM 使用的磨真金不怕火数据有高度明锐性,需讲解未使用受版权保护或未经许可的数据;数据清算和数据开头跟踪,确保合规性。

• 个性化:数据质料径直决定个性化成果,需要对数据的时效性和相干性进行评估。,匡助企业通过 fine-tuning/RAG 写出更高质料的代码。数据预处理和基于变装的看望死心(RBAC)是重要,幸免因信息整合导致数据露馅。

• ROI 分析:生成式 AI 的 ROI 难以量化,通过提供分团队的使用数据,匡助客户优化使用成果、讲解价值。

• 畛域:企业环境复杂且畛域弘远(如数万代码库、数万拓荒者),需处治大畛域索引和延长治理的问题。系统瞎想需在高用户量、高数据量的情况下保合手高效相识。

企业侧的契机可能是更明确的低落果实,仅仅他们面对的竞争是 Github Copilot 极强的分发渠谈。面对竞争时,用 research 去处治 Github 可能作念不好的所在是至关艰辛的。

Research

这些 coding 公司不成只行为哄骗层家具公司,而是 research 和家具一体的公司。Cursor 官网称我方为 applied resarch lab,Codeium 官网博客中写了大宗对微调/RAG 技巧决策的念念考,Augment 也在 Retrieval、RL 等方朝上作念了大宗探索。

Augment 和 Codeium 更在乎的是企业级技巧决策,尤其是 Github Copilot 现时处治不好的问题。举例 Augment 在处治的事在数万个企业codebase 中奈何精确地作念好 retrieval 和交互分解。和企业文档 RAG 碰到的难题雷同,codebase retrieval 需要再行磨真金不怕火专用的 embedding model,对话、补全、跨文献生成需要的embedding 王人不一样。Codeium 还念念考好多在企业 on-prem/VPC 上部署专用 coding 模子的问题,来达到安全性和智能进程的均衡。

而关于 Cursor,强 reasoning 智商下的异步协同是筹谋的中枢标的,对应到里面技俩 shadow workspace。shadow workspace 是 Cursor 为后台 coding agent 瞎想的拓荒空间,这个空间需要能看到 agent 修改激勉的 lint 提醒信息,何况和 IDE 背后的LSP契约进行充分交互,但不去修改用户原来的文献。AI 和用户会沿途凭据 shadow workspace 下的 Lint 反馈来决定是否进行下一步的迭代。这个经由和 o1 inference time compute 雷同。

Shadow Workspace 早期架构图

• Testing 代表公司:QA Wolf, Momentic, Gru AI

Coding testing 是扫数拓荒者必经的责任流,来保证代码的准确性。其中有两个常见常见:其一是 unit test,在长短不一的系统中,代码被更新之后需要 unit test 来考据其可用性,减少其激勉随机崩溃的概率;其二是前端或哄骗拓荒中,需要对 UI 每一个功能进行交互测试。

测试任务和 codegen 的适配度也很高,因为:其写的经由是高叠加性高,且有限定可循的;而且这是东谈主类工程师不太欢畅责任的任务,大部分团队的 unit test 的苦衷率比拟低,能侧面阐述这少许。

同期 Cursor 团队在访谈中提到过 debug 对 LLM 底座颇有难度,LLM 的磨真金不怕火现象不是去发现乖张,要让 LLM 分解一个看起来不大乖张的后续要紧影响是比拟难的。因此这里能有沉寂创业公司的契机。

这个领域的代表公司中:QA Wolf 是 LLM 出现之前就有的公司,以 Rule-based 的要领就能已矣好多 test case;Momentic 是最近 YC 和 AI Grant 中贯通的技俩,更偏向东谈主和 AI 和谐对视觉家具 UI 进行测试;Gru AI 则是为 Unit Test 场景瞎想专用的 agent 来端到端企业中的测试需求。

Momentic feature from homepage

• Code Review & Refactor 代表公司:CodeRabbit

Code Review & Refactor 是拓荒者责任中比拟艰辛的质料保险责任,非论是企业照旧沉寂拓荒者王人需要花时刻 review 组织表里部的 PR request。凭据 Techcrunch,50% 的 enterprise developer 每周要花5个小时进行 code review相干责任。

这里的代表公司 CodeRabbit 不到一年的时刻内就已矣了 $100M+ ARR,是GitHub 和 GitLab 上装配次数最多的 AI app,依然review PR 300万条以上,阐述 LLM-native 家具在这个领域依然能提供可以的处事。

同期还有更大型的 CI/CD 任务可以被归类为 code refactoring,对代码技俩进行优化和重构,来处治组织中之前留传的技巧债,致使可能对技巧架构需要进行重构和迁徙,那即是 Code Migration。这么的需求也辱骂常笨重、东谈主类工程师不太欢畅完成的。因此,这成了咱们接下来先容的 Coding agent 公司最早得到 PMF 的场景。

Agent for pro

• Coding agent 代表公司:Cognition (Devin), Factory

Coding agent 公司的平均融资畛域是最大的,因为这些公司的办法是已矣 end-to-end 替代东谈主类拓荒者,已矣这个经由的工程量大、蹧跶 code tokens 数目大。这个领域的近况可能有两个要处治的问题:

1) 技巧上模子底层推忠良商不够。在企业大 codebase 中去完竣的处理问题需要很强的推忠良商,去分解用户和codebase 两头的 context,然后将任务拆解为多个处治要领。这么的 long-context + long-horizon reasoning 智商智力真确处治企业侧复杂的工程问题。

2) 家具上,UI/UX 层需要与东谈主类和谐现象的革命。既然模子的智商还没达到饱和可用,若何去 involve human in the loop 到和谐中即是一个比拟难的问题:模子碰到难的问题时是选拔 inference-time compute 作念搜索照素交给用户去介入给更多的指令和context?如果这个问题处治得不好,呈现出的成果可能是,AI 我方责任了 12 个小时之后发现安坐待毙,交给用户也很难在AI 的基础上进行修正。

由于以上问题,咱们估量现时推行能有 PMF 的场景会是 code migration,code refactoring 和 PR commit 等任务。这些任务关于拓荒者来说频频是 toil 也即是不肯意作念的事情,拓荒者专注在这些任务上以后可以把元气心灵集合在别的更有创造力的领域。因此现时 coding agent 现阶段作念得更多是从 1 到 100 的事情,还莫得到从 0到 1 的任务上。咱们看好 coding agent 在将来 2 年内会冉冉承担更多的拖累,不外那需要底层模子的智商和表层 agent 框架的共同杰出。

订价问题也很值得念念考:传统 dev tool 的订价一般是按使用者数目 seat-based 付费,关于coding agent 而言 consumption-based 付费可能是更合理的订价,优秀的、完成大宗任务的 coding agent 价钱可能值得和 junior developer 在合并个数目级。

• Coding Model 代表公司:Poolside、Magic

Coding 领域对模子智商的要求是作假足一致的,比如 code tokenizer 对代码中的变量、美艳、函数名王人要作念专门的切分,以及主流 LLM 的磨真金不怕火所以文本生成为主要办法函数,代码智商看起来是其智能的副家具。因此 Coding model 领域启动出现一些沉寂公司:

• Magic 强调格外长的 context window,能把企业中复杂的 codebase 完竣读进来处治问题,尽量幸免 retrieval;

• Poolside 强调 RL from machine feedback,能把 Git history 中复杂的工程链条完竣处治。

不外这一领域的公司在 OpenAI、Anthropic 的主航谈上,接头到 Coding 智商是模子推忠良商最佳的proxy,这两家公司的模子一定会在 LLM + RL 的范式下在 coding 智商上合手续杰出。

Autopilot for citizen

• Task engine 代表家具:Replit、Websim、Wordware

Task engine 对应的是 search engine,用户得到的不再是基于搜索重要词的网页,而是基于用户需求生成的软件。咱们界说为 task engine 是但愿弱化软件和 code 这些词带来的高门槛意味,coding 智商带来的 killer app 应该是大家用户王人挑升愿和智商去使用的。

Anthropic Artifact 和 OpenAI Canvas 在一定层面上亦然但愿能已矣这个办法,但其家具形态并不是很易用,加上用户对主家具的预期照旧 chatbot。因此现时的 task engine 还在敕令行期间,需要一个 GUI 级别的家具革命来让更多用户能分解使用。

现时这类家具的形态其实还有很大不对:

• Replit agent: cloud IDE for coding agent。家具使用 chat 多轮对话交互,每一次施行 action 王人是渐进式的,碰到问题会向用户发问来补足context、厘清需求,对话经由雷同拓荒者和家具司理对需求的经由。这种家具瞎想念念路用 alignment 处治了模子多步施行时的可靠性问题,但也要求用户对我方的需求想得比拟表示。

• Wordware: Notion for LLM app。家具完成度高,使用体验比拟像创作内容,通过 Twitter 嘲讽 bot 找到了很好的viral 增长第一枪。用 Twitter 作为增长起初的现象让东谈主想起了客岁的 Perplexity。成为增长最快的 ProductHunt 家具之后,流量启动快速下落,高度依赖头部流量家具是 Wordware 现时的挑战。 

• Websim: 用雷同 Google Chrome 的简短 UI,打造了一个用户能同期创作和消费 web app 的家具。这个家具的想象空间很大,用户可以在上头基于用户的 template 接续生成和修改,有点像 Canva 的模板化念念路。而且用户在 Websim 上打造的网站每一个超联接可以接续点击并潜入生成新的网站。不外他们的家具瞎想细节还欠打磨,有点雷同 C.ai 有一个很好的框架但在家具上不够极致。

• 前端生成代表公司:Vercel (V0)、Stackblitz (Bolt.new)

这一领域的公司之前就在前端框架和部署领域有比拟深的积攒。举例 Vercel 是 Next.js 框架的发明者,主要业务是前端网站的部署,ARR 也依然达到 1 亿好意思金以上,咱们之前有过郑重的筹谋。他们的 Vercel V0 家具一直在杰出,非论是审好意思格调照旧对话修改上的体验王人比刚发布时优秀好多。另一个很火的家具是 bolt.new,也能通过一句话把家具需求变成可以的 web app 家具。其杰出速率更快,不异的prompt 每一两周王人能看到其生成质料的杰出。

这类家具的成果依然接近可用了,不外推行合手续使用的时候会碰到一些问题。web app 生成出来的 demo 十分优秀,但由于其技巧栈比拟杂,生成的家具真确启动有畛域之后很难援助和治理。因此前端生成的将来 use case 很可能是 desposable application,这个网页的生成即是为了处事某个临时、长尾的需求,并无须为更大的群体、更长的时刻去援助。

前端是拓荒中相对好上手的领域,因此之前每一代 Low-code/No-code 王人会讲前端民主化的故事,出身了 Wordpress、Wix、Spacesquare 致使 Shopify 这么的公司。扫数这个词商场很大,但需求比拟破碎,商场头部集合度不高。AI 前端生成现时看起来很有出路,但他们是否能收拢大宗增量需求,致使代替曩昔的存量需求呢?这径直决定了其商场畛域的上限。

03 Open Discussion

1)Coding 智商的民主化?不,是软件工程的民主化。

技巧会带来一个领域的民主化,这是好多领域王人发生过的故事,举例 Canva 成为了瞎想师民主化的一站式模版和瞎想平台。而拓荒领域是否会有这么的民主化故事呢?

咱们合计 Coding 智商不会发生民主化,但软件工程会。这意味着软件的制形资本会跟着 AI coding 带来大幅下落,但用户不一定需要分解 code 编程是若何操作并施行的,只需要明白 high level 的运行逻辑即刻。也即是说,用户们不需若是拓荒者,但需若是我方需求的家具司理。

2)UI/UX:同步与异步,GUI 时刻的到来。

将来的拓荒体验可能由同步和异步组成:同步的部分,拓荒者一边写代码,AI 一边在后台同步作念 code testing/review/optimization;异步的部分,o1范式下的 inference-time compute 能把 coding 任务拆解为多个子任务,推理出最合适的处治决策并我方考据。

而将来更广义的 AI coding 亦然如斯,好多软件王人是及时凭据 context 来及时生成,而真确复杂的任务则不需要交互,AI 能异步的完成并通过邮件等现象向用户同步。

现时的家具交互使用门槛还偏高,雷同 GUI 到来前的敕令行时刻。恭候新友互到来时,AI 哄骗的空间会被灵通,coding 领域可能是起初考据和感知到的。

本文作家:Cage,开头:国际独角兽,原文标题:《AI Coding 最全图谱:Agent 将若何颠覆软件》

风险提醒及免责条件 商场有风险,投资需严慎。本文不组成个东谈主投资建议,也未接头到个别用户特殊的投资办法、财务气象或需要。用户应试虑本文中的任何意见、不雅点或论断是否稳当其特定气象。据此投资,拖累自夸。




Powered by 数字视野网 @2013-2022 RSS地图 HTML地图