首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

1,765次阅读
没有评论

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

文章转自「机器之心」,Founder Park 有所增删。

3 月 13 日,由华人团队创立的 Cognition Labs 推出了第一个 AI 软件工程师 Devin,从目前公布的信息来看,说它是目前最强的 AI 软件工程师似乎一点也不过分,今天直接在 X 上刷屏。

在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的任务。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

仅从评测结果看,Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Claude 等模型。

官方发的推特说,Devin 不仅通过了一家业内领先的人工智能公司的面试,在自由职业平台 Upwork 上也能成功接单,完成单主要求的工作。也就是说,Devin 不仅是横扫基础测试的「做题家」,在就业市场里也有人为它的工作能力买账。

难道继 Sora 让「现实世界」不存在了之后,Devin 也要让「软件工程」不存在了吗?

Devin 现在还未对外开放,但已经有开发人员和产品人员用上了。测试过的网友表示,以前一直用人工智能辅助编码,但一直失败。直到昨天,他给 Devin 了一个简单的 HTML 页面,让它提取选择器,这个 GPT-4-turbo 、Claude、Groq 、LLama2 都没完成的任务,Devin 只用了大约 10 秒就搞定了。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资源自 https://news.ycombinator.com/item?id=39679787

当然,对这种说法,也有网友并不买账,认为这是夸大宣传。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

所以,这位来抢程序员「饭碗」的 AI 软件工程师的本事到底有多大呢?

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资


01

掌握全栈技能,可独自开发完整项目

要知道,虽然现在市面上的一系列大模型都有编程能力,但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序,还需要设计 prompt 逐步「调教」。

而对 Devin 来说,你只需要向它提要求,坐等其成就可以了。

Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具,这些都在一个沙盒化的计算环境中 —— 这些都是人类软件工程师完成工作所需的一切。

根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操,它可以自动规划并执行需要数千个决策的复杂任务。

例如请它在几个不同的 API 上对 Llama 的表现进行基础测试,它首先制定了一个逐步解决问题的计划:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

在完成项目的过程中,它使用了浏览器为 API 留档,以便它可以阅读并学习如何插入这些 API:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

遇到意外的错误时,Devin 决定先「print」出来,再根据日志中的错误决定如何修复 bug:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

最后,它为你构建了一个完整的可视化网站:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

Devin 能自动完成如此复杂的规划,得益于其背后的 Cognition AI 在长期推理和规划方面的进展,这使它能够在每一步回忆相关的上下文,随时间学习,并修复错误。

Devin 拥有积极的协作的能力,它能实时报告进度,接受反馈,并根据需要调整,还能适应成熟的代码库,修改前辈留下的 bug:

自主学习,从完全陌生的知识学习使用不熟悉的技术,也是 Devin 所擅长的。

你给它一篇新博客,讲的是如何运行 ControlNet on Modal,生成带文字的图像:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

它不仅能迅速从中学会所需的代码,没过两秒,工作就自动帮你完成了:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

在 Upwork 接的单里,Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据,最后呈现了一份报告:

Devin 甚至能够训练和微调自己的 AI 模型,看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接,Devin 就微调了一个大型语言模型

OpenSea 前 CTO Alex Atallah 说,这是他使用过的第一个让他感觉像是在与真实、有用的人交流的 AI 代理。比方说像”查阅文档以了解如何设置 Docker 容器”和”修复连接数据库的问题”这样的状态更新,再加上能看到 Devin 正在看到的内容,使这成为一个真正独特的体验。

总体来看,与其他具有编程能力的大模型,Devin 不仅辅助编程或提供代码片段,它能够独立支持一整个项目,而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色,Devin 更接近于一个独立工作者。

而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破,这意味着它能够不仅是在预测下一个单词或代码行应该输出什么,而是更像在思考如何解决问题的总体方法。


02

技术细节暂未公开,技术路径类似自动驾驶

软件开发中应用 AI 并不是什么新鲜事。这个领域已经有一些工具了,从流行的 GitHub Copilot 、 StarCoder 到 Replit(它在 Hugging Face 上提供一些小型 AI 编码模型),再到 Codeium(最近获得了 6500 万美元的 B 轮融资,目前估值 5 亿美元)。

然而,这些产品的大多数主要集中在使用 AI 来协助编程上。它们可以根据文本提示生成基础代码,结合 IDE 的相关上下文进行总结,或检索代码片段,以加快团队的工作进度。相比之下,Cognition AI 提供的 Devin 似乎迈进了一大步,已经算是一个熟练的 AI 工作者,能够独立处理整个项目。

而 Devin 的技术路径,CognitionAI 并还未公开,只是简要地提到,Cognition AI 的团队发现了将大型语言模型(LLM)如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。 

看到 Devin 的 Demo 后,刚从 OpenAI 离职的 AI 大牛 Andrej Karpathy 发表了一些独到的见解。在他看来,自动化软件工程的发展将类似于自动化驾驶,是一个人工智能做的越来越多,而人类的工作越来越少,但仍提供监督的过程。

我认为,软件工程的自动化过程将会与驾驶自动化类似。举个例子,在自动驾驶技术的进步中,逐步增加的自动化水平和更高层次的抽象处理看起来是这样的:

  1. 首先人类手动执行所有驾驶动作

  2. 然后 AI 帮助保持车道

  3. 然后它为前方的车辆减速

  4. 然后它也开始执行变道和转弯

  5. 然后它也会在路牌/红绿灯处停车并转弯

  6. 最终你拿出一个功能完整的解决方案,然后不断打磨质量,直到实现完全自动驾驶。

AI 做的越来越多,人类做的越来越少,但仍然提供监督。在软件工程中,这一进程也在形成:

  1. 首先人类手动编写代码

  2. 然后 GitHub Copilot 自动补全几行代码

  3. 然后 ChatGPT 编写代码块

  4. 然后你开始处理越来越大的代码差异(例如 Cursor Copilot++ 风格)

  5. Devin 是接下来可能出现的令人印象深刻的演示:它能够协调开发人员需要集成的各种工具来编写代码,比如终端、浏览器、代码编辑器等,并在抽象层次逐渐提升的同时提供人类监督。

不仅仅是 AI 部分,UI/UX 部分也有很多工作要做。人类如何提供有效监督?他们应该关注什么?如何引导 AI 走向不同的解决方案?出现问题时如何调试?我们可能需要对代码编辑器进行重大改进。


不管怎样,软件工程正朝着深刻的变革迈进。它的工作方式将越来越类似于监督自动化过程,同时提供高级指令、创意或策略,并用英语进行沟通。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资


03

10 人团队,2100 万美元 A 轮融资

Devin 背后公司名为 Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用 AI 实验室。此前这家公司一直秘密工作,于两个月前正式注册成立。

随着 Devin 的推出,Cognition Labs 也宣布完成了 2100 万美金的 A 轮融资,由 Funders Fund 领投,跟投的投资人里包括了 Stripe 的两位兄弟创始人 Patrick Collison 和 John Collison 等。

目前该团队规模仅有 10 人,但共揽获了 10 枚 IOI 金牌,创始成员均曾在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro 等从事 AI 前沿工作。

其中三位创始人信息如下:

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

从左到右分别为 Steven Hao、Scott Wu、Walden Yan

Scott Wu – 首席执行官 (CEO):Scott 是团队的领导者,和他的兄弟 Neal Wu 一起,自青少年时期就开始参加并经常获胜于国际编程比赛,曾连续三年揽获 IOI 金牌,这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

Scott Wu 曾连续三年获得 IOI 金牌

Steven Hao – 首席技术官 (CTO):Steven之前是Scale AI的顶尖工程师,Scale AI是一家估值很高的初创公司,专注于帮助训练AI系统。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

Walden Yan – 首席产品官 (CPO):Walden 直到最近还在哈佛大学上学,他请求将他在学校的状态留作模糊,大概率是想「辍学创业」。

首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资

Walden Yan 在哈佛就读期间,曾在一年级时获得第 32 届 IOI 金牌

除了这三位核心成员,还有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其编程才华在全球范围内享有盛誉,他们自青少年时期起就在国际编码比赛中竞争并常获胜利,这些比赛经验帮助他们在编程和解决问题方面拥有独特的方法。

参考链接:https://twitter.com/cognition_labs/status/1767548763134964000https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistanthttps://venturebeat.com/ai/cognition-emerges-from-stealth-to-launch-ai-software-engineer-devin/

https://www.cognition-labs.com/blog

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
首个AI程序员诞生!掌握全栈技能、已通过公司面试,华人创始团队已拿2100万融资
更多阅读

2024 年,中国的投资人们如何投 AI?

OpenAI 投资的机器人公司高管:具身智能会像 ChatGPT 一样突然到来

具身智能要来了!OpenAI、英伟达投资,机器人公司Figure AI估值26亿成新独角兽

Notion CEO:RAG是知识管理的未来,AI将SaaS带入新一轮Bundling

AI 应用之路:质疑汤姆猫,成为汤姆猫,超越汤姆猫

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...