• 我的订阅
  • 科技

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

类别:科技 发布时间:2024-08-13 14:46:00 来源:浅语科技

继Devin之后,又一个AI软件工程师被刷屏了——

它叫Genie,号称目前地表最强,已经可以像人一样思考和行动了!

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

那么这个“地表最强”,到底强到什么程度?

先来看下评测分数。

在权威榜单SWE-Bench中,Genie以解决了30.07%问题的成绩夺得榜首。

(SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。)

而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的最大增幅——57%!

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

至于Genie的实际效果,用团队的话来说就是:

它可以做到像人类工程师一样解决现实生活中的软件问题。

首先,你可以用4种方式让Genie开始工作,分别是提示词、GitHub Issue、Linear Ticket或者API。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

以解决GitHub Issue为例,先喂给Genie一个repo的链接,它就开始自动解析问题了:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

Genie会自动迭代思考如果想要解决这个问题它都需要哪些文件,直到它觉得找到了自己满意的为止:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

紧接着,它将对问题做一个自动迭代分析的过程:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

然后Genie就开始“唰唰唰”地自动写+跑代码了:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

如果运行代码过程中出现bug,Genie会只针对出问题的地方再重复分析、写代码和运行的过程,直至跑通为止。

而整个过程,仅仅耗时84秒!

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

用团队的话来说:

Genie已经观察并学习人类程序员如何解决软件问题的次数达到了数百万次。

这是任何一个人类程序员一辈子都无法达到的数量。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

但更令人意想不到的是,Genie背后的团队——Cosine,才仅仅5人。

而且CEO Alistair还发文感谢OpenAI:

没有你们,我们做不出来Genie。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

那么Cosine团队,究竟是如何打造Genie的呢。

最强AI工程师是如何炼成的?

Genie的主要特点,是能够模仿人类工程师的认知过程、逻辑和工作流。

为做到这一点,Genie团队透露过去一年收集了一个包含真实人类程序员开发活动的数据集。

其中不仅使用了成果分析、静态分析、自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。

最终Genie使用该专有数据进行训练。

数据集中编码了人类推理的完整过程,包括完美的信息溯源、增量知识发现,还有基于软件工程师实际工作案例的逐步决策过程。

Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤,突破了其它AI工程师依靠在基础模型之上添加网页浏览器、代码解释器等额外工具的限制,能够像人一样处理多样化的、高度情境的、前所未见的问题。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

这种训练方法,让网友们立刻想到,之前Karpathy也提出的类似想法:

对于LLM来说,理想的训练数据并不是你所写的内容本身,而是你在写作过程中的完整思考过程和每一个编辑动作。然而,我们只能尽力利用现有的资源。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

除此之外,Genie训练中还引入了自我改进机制。

初始训练数据多为可正常运行的没有错误的代码,导致Genie导致难以应对错误情况。为解决这个问题,团队使用初代版本的Genie生成包含错误的合成数据,然后用这些数据训练下一版模型。

具体来说,使用旧版本Genie提出解决方案,如果解决方案错误,就利用掌握的任务最终状态来教它从当前状态达到正确状态。

不断重复这一过程,Genie提出的初始解决方案逐渐变得更准确,在多数情况下能直接给出正确答案,即使出错也只需在数据集中作较少的修正。

Genie能力提升的另一大关键,在于OpenAI提供的大模型支持。

团队表示,最初开发Genie时,只能访问微调16-32k范围内的短上下文模型,他们用这些模型进行了大量早期开发,用超1亿token的数据训练模型,虽然发现设计的架构有一定优势,但从根本上受限于模型在特定时间内可以处理的信息量。

尝试了各种压缩/分块方法后,唯一的解决方法就是使用更大上下文的模型。

OpenAI提供了长上下文模型支持,最新版本的Genie经过了数十亿token的数据训练。

团队认为,相比超参数调整和数据量,数据的质量才是关键。因此他们还在数据混合方面进行了大量实验,包括语言、任务类型、任务长度等多个维度,以下是训练Genie的不同编程语言数据的占比:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

还有不同类型实例的数据占比:

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

只有5个人的团队

正如我们在上文提到的,Cosine这个初创团队人数目前仅仅为5人。

在官网的介绍中,他们也非常直接的将自己形容为:

Small but mighty.虽小但有力。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

从介绍来看,成员有的是从独角兽企业出身,有的拥有管理全球团队的经验,甚至还有从8岁就开始编程的。

但Cosine最初成立之际是仅有3人,他们的目标是想把人类推理这件事儿给搞明白。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

值得一提的是,团队成员中还有一位是华人,Yang Li,是Cosine的联合创始人,在2021年登上过福布斯30 under 30。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

除此之外,对于Genie本身,CEO Alistair还表示:

早在2022年我们就开始构想Genie了,但当时从技术角度来说是不可行的。

直到过去半年多来,随着大模型的逐步成熟,Genie才能走入现实。

最强AI程序员砸饭碗:84秒跑通代码 像人一样思考

嗯,不得不说,大模型又立功了。

Genie目前是可以申请Waitlist了,感兴趣的小伙伴可以戳文末链接~

Waitlist地址:https://cosine.sh/register

参考链接:[1]https://x.com/alistairpullen/status/1822981361608888619?s=46[2]https://cosine.sh/blog/genie-technical-report[3]https://cosine.sh/blog/state-of-the-art[4]https://x.com/AlistairPullen/status/1823030874579120223[5]https://x.com/yangli_

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 17:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首位AI程序员爆火,背后公司成立仅4个月,CEO才27岁
程序员都要下岗了?全球首个AI程序员,来了。就在3月13日,AI初创公司Cognition AI在X平台发布一条视频,宣布了首位完全自主的AI程序员Devin的诞生
2024-03-15 09:21:00
大脑将会代替开发者的键盘!人类和 AI 能够“双向奔赴”吗? | 近匠
作者 | 王启隆 责编 | 唐小引出品 | 《 新程序员 》编辑部在业界,每逢技术变革,就离不开技术布道者和科学家的身影
2023-06-16 21:00:00
入职一年半,这个AI员工晋升为了国内首位AI架构师
你敢想,AI 已经不满足只做程序员了,如今又向架构师这一进阶职业发起挑战。随着 AI 在研发领域的不断进化,能提供给工程师的助力越来越多,从原先单纯的编码加速器不断延展到架构理解
2024-08-09 09:37:00
首个AI程序员上岗,码农们暂且不必过度焦虑
“AI程序员上岗”或许是噱头,但淘汰焦虑仍然近在咫尺,需要积极面对。全文2418字,阅读约需7分钟撰稿 / 马尔文(媒体人)编辑 / 何睿 校对 / 张彦君▲随着相关技术的突飞猛
2024-04-07 13:55:00
Google 工程主管:AIGC 将在三年内终结编程!
...大模型的到来,可以用自然语言生成代码、解决 Bug,为程序员编码大大降低了门槛,甚至一定程度上,还可以一键生成自己想要的代码与网页。不过,这种趋势在带来巨大便利之际,是否会有
2023-03-16 16:00:00
大健康风口之下,16年全栈程序员转身投入大模型浪潮|我爱黑「可颂」路演项目专访
...参赛者们的肯定,也在赛后得到了资方的接洽。16年全栈程序员的创新之旅上传图片就能识别食品配料表里的添加剂,并结合用户自身健康状况给出合理化的建议,这是“科技与狠活”团队所开发
2023-11-30 17:52:00
Claude接管人类电脑编程,程序员沸腾!OpenAI反击,智能体大战一触即发
...21年开始,微软GitHub团队利用OpenAI大模型推出AI Copilot,为程序员提供实时代码建议。紧接着,ChatGPT在22年年底面世
2024-10-26 09:53:00
协同发展,生态聚合丨1024程序员节暨「源聚一堂」开源技术沙龙(北京站)成功举办
金秋十月,风景正好,收获正忙!1024程序员节如期而至,1024是一个极有来历、极富内涵的数字,程序员节是一个很有科技感、智慧感、时尚感的节日。10月24日,1024程序员节暨「
2023-10-25 13:02:00
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...先71%。 三、智能代码助手升级2.5版本,覆盖百度内部80%程序员百度副总裁陈洋发布了智能代码助手Comate的2
2024-07-01 09:21:00
更多关于科技的资讯:
量子位「MEET2026智能未来大会」启动!
我们正迈入一个由人工智能重塑一切的新时代。智能技术已经深刻渗透进生产和生活,跨越了软件、硬件、机器人等不同形态,从工具发展为能深度理解人类需求的智能伙伴
2025-09-20 05:23:00
纵览·9张|空间魔术师
壹 随着网购的便利化和生活节奏的加快,许多人在购物的同时,却忽视了归纳和“断舍离”。于是整理收纳师进入了大家视野,成为走俏的新职业
2025-09-20 08:02:00
iPhone17系列正式发售,多地门店排起长队,有黄牛加价500元收购Max 256G版本
北京时间9月19日,iPhone 17系列正式发售,线上抢购到首批货源的用户将陆续收到新机,官方零售店也于8:00提前开门营业供预约取货用户取货
2025-09-19 12:06:00
在杭州看见创新未来 第四届数贸会全景前瞻
第四届全球数字贸易博览会(以下简称“数贸会”)将于2025年9月25日至29日在杭州大会展中心举行。作为我国唯一以数字贸易为主题的国家级
2025-09-19 14:13:00
走向国际,INGS英树三度荣获IFSCC青睐
2025年9月15日至18日,第35届IFSCC国际化妆品科学大会以“THE FUTURE IS SCIENCE”为主题于法国戛纳盛大启幕
2025-09-19 14:16:00
国网高密市供电公司:物资仓库里的“绣花功夫”
大众网记者 宋学敏 通讯员 赵雯雯 贾聚光 潍坊报道9月19日,走进国网高密市供电公司物资供应分中心的物资仓库,整齐的货架
2025-09-19 14:23:00
研发投入年增超40%!Coosea酷赛智能凭什么敢在创新上“下血本”?
在智能制造与AI设备行业加速迭代的浪潮中,研发实力已成企业核心竞争力的关键。近日,Coosea酷赛智能披露的研发投入数据引发行业关注——其研发投入年增超40%
2025-09-19 14:51:00
喜茶「超级植物茶」上新一周年,差异化引领新茶饮产品趋势
9月19日,喜茶「超级植物茶」迎来上新一周年。据官方数据显示,「超级植物茶」全系列产品已售出超1亿杯,喜茶坚持采用新鲜的羽衣甘蓝每日现榨
2025-09-19 15:01:00
京东运动户外品类日开启 运动、健身、户外出游全场景好物立减12%
秋高气爽迎国庆,正是走出家门、拥抱自然的好时机。9月19日晚8点至20日,京东运动户外品类日正式开启,携手阿迪达斯、北面
2025-09-19 15:08:00
华为云杨友桂:数智化转型从来不是 \
9月19日,在华为全联接大会2025上,华为高级副总裁、华为云全球Marketing与销售服务总裁杨友桂介绍了华为云如何通过四大关键竞争力
2025-09-19 15:24:00
焕新家庭储鲜,澳柯玛多款行业领先冷柜亮相电博会
鲁网9月19日讯2025年9月19日至21日,中国国际消费电子博览会在青岛国际会展中心盛大举行。作为温度科技专家的澳柯玛
2025-09-19 15:25:00
当下,金融科技行业正站在新一轮周期的关键拐点。当金融科技领域历经市场的深度重塑,行业周期拐点下,平台该如何突围?辽宁自贸试验区(营口片区)桔子数字科技有限公司(简称“桔子数科”)以科技赋能为锚点
2025-09-19 15:28:00
“媒体+科技”构建融媒服务新生态 长城新媒体集团与腾讯签订战略合作协议
金秋时节,硕果盈枝。2025年9月16日,长城新媒体集团有限公司与深圳市腾讯计算机系统有限公司在2025全球数字生态大会期间签订战略合作协议
2025-09-19 15:34:00
做教育行业的“清流”,高途以人文和体育探索营销新范式
进入2025年,教育行业在调整期后逐步迎来品牌动作的复苏潮。在行业变革的深水区,品牌营销往往是透视品牌预期和行业趋势的风向标
2025-09-19 15:34:00
近年来,以网剧、网文、网游为代表的中国文化出海“新三样”,在国际市场取得亮眼表现。9月12日,在《文化纵横》杂志社举办的“迈向全球的当代中国文化产业”研讨会上
2025-09-19 15:34:00