模型,测试,用户,代码,基准,尝试头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

用过GPT-4 Turbo以后，我们再也回不去了

...，OpenAI CEO 山姆・奥特曼向我们介绍了迄今为止最强的大模型，和基于它的一系列应用，一切似乎就像当初 ChatGPT 一样令人震撼。OpenAI 在本周一的首个开发者日上推出了 GPT-4 Turbo，新的大模型更聪明，文本处理上限更高，价格也...……更多

2023-11-08 18:08:00模型,测试,用户,代码,基准,尝试

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

科学家建立新评价基准，助力评估大模型数据分析能力

...术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型，它们已经能够理解自然语言查询，并能生成相应的代码或分析，让自动数据分析变得更加接近现实。例如，Devin 的成功，激发了人们对基于大语言模型的自动数据分...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

豆包代码大模型，不小心给曝光了！在字节开源的代码大模型评估基准FullStack Bench里面，出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版，还并没有上线。它在多种编程语言上的性能表现如下，可以看到在闭源模...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

精准狙击Llama 3.1？Mistral AI开源Larg

...所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...后，开发者们甚至还发现，Reflection可能就是个「套壳」模型，而且还是连套三家的那种（Claude/GPT/Llama）。这下子，Reddit和X等平台上，立刻掀起了质疑的声浪。左右滑动查看为此，Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

传openai全球招外包大军手把手训练chatgpt取代码农

...车。另外的40%则是实打实的程序员，他们正在为OpenAI的模型「手搓」数据，从而让AI学习软件工程任务。此前，OpenAI一直是用从GitHub上抓取的代码训练其模型。而这次，OpenAI想建立的数据集中，不仅有代码，还包括背后用自然...……更多

2023-01-30 17:19:00手把,大军,训练,代码,全球,代码

还在人工炼丹？自动提示工程指南来了，还带从头实现

...APE）是指自动生成和优化 LLM 提示词的技术，目标是提升模型在特定任务上的性能。其基于提示词工程的思路，即编写多个不同的提示词并对其进行测试，只不过是让整个过程自动化。后面我们会看到，这个过程非常类似于传统...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...，进化后的Claude 3.5 Sonnet一举击溃OpenAI o1，堪称最强推理模型。它在各个方面得到了全面显著的提升，尤其是业界领先的编码能力。而Claude 3.5 Haiku与上一代最强Claude 3 Opus性能相当，成本、速度与上一代Haiku相近。甚至，Claude现在...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

继旗下xAI公司宣布正式开源大模型Grok-1后，特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Gr...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

开源大模型新的里程碑！Llama 3.1 模型准时发布

...KER科技7月24日消息，今日凌晨，Meta官方正式发布了Llama3.1模型。本次Llama3.1模型共有三个版本，分别是8B、70B和405B。从基准测试结果来看，超大杯Llama3.1405B与OpenAI的GPT-4o和Claude3.5Sonnet在多个项目上能够媲美。在GSM8K任……更多

2024-07-24 12:13:00模型,里程,里程碑,准时,模型,伯格

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

【新智元导读】代码模型可以自己进化，利用自身生成的数据来进行指令调优，效果超越GPT-4o直接蒸馏！LLM作为智能的基座，可以衍生出各种能力。代码能力就是其中一种：程序补全、注释、优化、修bug、测试等等。而想要充...……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...之心开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型‘Grok-1’，以及该模型的权重和网络架构。这也使得Grok-1成为当...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

通义大模型发布一周年之际，迎来重要的历史性时刻。5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4 Turbo，成为地表最强中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Llama-3-7...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

限定120分钟科研挑战，o1和Claude表现超越人类

...长期科研还得靠人类在RE-Bench上，研究对比了基于大语言模型构建的Agent（目前主要公布了Claude 3.5 Sonnet、o1-preview）和50+人类专家的科研能力。值得注意的是，这些专家都有强大机器学习背景，其中很多人在顶级行业实验室或机...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

开源版OpenAI再出「神作」，小模型吊打Llama 3！M

...生一周年之际，法国AI初创公司Mistral再次连发两个轻量级模型Ministral 3B和Ministral 8B，性能赶超Llama 3 8B。Mistral 7B仅仅发布一周年，法国AI初创小模型「les Ministraux」就打败它了。它堪称是，世界上最好的边缘模型。Ministra……更多

2024-10-23 09:56:00模型,边缘,革命,模型,指令,性能

马斯克 xAI 推出 Grok-1.5 大语言模型

...公司 xAI 今天在官方博客中宣布，正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改进的推理能力和 128k 的上下文长度，其中最显著的改进之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在平台上向早期测试人员和...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能

...日（9 月 24 日）发布博文，报道谷歌升级旗下 Gemini 1.5 AI 模型，推出了 Gemini-1.5-Pro-002和 Gemini-1.5-Flash-002，相比较此前版本成本更低、性能更强、响应更快。成本更低谷歌下调了 token 输入和输出费用，Gemini-1.5-Pro……更多

2024-09-26 09:51:00进化,更快,模型,成本,性能,模型

真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几

...需要做的，只是输入包含几句话的提示词。数秒钟后，大模型就生成了代码，还列出了环境需求，复制完代码就可以使用了。这不是程序员父亲带自家小孩做的网红项目，而是人人都可以尝试的事。在大模型的帮助下，代码正在...……更多

2024-09-21 09:38:00通义,阿里,程序员,进化,流程,程序

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...两人均为 THUNLP 成员。钱成主要研究兴趣为工具学习，大模型驱动智能体，即将就读 UIUC 博士。何秉翔主要研究兴趣为大模型对齐与安全，即将就读清华大学博士。本文通讯作者为从鑫与林衍凯，指导教师为刘知远副教授。在人...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

智能体首达Kaggle Grandmaster,华为结构化推

前些时日，AI 大模型开始掌握操作计算机的能力，但整体而言，它们与物理世界互动的能力仍处于早期阶段。为了提高 LLM 在复杂的现实世界中的表现，研究者们提出了各种提示策略来提升大模型的推理和规划能力，比如思维链...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...改进的智能体系统铺平了道路。「法官」智能体，击败大模型现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。另一方面，通过人工进行更好的评估，代价太大。而智能体系统的思考方式，更像人类，通...……更多

2024-10-28 09:52:00审判,新作,团队,成本,智能,评估

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

开源模型阵营又迎来一员猛将：Tülu 3。它来自艾伦人工智能研究所（Ai2），目前包含 8B 和 70B 两个版本（未来还会有 405B 版本），并且其性能超过了 Llama 3.1 Instruct 的相应版本！长达 73 的技术报告详细介绍了后训练的细节。在...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

多样任务真实数据，大模型在线购物基准Shopping MML

谁是在线购物领域最强大模型？也有评测基准了。基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

Bengio团队提出多模态新基准，直指Claude 3.5和

...想要达成通用人工智能 AGI 的终极目标，首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点，大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链（Chain-of-Thought）等...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本