• 我的订阅
  • 头条热搜
o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰
IT之家 12 月 21 日消息,“12 Days of OpenAI”活动已拉上帷幕,OpenAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。名称最新的 AI 模型为何跳过 o2,叫做 o3 呢?OpenAI 公司首席执行官山...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...人工智能也能参与其中,那将是一场怎样的智慧与技术的巅峰对决?不再仅仅是肢体的较量,AI的加入无疑将开启对智力极限的新探索, 也期待更多AI选手加入这场智力的奥运会。 ……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称,该模型可以解决科学、编程和数学等更...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...术分享直播活动的最后一天!周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
来源:硬AI圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。美东时间12月20日周五,在为期12个...……更多
很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3
...,和网友猜测的一样,人工智能(AI)巨头OpenAI发布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奥特曼(Sam Altman)就曾发文提到三个“o”暗示了o3的到来。为何新模型跳过了o2直接命名o3?奥特曼表示是为了避免和英国电...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,...……更多
Gemini 开启大模型路线之争,新战场将“数流成河”
...k母公司Meta或特斯拉,跻身所谓“七巨头”。3、作为登上巅峰后迄今为止在互联网搜索领域的完全统治地位的 Google,这一年天天度日如年,这一年内讨论 Google 被颠覆话题占有史以来的99%以上,如果谷歌输掉这场AI之战会怎么样...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...特曼用一个简单的柱状图给出了对比:可以看到o1在数学推理和编程领域的表现要明显优于o1-preview,提升幅度在50%左右,而在科研领域的测试里,o1相对于o1-preview的表现就提升有限了。图源:OpenAI考虑到o1模型不需要额外加钱就...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程中进行自我反思和纠正。先来一起看两个例子感受一下:比...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型,一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
面壁智能发布开源大模型eurux-8x22b
...大模型Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。官方测试中,Eurux-8x22B 在 LeetCode(180道LeetCode编程真题)与 TheoremQA(IT之家注:美国大学水准的STEM题目)测试上超越了 Llama3-70B……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...-preview和o1-mini模型已经可以使用。OpenAI宣布,“新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1”。根据OpenAI的自测,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIM...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升解决数学难题的能力。据了解,在多项数学基准能力测试中,k0-math的...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
... 3.5依旧答错了。LeCun在此嘲讽大模型一番,大模型竟可以推理...?问题在于,LLM没有常识,不理解现实世界,也不会规划和推理。LLM行不行,就看提示了一位网友分析总结了,以上LLM失败的原因。他表示,LLM本身就是个「哑巴」...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
...教育大模型的快速迭代,摩尔线程、师者AI还将在大模型推理上开展适配工作。摩尔线程夸娥方案是业内首个跑通、跑完国产大模型的千卡集群,基于全功能MTT S4000 GPU,提供软硬一体化的全栈解决方案,具备模型覆盖、推理加速...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
...ion模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:减去所有的小亮球和紫...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度...……更多
对着3个中国AI大模型,两个美国科技界大佬深聊了半小时
...前AI行业快速发展,竞争也越来越激烈,特别是各种高级推理模型之间的竞争。过去一段时间,中国科技公司陆续发布了3款自研的AI模型,分别是DeepSeek(深度求索)的Deepseek R1、阿里巴巴的Marco-1以及香港中文大学与商汤科技的...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...解决复杂数学问题的能力。通过此,他们不仅提高了算法推理速度,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100,也更加符合算法在复杂数学问题下的评价场景。目前,赵子龙的合作者正在基于本次成果开...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
【新智元导读】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性...……更多
Hugging Face发布SmolVLM开源 AI 模型:20 亿参数,用于端侧推理
...lVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练...……更多
更多关于科技的资讯:
中建海龙打造可持续发展的城市新地标,福城南产业片区项目取得突
近日,深圳市龙华区福城南产业片区12-16宗地和12-19宗地项目成功突破“正负零”正式进入地上主体结构施工阶段。自底板浇筑到地下室结构封顶仅用了33天的时间
2025-01-05 13:39:00
你期待谁!蛇年央视春晚第一次联排:岳云鹏、孙越、张艺兴现身
快科技1月5日消息,据国内媒体报道,今日,2025年央视蛇年春晚首次联排,岳云鹏、孙越、张艺兴、刘宇宁、蒋欣、白鹿、金晨等多位明星现身央视大楼参与彩排
2025-01-05 13:46:00
极越车主联合维权:吉利承诺下周五前 发布极越质保、权益公告
快科技1月5日消息,由极越维权车主联合成立“极越无声-我们发声”公众号发文通报了维权最新进展,吉利汽车承诺下周五前给出回复
2025-01-05 13:46:00
出租车和特斯拉路怒对骂 特斯拉一脚油门撞了上去
快科技1月5日消息,日前,博主分享的一则路怒视频,引起网友热议。视频中,一辆特斯拉和出租车发生路怒,两车停在道路中间,司机发生争吵
2025-01-05 13:46:00
南京至北京高铁今起直达 最快仅需3小时24分
快科技1月5日消息,据央视报道,今日上午,南京至北京的首条直达高铁G66/65次正式开通运营!据了解,这是长三角地区首次在京沪高铁上开行南京南站至北京南站间的时速350公里标杆列车
2025-01-05 13:46:00
微博热搜将迎来大改!增加热搜解释标签等
快科技1月5日消息, 新浪微博社区管理发布公告表示,将全面加强平台热搜算法及内容治理等重点环节的制度流程优化,具体包括七方面内容
2025-01-05 14:16:00
明基推出24寸600Hz超高刷电竞显示器:新型双背光设计
快科技1月5日消息,明基旗下ZOWIE品牌发布XL2586X+游戏显示器。新产品专为FPS玩家设计,采用了Fast-TN面板和最新的DyAc 2技术
2025-01-05 14:16:00
明年Galaxy S26影像有望大突破!曝三星正开发5亿像素感光元件
快科技1月5日消息,根据爆料,三星正为苹果开发一款三层堆叠式感光元件,这一技术相比Sony Exmor RS系列更为先进
2025-01-05 14:16:00
比亚迪唐L内饰谍照曝光:二排独立座椅、豪华感大增!
快科技1月5日消息,比亚迪唐L已于日前发布了预告图,号称“盛世旗舰”,官方Slogan为“撑起属于中国的正大气象”。近日
2025-01-05 14:16:00
19岁女生被丢高速后司机账号被永久封禁 嘀嗒出行发布情况说明
快科技1月5日消息,近日,19岁女生被丢高速一事登上热搜,引发网友热议。1月5日,针对近期网友爆料顺风车车主与乘客在高速路上发生纠纷一事
2025-01-05 14:16:00
陈震再谈领克视频泄密事件:涉事责任人主动离职 是最体面的解决方式
快科技1月5日消息,今日中午,“陈震同学”通过微博进一步阐述领克视频泄密事件后续,他表示:同事的工作失误,我来负责买单和挨骂
2025-01-05 14:16:00
段永平:真正的iPhone用户没人在乎价格
快科技1月5日消息,在今天浙江大学举行的“段永平学长回校见面会”上,段永平谈到了和巴菲特之间的一些故事。他表示与巴菲特晚餐时曾聊到可口可乐和苹果的商业模式
2025-01-05 15:16:00
低于300元价格可能买不到真羽绒登热搜第一 是真的吗
快科技1月5日消息,今日,话题#低于这个价格可能买不到真羽绒#引发热议,一度登上微博、百度热搜榜第一。据悉,有媒体发布的一则视频指出
2025-01-05 15:16:00
段永平:做错事情要及时改正 买错股票就要及时止损
快科技1月5日消息,今日,在浙江大学举办的“段永平学长回校见面会”上,段永平告诫学子,发现做错事情就要及时改正。他说,很多人明知道自己做错了
2025-01-05 15:46:00
重回2008!腾讯官宣《穿越火线》怀旧模式上线时间:预约已开启
快科技1月5日消息,腾讯游戏旗下热门射击游戏《穿越火线》宣布,备受期待的“怀旧模式”已在官网正式开启预约。根据官方说法
2025-01-05 15:46:00