• 我的订阅
  • 头条热搜
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...数。ARC-AGI由Keras之父Fran ? ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。这标志着,o3的最佳成绩超过...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...爆火,利用纯提示方法让普通LLM摇身一变,成为具备复杂推理能力的OpenAI o1。九月份,OpenAI o1正式登场。作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多
真香!智谱大模型,有了首个免费的API
...性的同时增加多样性)。体验地址:https://open.bigmodel.cn/逻辑推理能力,从简单到复杂,包含一般逻辑推理和数学推理。测试 1:先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题,很容易就答对了。类似的数字...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型...……更多
...调遣语言模型之外的其他技术。例如,解决数学问题需要逻辑推理,而目前大多数AI模型都不擅长逻辑推理。鉴于此,谷歌深度思维公司开发出AlphaGeometr,将语言模型与符号引擎(使用符号和逻辑规则进行推理)相结合,构建出一...……更多
o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9,而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例(图中用黄色高亮标记出了 10 个),也或多或少与这...……更多
...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理,打造‘灰盒’可信大模型。具体而言,通过融合科学规律、观测数据和合成数据,开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席,上智...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力,使其成为通用人...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k。其中的HellaSwag测试集,由华盛顿大学和Allen AI在2019年推出,专门针对人类擅长但LLM...……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?随着OpenAI o1的爆火,最近CoT也成了圈内热议的高频词。靠着CoT的强力加持,o1...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中,以 86.9 分的成绩排名第一。其通用能力较 Tele……更多
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看,其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言,“太卷了,现在AI竞争是要以周为单位了吗?” 从官方介绍来看,Claude 3.5全家桶仍会有3款系列模型,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中...……更多
第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型
...代知识增强大语言模型,具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天,让它给你画一幅画,或者问它一些专业问题,写策划、做攻略,敲代码、做表格等等,高效便捷地帮助大家获取信息、知识和...……更多
大模型“翻车”小学题?
...相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...据的问题,构建百万量级合成数据,分门别类提升数学、逻辑推理、代码等能力;针对RLHF泛化性弱的问题,在离线DPO的基础上引入了二阶段在线强化策略,实现整体效果处于业界头部水平,文本创作、知识问答、数理逻辑及代...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...在MMLU(多任务语言理解)、Knowledge(知识)、Reasoning(推理)、Comprehension(理解)等关键指标上均超越了Meta Llama 2的13B模型。这一个故事,在2024年2月1日的发布会上,也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多
...模型4.0训练算法效率提升3.6倍,周均训练有效率超过98%,推理性能提升50倍。王海峰认为,人工智能具有多种典型能力,理解、生成、逻辑、记忆是其中的基础能力,这四项能力越强,越接近通用人工智能,而大语言模型具备了...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅准确识别了手写体文字并遵照指示,且答题逻辑完...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...,是全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...,大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务,一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。论文一作为华人学者Tian...……更多
科大讯飞股价跌停,市值蒸发120亿元
...为单位数,提升最多的是代码能力,仅有提升9%,其次是逻辑推理(8%),文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时,七大能力大幅度提升,其中语言理解能力提升78%,文本生成、知识...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
...练阶段使用合成数据的例子当属Phi-1.5模型,目的是注入逻辑推理能力。微调 掌握了语言的一般结构后,下一步就是微调,让模型更好地遵循指令、完成特定任务。比如,要让模型提高逻辑推理能力、实现更好的代码生成和函数...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...理解能力大致可以从中管中窥豹,下面考验一下Mistral的逻辑推理能力,题目是这样的:和人类的常规思路一样,Mistral Large 2解答这道题时用的也是假设法,先假定甲说的是真话。直到下图中的倒数第二行分析得都还完全正确,...……更多
云计算一哥终于搞多模态了:一口气6个大模型,还有个3nm芯片!
...mazon Nova Premier:亚马逊最强多模态大模型,可处理复杂的推理任务,也可用于蒸馏客户定制化的模型。在现场,Andy也晒出了Amazon Nova在CRAG、BFCL、VisualWebBench和Mind2Web等Benchmarks上取得的分数。从成绩中不难看出,其在检索增强……更多
...成、方案规划、目标拆解能力;判别中枢具有信息抽取、逻辑推理、是非判断、研判检测能力;道德中枢具有情感分析、道德法律能力;记忆中枢具有信息记忆能力。此外,360以安全大模型为“大脑”,构建出智能体框架,通过...……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00