• 我的订阅
  • 头条热搜
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
本文转自:劳动报2024世界人工智能大会探营:最新大模型产品抢先看■劳动报记者 陈宁7月4日至6日,2024世界人工智能大会将在上海拉开帷幕。今年“百模大战”热度依旧不减,大模型依然是这次大会的十大重点议题之一。据...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今为止,解决或协助解...……更多
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...二,据知名科技商业类媒体The Information援引多位测试过该模型的人士透露,站在时代风口浪尖的“AI宠儿”OpenAI计划在未来两周内发布名为“草莓”的最新人工智能产品,作为ChatGPT所提供服务的一部分。这比两周前传闻的“秋季...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。首先是目前全球...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
...nguage Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信...……更多
7个第一,11个首发,讯飞星火放大招,大模型规模化落地可期!
...发者节开幕式上,科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单,并发布讯飞星火4.0 Turbo:七大核心能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。与此...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...引入思想链(CoT,Chain of Thought)的概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!几天前,菲尔兹奖得主...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...G42和软银集团。2.能力达到奥数金牌级,DeepMind几何推理模型登上Nature,这个叫AlphaGeometry的模型在国际数学奥林匹克(IMO)的30道几何题中做出了25道,这一成就标志着AI在数学领域推理能力的史诗级升级。3.DeepMind首席科学家Lauren...……更多
刘庆峰谈科大讯飞与华为合作:任正非高度重视,双方共同看好,非干不可
... | 梁昌均在国内百模大战中,有这样一家企业,在推出大模型之初,就明确提出迭代的时间表和里程碑。从5月6日、6月9日、8月15日,再到10月24日,每次都如期而至。昨日,科大讯飞在其年度最重要的全球开发者节活动上,正式...……更多
首个AI高考全卷评测结果发布:数学全都不及格
...布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排名二三位。本次评测采用全国新课...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...是指,人类对自己思维、推理过程的直观认识。那么,大模型也具备「元认知」的能力吗?研究人员对此,提出了一种假设,并设想是否可以通过知识引导,进一步提高LLM的能力。 其实,此前的研究已经表明,大模型表现出一...……更多
腾讯大模型混元Turbo:御气升昺云,梓桐金鼎开
9月5日,腾讯正式推出其新一代旗舰大模型——混元Turbo。相比前代模型,腾讯混元Turbo性能有显著提升,训练效率提升108%,推理效率提升 100%,推理成本降低 50%,解码速度提升 20%,效果在多个基准测试上对标GPT-4o。最新第三方...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。OpenAI o1团队采访的完整版视频,终于上线了!全程22分钟,o1研发团队在项目Bob McGrew组织下,一起分享了「啊哈」时刻。有的人提到,...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。OpenAI对此曾表示:通往AGI的路上,已经没有任何阻...……更多
阿里云CTO周靖人:全面投入升级AI大基建
...准,全面升级从服务器到计算、存储、网络、数据处理、模型训练和推理平台的技术架构体系,让数据中心成为一台超级计算机,为每个AI和应用提供高性能、高效的算力服务。大会现场,通义大模型迎来了年度重磅发布,基础...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
复刻OpenAI o1推理大模型,开源界传来最新进展:LLaMA版o1项目刚刚发布,来自上海AI Lab团队。简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。在2024年6月,o1发...……更多
中国科技创新“乘”数直上
...2023第二届全球数字贸易博览会上了解华为研发的盘古大模型的应用。 龙 巍摄(人民图片)当今时代,数据已成为重要的创新要素。人工智能大模型、新材料创制、生物育种、基础科学研究等都离不开数据的支撑。国家数据局...……更多
...网高考不仅仅是检测国内莘莘学子的一项重要考试,在大模型“百家争鸣”的今天,也是对国内AI大模型的一次考验。如果让大模型和国内学子同台竞技,做同一套高考真题试卷,结果会是怎样?大模型考上文科本科,豆包获国...……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...间推理token,跟o1的核心技术CoT非常相似。传统的Transformer模型的致命弱点,就是擅长并行计算,但不擅长串行推理。而CoT,恰恰解决了这个问题。在这项工作中,Denny Zhou等人发现:传统的Transformer模型,只能解决AC0电路能解决的...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...12日,人工智能(AI)巨头OpenAI发布代号“草莓”的AI推理模型OpenAI o1系列,包括OpenAI o1-preview以及小版本的o1-mini。据OpenAI介绍, o1会花更多时间思考问题,然后再做出反应,就像人一样。通过训练学会了完善自己的思考过程,尝...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型。12月1日,三款新模型如约而至——包括Qwen-72B、Qwen-1.8B和Qwen-Audio大模型,通义千问大模型也升级到...……更多
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投。目前,零一万物估值已超10亿美元,跻身独角兽行列。此前,“Yi”于11月2日已经在Hugging Fac...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成...……更多
哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持
现在,最强数学大模型,人人都可上手玩了!一觉醒来,阿里千问大模型团队发布了Qwen2-Math的Demo,抱抱脸在线可玩。惊喜的是,如果嫌输入数学公式比较麻烦,可以把想问的题截图or扫描,上传即可解题。整得挺方便。试玩界...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...The Information 在最新的报道中披露,两位测试过「草莓」模型的人士表示,OpenAI 可能将在接下来的两周内发布「草莓」模型,并上线 ChatGPT。但不同于 GPT-4o、GPT-4o mini 是在优化使用体验和成本,「草莓」的目标是再一次让大模型...……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00