• 我的订阅
  • 头条热搜
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
科学家竞相破解大型语言模型背后的谜团
...复杂行为。面对复杂问题,人类在潜意识里会进行分步骤推理。受此启发,谷歌团队2022年引入了“思维链提示”,以描述一种让LLM展示其“思维”的方法。简单来说,思维链提示是一种特殊的上下文学习。不同于标准提示只给...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...2.5%,表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练,文中对模型能力(理解、知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4...……更多
ChatGPT大流行的思考-解析篇
...器人的本质区别。2. ChatGPT如何实现知识的获取、存储、推理及实时更新那究竟GPT如何有如此优秀的表现呢?我们不妨从人类学习思路入手,我们学习一般可分为获取知识-存储知识-推理知识-更新知识,而这也是GPT发展及学习的...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...决数学问题的系统,它是一个组合了自然语言处理和数学推理的系统。这个系统的作用是帮助计算机理解自然语言中的数学问题,从而能够通过推理和计算得出问题的答案。具体来说,这个系统包括多个子系统,包括自然语言处...……更多
超越ChatGPT:人类特有的思维要强化
...据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足,可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌,但当你尝试问它类似这样的问...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。然而,可能很多人并没有意识到,很多对人类来说很简单的认知任务也往往伴随着非常复杂...……更多
...大模型加入数学领域的解题算法。“OpenAI说GPT-4有强大的推理能力,我感觉主要指的是它的数学水平高。”赵海告诉记者,“其实,推理能力包含逻辑推理能力和数学抽象思维能力,这两种能力是有区别的,前者侧重寻找因果关系。相...……更多
不止反击,谷歌在AI群隔空@所有人
...得罗夫(Slav Petrov)说。皮查伊具体称,“PaLM 2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。”我们知道,ChatGPT-4作为其中知名的一个代表大模型,其功能的强大已无需赘言,尤其是在逻辑推理和数学表现...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火如荼...……更多
知乎 AI 革命:智能搜索与实时问答的融合
...生成,将这些答案里的有价值信息提炼出来,进行有效的推理,就能为一个 \" 新鲜出炉 \" 的专业问题提供一个立等可取的答案,提问的用户就可以能为快,然后再等其它的专业答主陆续赶到,下场答题。 在灰度测试这个功能...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度...……更多
ChatGPT 火爆,程序员会不会被取代?答案都在这里!
...评测方法、大模型如何能持续学习、怎么显著提升训练和推理的效率这等。从左起:吴海涛、肖仰华、王文广、蒋涛、林咏华、于建岗、王千祥、王昊奋复旦大学教授肖仰华:大模型绝不仅仅是模型系统和算力,数据是非常重要...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“天工...……更多
...的32项学术基准中,从自然图像、音频和视频理解到数学推理,“双子座”Ultra的性能有30项超过了当前先进水平。谷歌公司称,在图像识别领域的测试结果显示,“双子座”Ultra性能优于迄今最先进的人工智能模型,具有天然多...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?
...完成上面说的第二个步骤,模型中没有思维链,也不具备推理能力。PaLM-E 让机器人有了聪明的大脑,可以将复杂自然语言指令分解为简单指令,完成上面说的第一个步骤,然后再去调用 RT-1 执行动作。所以,PaLM-E 所做的只是自...……更多
苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型
...,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:参...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4实现多项突破,晋升“考霸”相较GPT-3.5,GPT-4在多个方...……更多
什么是AGI?人工智能的未来
...Artificial Intelligence)指的是能够像人类一样思考、学习和推理的机器或计算机程序 – 其能够具备人类的普遍智慧,即能够学习各领域知识,并能将知识输出在各个领域。当时,约翰·麦卡锡预计人工智能将在几个月内实现。约翰...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...规模较小,仅包含相当于分类任务的简单问题,缺乏语义推理和临床知识。如图1所示,现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么?」和「这张图片里看到了什么?」这两种完全相当于分类任务的问题。较小...……更多
...思维搜索的领域知识。策略和价值网络指导搜索过程。在推理过程中,预训练的MCTS模块使用策略网络来探索LLM的思想轨迹。随后,LLM审查MCTS的思想并识别任何错误,然后进行额外的MCTS模拟以生成修改后的想法。最后,将修改后...……更多
大模型“翻车”小学题?
...相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维...……更多
更多关于科技的资讯:
十堰市以旧换新再升级 换出消费新活力
十堰广电讯(全媒体记者 陈伟 通讯员 王春晖 郭华)今年3月,我国出台了推动大规模设备更新和消费品以旧换新行动方案,各地也纷纷推出配套措施
2024-09-12 19:39:00
毛主席纪念堂中秋假期开放时间
大皖新闻讯 据毛主席纪念堂公众号9月12日发布,9月15日至17日中秋节期间,毛主席纪念堂正常开放。开放时间:8:00-12:00。编辑 张大为
2024-09-12 19:42:00
魏建军笑谈与雷军连麦时“爹味十足”:不是故意的 确实得改
快科技9月12日消息,在最近央视直播中,长城汽车董事长魏建军对于网友评价其在与雷军连麦时表现出的“爹味十足”作出了回应
2024-09-12 19:47:00
极越07和领克z10哪个更值得买?
2024年9月10日可以说是非常热闹的一天,凌晨有苹果iPhone16系列的发布会,下午还有华为三折叠新机正式发布,而到了晚上
2024-09-12 19:51:00
华为matext非凡大师现货交易价格达10万元人民币
9月12日,数码博主“看山的叔叔”爆料称,目前已经有华为MateXT非凡大师三折叠屏手机的现货交易,交易价格达到了10万元人民币
2024-09-12 19:52:00
8月汽车品牌出口销量top10榜单出炉,奇瑞汽车领跑
近日,CNMO注意到,有机构发布了8月汽车品牌出口销量TOP10榜单,奇瑞汽车以显著优势领跑,当月出口量高达77,077辆
2024-09-12 19:53:00
四款中端手机的佼佼者性能卓越,外观设计同样引人注目
在当今日新月异的智能手机市场中,消费者面临着众多选择,尤其是在有限的预算——如三千元档位内,寻找一款既能高效助力工作学习
2024-09-12 19:58:00
1499元 惠普战D27KS显示器上市:4K IPS 屏、65W反向充电
快科技9月12日消息,惠普推出了新款显示器D27KS,售价为1499元。据悉,新款显示器采用了27 英寸三边微边框IPS屏
2024-09-12 20:17:00
特斯拉被斯柯达撞成事故车 修车近10万!特斯拉车主索赔6万元折旧费
快科技9月12日消息,据检车家消息,一位特斯拉事故车客户委托他们对其车辆进行贬损鉴定,希望能够以此索要到车辆的折旧赔偿
2024-09-12 20:17:00
福州新闻网9月12日讯(记者 朱丽萍)今年以来,不少市民反映若可团购卡券无法兑换。9月12日下午,福建本土烘焙品牌若可在福州举办了“若可16周年品牌发布会暨历史责任承兑方案说明会”
2024-09-12 20:24:00
雷克沙携旗舰级新品亮相ifa
9月6日至10日,国际知名存储品牌雷克沙携一系列旗舰级新品亮相2024德国柏林消费电子展(以下简称“IFA”)。柏林国际消费电子品展自1924年创立以来
2024-09-12 20:27:00
18年感恩路!健瑞儿十八周年庆典暨供应商大会9月13日启幕
南海网9月12日消息(记者 任桐)18岁,意味着什么?对于一个人来说,18岁有着特殊的意义,是告别懵懂,走向新生的一年
2024-09-12 20:30:00
8月国产车型销量榜:比亚迪杀疯 前十独占七席
快科技9月12日消息,易车网统计制作了8月份国产车型销量榜。榜单显示,作为国内车企销冠,比亚迪为榜单中最大的赢家,前十阵营中
2024-09-12 20:47:00
2000元档旗舰级AI手机!魅族Lucky 08真机亮相:星轨后摄 辨识度拉满
快科技9月12日消息,星纪魅族AI生态发布会将于9月25日14:30举办,届时,将发布星纪魅族Lucky 08手机等新品
2024-09-12 21:17:00
00后开始用AI 剧本杀攒钱了
支付宝小荷包推出了剧本攒功能,以AI爽文剧本,开启花式攒钱,自上线起人气不断走高,我也被安利了。搜出来一看,支付宝亲密付几经迭代
2024-09-12 21:17:00