• 我的订阅
  • 头条热搜
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
科学家竞相破解大型语言模型背后的谜团
...复杂行为。面对复杂问题,人类在潜意识里会进行分步骤推理。受此启发,谷歌团队2022年引入了“思维链提示”,以描述一种让LLM展示其“思维”的方法。简单来说,思维链提示是一种特殊的上下文学习。不同于标准提示只给...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...2.5%,表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练,文中对模型能力(理解、知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4...……更多
ChatGPT大流行的思考-解析篇
...器人的本质区别。2. ChatGPT如何实现知识的获取、存储、推理及实时更新那究竟GPT如何有如此优秀的表现呢?我们不妨从人类学习思路入手,我们学习一般可分为获取知识-存储知识-推理知识-更新知识,而这也是GPT发展及学习的...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...决数学问题的系统,它是一个组合了自然语言处理和数学推理的系统。这个系统的作用是帮助计算机理解自然语言中的数学问题,从而能够通过推理和计算得出问题的答案。具体来说,这个系统包括多个子系统,包括自然语言处...……更多
超越ChatGPT:人类特有的思维要强化
...据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足,可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌,但当你尝试问它类似这样的问...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。然而,可能很多人并没有意识到,很多对人类来说很简单的认知任务也往往伴随着非常复杂...……更多
...大模型加入数学领域的解题算法。“OpenAI说GPT-4有强大的推理能力,我感觉主要指的是它的数学水平高。”赵海告诉记者,“其实,推理能力包含逻辑推理能力和数学抽象思维能力,这两种能力是有区别的,前者侧重寻找因果关系。相...……更多
不止反击,谷歌在AI群隔空@所有人
...得罗夫(Slav Petrov)说。皮查伊具体称,“PaLM 2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。”我们知道,ChatGPT-4作为其中知名的一个代表大模型,其功能的强大已无需赘言,尤其是在逻辑推理和数学表现...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火如荼...……更多
知乎 AI 革命:智能搜索与实时问答的融合
...生成,将这些答案里的有价值信息提炼出来,进行有效的推理,就能为一个 \" 新鲜出炉 \" 的专业问题提供一个立等可取的答案,提问的用户就可以能为快,然后再等其它的专业答主陆续赶到,下场答题。 在灰度测试这个功能...……更多
ChatGPT 火爆,程序员会不会被取代?答案都在这里!
...评测方法、大模型如何能持续学习、怎么显著提升训练和推理的效率这等。从左起:吴海涛、肖仰华、王文广、蒋涛、林咏华、于建岗、王千祥、王昊奋复旦大学教授肖仰华:大模型绝不仅仅是模型系统和算力,数据是非常重要...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“天工...……更多
...的32项学术基准中,从自然图像、音频和视频理解到数学推理,“双子座”Ultra的性能有30项超过了当前先进水平。谷歌公司称,在图像识别领域的测试结果显示,“双子座”Ultra性能优于迄今最先进的人工智能模型,具有天然多...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?
...完成上面说的第二个步骤,模型中没有思维链,也不具备推理能力。PaLM-E 让机器人有了聪明的大脑,可以将复杂自然语言指令分解为简单指令,完成上面说的第一个步骤,然后再去调用 RT-1 执行动作。所以,PaLM-E 所做的只是自...……更多
苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型
...,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:参...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4实现多项突破,晋升“考霸”相较GPT-3.5,GPT-4在多个方...……更多
什么是AGI?人工智能的未来
...Artificial Intelligence)指的是能够像人类一样思考、学习和推理的机器或计算机程序 – 其能够具备人类的普遍智慧,即能够学习各领域知识,并能将知识输出在各个领域。当时,约翰·麦卡锡预计人工智能将在几个月内实现。约翰...……更多
...思维搜索的领域知识。策略和价值网络指导搜索过程。在推理过程中,预训练的MCTS模块使用策略网络来探索LLM的思想轨迹。随后,LLM审查MCTS的思想并识别任何错误,然后进行额外的MCTS模拟以生成修改后的想法。最后,将修改后...……更多
大模型“翻车”小学题?
...相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维...……更多
2023IDEA大会:让大模型更好应对复杂问题
...本正经的胡说八道”怎么解?众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA...……更多
紫东.太初再进化,揭秘全模态大模型的想象力
...会出现一些意想不到的复杂能力,譬如类似人类的思维和推理能力。正如前面所提到的,紫东.太初2.0首次提出了全模态多任务统一生成式学习框架,即全模态分组对齐、分组解码和联合解码的学习方式,形成了全模态逻辑推理...……更多
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...发展带来了崭新的机遇,有望通过强大的语义理解和常识推理能力大大提升智能个人代理支持功能的广度和深度。”清华大学助理研究员李元春主题分享中软国际有限公司智能物联网军团产品研发管理部总经理、OpenHarmony项目群技...……更多
百度文心一言发布会详细纪要
...话体现出文心一言各方面的能力,比如总结分析的能力、推理的能力。事实性的东西对于一个搜索引擎来说不是那么难,但是对于一个生成式预训练大模型来说,出错的概率还是挺高的,这些问题都答对相当不容易,因为百度的...……更多
更多关于科技的资讯:
侨福芳草地:定义都市度夏新范式,引领生活美学新风尚
据最新发布的权威数据显示:超过六成的城市居民在访问商场时,其目的已超越单纯的购物行为,转而将商场视为一个放松心情、追求情绪价值的重要场所
2024-07-25 19:45:00
二手电商平台以个人对个人交易为主,交易监管和内容审核的压力确实大,但这不能变成平台屡屡“自罚三杯了事”的借口。近日多家媒体披露
2024-07-25 21:01:00
通用汽车重大决定暂停cruiseorigin自动驾驶项目研发
7月25日消息,通用汽车公司最近宣布了一个重大决定,将暂停其CruiseOrigin自动驾驶汽车项目的研发工作。该公司的CEO玛丽博拉解释说
2024-07-25 21:39:00
便利店巨头“十足”山东15店开业!济南、淄博15家店位置公布
大众网记者 魏俊怡 济南报道7月25日,中国便利店领军企业十足集团山东首批15店迎来正式开业,位置分布在济南市与淄博市
2024-07-25 22:31:00
首届人工智能先进技术成果供需对接大会硬核又新潮!
从“空中的士”到全无人驾驶汽车,从生产线“上岗”的人形机器人到百度文心一言、讯飞星火等大模型,从智能制造引领的“灯塔工厂”到融入生活
2024-07-25 16:45:00
猎头成单的秘密武器:禾蛙教你征服保密招聘!
你知道一个保密招聘的岗位有多难做吗?需求理解成本高、候选人信任度低,哪怕将项目放上平台,也会因为保密性导致平台接单的供应商数量锐减
2024-07-25 16:45:00
Cat.1模组如何激发血压仪行业转型升级
在老龄化趋势显著加速的全球背景下,血压监测设备行业正经历前所未有的变革与发展。据2019年世界人口展望修订版预测,至2050年
2024-07-25 16:45:00
“入场”济南,“十足”何以发力?
大众网记者 魏俊怡 济南报道7月25日,入选“2023中国便利店TOP100”前十的十足集团山东首批15店迎来正式开业
2024-07-25 16:46:00
29.9元 鑫谷推出宁镜-12风扇:侧面双无限镜设计
快科技7月25日消息,鑫谷推出了宁镜-12风扇,提供了曜石黑和冰霜白两种配色可选,售价为29.9元。据悉,宁镜-12风扇采用120x120x25mm的黄金比例
2024-07-25 16:57:00
iPhone玩移植版3A游戏大作:体验堪忧 钱白花了
近2年,苹果在推动自家游戏生态中所做的努力大家都有目共睹,前有《生化危机7/8》、《无人深空》、《幻兽帕鲁》、《控制:终极版》等3A大作登录搭载苹果M系列芯片的Mac平台
2024-07-25 16:57:00
24vs24大战!《和平精英》刺激战场来了:重型直升机、坦克首次登陆
快科技7月25日消息,《和平精英》全新限时模式“刺激战场”现已上线!全新海湾地图,24vs24超大型多人对抗。该模式中
2024-07-25 16:57:00
439元:特斯拉开卖双层不锈钢水杯 Cybertruck风格
快科技7月25日消息,特斯拉中国官方商城最近推出了一款名为CyberVessel的便携式水杯,定价为439元。这款CyberVessel便携水杯采用了双层不锈钢设计
2024-07-25 16:57:00
养生茶饮新锐品牌十里茶颜获新加坡PANDAX巨额融资,更聚焦大健康市场
7月1日,源自云南的养生茶饮连锁新锐品牌十里茶颜CHAMAX中国业务板块宣布获得来自新加坡·潘达克斯投资公司(PANDAX PTE
2024-07-25 16:59:00
中国江苏网7月25日盐城讯 在江苏射阳、大丰、东台的海岸线上,风力发电的大风车林立。一个风电叶片就重达20吨,而用于连接
2024-07-25 17:07:00
鲁网7月25日讯近日,江苏隆力奇集团有限公司及旗下公司新增1条被执行人信息,执行金额约6.09亿元。相关消息引发外界对这家知名日化品牌的担忧
2024-07-25 17:14:00