• 我的订阅
  • 头条热搜
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的...……更多
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如听起来那样神秘,甚至令人担忧?为了破解...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示,问题不在于 Transformer,而是因为 Claude 3.5 仍然是一个自回归大模型。无论架构细节如何,使用固定数量的计算步骤来计算每个 t...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,进一步拉近多模态模型和人类认知能力的...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 论文地址……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。首先,OpenAI ...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...,这也意味着它在处理图像、视频等复杂数据时可能面临局限性。 还有价格。首先要说明的是,在官方还未发布甚至官宣定价之前,实际「草莓」模型的价格是个未知数。但几乎可以肯定,「草莓」模型的训练和推理成本都会...……更多
对标o1,Kimi放出了最能打的国产模型
...LaTeX 格式难以描述的几何图形类问题。此外,它还有一些局限性需要突破,包括对于过于简单的数学问题。例如「1+1=?」,k0-math 模型可能会过度思考。「意图增强」等三大推理能力注入 Kimi 探索版新的强化学习技术范式带来的...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...良好,但难以应对需要结构化多步推理的复杂任务。这种局限性在需要综合多个时间序列信息的复合问题中尤为突出,限制了模型在复杂应用场景中的适用性。为了应对这些挑战,南加州大学的研究人员提出了一种全新的时间序...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...经验来实现更据适应性的学习。这能克服思维链等方法的局限性。如图 2 所示。 左侧是基本思维链推理,其按顺序生成中间步骤,其中每个步骤都是下一步骤的直接条件,直到得到最终答案。右侧是新提出的结构化推理方法,...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
...论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。在...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...工智能在复杂逻辑推理、抽象概念理解上,还存在明显的局限性。数学、物理和围棋虽然都强调逻辑思维,但侧重点不同。围棋侧重于空间布局和策略选择。数学、物理的基本概念和公理构成了一个演绎系统,通过这些基本元素...……更多
对话王田苗:万亿市场之下,大模型 + 机器人还有四大问题未解决
...在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力,但在从理解、推理、判断、执行到运动系列过程中,还涉及其他多种模型算法和软硬件协同的问题,包括...……更多
2023IDEA大会:让大模型更好应对复杂问题
...存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA研究院团队研发了思维图谱技术,让大模型和知...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...低的偏见,同时能够有效地识别代码生成的高质量响应。局限性和未来工作由于评估标准不断变化以及评估新的LLM功能的需要,评估LLM具有挑战性,通过开源贡献扩大我们的数据收集范围可以解决这个问题。此外,模型主要在上...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...这种做法使得系统比较和判断人工智能模型存在的风险和局限性的工作变得更加复杂。4.经济生成式AI领域投资激增。据统计,尽管去年人工智能领域的总体投资有所下降,但生成式AI领域的投资资金激增,比 2022 年增加了近八倍...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
5年后ai所需算力超100万倍
...定义限制在人工智能领域内,同时忽略了人工智能固有的局限性以及人类、机器和事物之间三元互动的重要作用。另一个学派将智能计算(intelligentcomputing)视为计算智能(computationalintelligence),模仿人类或生物智能来实现解决...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
...本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。由此能形成更简洁的思维链(CoT)。从结...……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...些解答或慢点思考。OpenAI ο1 模型的发布掀起了人们对 AI 推理过程的关注,甚至让现在的 AI 行业开始放弃卷越来越大的模型,而是开始针对推理过程进行优化了。今天我们介绍的这项来自 Meta FAIR 田渊栋团队的研究也是如此,其...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...也不足以处理长上下文 VLM 工作负载。在确定现有系统的局限性之后,研究者得出结论,一个理想的多模态序列并行方法应该通过解决模态和网络异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM...……更多
...版本依旧存在幻觉问题、运行速度较慢及成本高昂等诸多局限性,限制了其应用范围。与之相比,更早提出“慢思考”概念的360通过其首创的CoE(Collaboration of Experts,专家协同)技术架构及混合大模型对“慢思考”进行落地实践,...……更多
新物种?联想Tech World 2024:AI的一切才刚刚开始
...在网络速度、云端效率、成本考量、数据隐私等方面存在局限性。而在混合式人工智能框架中,个人大模型和企业大模型,以及在其基础上开发出的个人智能体和企业智能体,将与公有大模型共存互补,提供更加个性化的服务并...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
...时通常会有几十种算法可用,每种算法都有自己的优势和局限性,选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性,从简单的前馈网络到 Transformer,每个模型都需要仔细调整超参数。计算资源增加...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称,该模型可以解决科学、编程和数学等更...……更多
更多关于科技的资讯:
海外媒体发稿推荐:日本顶级新闻媒体投放&新闻发布
一、日本顶级新闻媒体概述日本拥有众多在全球具有影响力的新闻媒体,涵盖电视台、通讯社、报纸等多个领域。其中,NHK(日本放送协会)作为公共媒体
2024-11-21 21:57:00
越明打卡世界互联网大会Vlog| AI让“无障碍”生活成为可能
你有没有想过,在我们享受便捷生活的同时,还有许多残障人士、老年人等特殊群体在日常生活中面临着重重障碍,而科技,特别是 AI
2024-11-21 22:31:00
近日,由江苏省消费者权益保护委员会指导、南京市消费者协会主办的“‘提升消费者满意度’2024年南京金融业服务满意与创新发展年度活动”成功举办
2024-11-21 22:37:00
兴业银行零售科技协调工作组在会议中指出,零售条线业务要在经营活动层面贯彻落实总行党委“三基”“三化”管理要求。今年7月至10月
2024-11-21 22:44:00
天眼看乌镇|贵州大数据集团首次亮相世界互联网大会
在2024年世界互联网大会乌镇峰会期间,云上贵州大数据(集团)有限公司(下称“贵州大数据集团”)携六大核心业务首次亮相
2024-11-21 23:12:00
2024年世界互联网大会乌镇峰会人工智能负责任开发与应用论坛举行
本文转自:人民网全国政协委员、中国网络空间安全协会理事长赵泽良发言。主办方供图人民网桐乡11月21日电 (记者赵竹青)11月21日
2024-11-22 00:11:00
本文转自:人民日报海外版《 人民日报海外版 》( 2024年11月22日 第 11 版)据新华社 (记者孟含琪)记者近日从中国科学院长春光学精密机械与物理研究所了解到
2024-11-22 04:36:00
香港身份规划机构哪家强?空格盛世教育值得一看
人人都希望获得香港身份。无论是为了子女的教育规划,还是个人的未来发展,拥有香港身份都带来了诸多优势。那么,如何挑选一个靠谱的中介来申请香港身份呢
2024-11-21 18:17:00
中国第一个充气式柔性密封舱太空试验成功!空间站、登月都用得着
快科技11月21日消息,据中国航天科技集团,该集团五院研制的充气式柔性密封舱,伴随实践十九号卫星完成了在轨飞行试验,任务取得圆满成功
2024-11-21 18:26:00
乐道2025年新车计划官宣:567座SUV全线齐发
快科技11月21日消息,乐道汽车总裁艾铁成近日通过微博宣布,2025年乐道品牌将推出两款新车型,包括一款六座/七座旗舰SUV和一款大五座SUV
2024-11-21 18:26:00
飞凡电车充电盖频繁自动打开关不上 车主下车怒锤充电盖
快科技11月21日消息,日前,有车主发布了一段上汽飞凡车主怒砸充电盖的视频,引起网友热议。视频中,一辆黑色的飞凡F7电动车在行驶中出现了充电盖板故障
2024-11-21 18:26:00
篡改猴Tampermonkey上架苹果商店!售价21元、Safari可用
快科技11月21日消息,用户脚本管理应用篡改猴(Tampermonkey)上架苹果App Store,售价为2.99美元(约合21
2024-11-21 18:56:00
龙芯处理器上太空了!龙芯天基云系统随天舟八号货运飞船发射成功
北京时间2024年11月15日23时13分,天舟八号货运飞船在我国文昌航天发射场点火起飞,南京航空航天大学李广侠团队研制的“基于天基计算的地面辐射源在轨定位试验载荷”——星眸载荷
2024-11-21 18:56:00
英伟达一天赚8套北京四合院!没有游戏就没有英伟达
北京时间11月21日,英伟达公布2025财年第三季度财报。英伟达第三季度营收351亿美元,同比增长93.7%。第三季度净利润193
2024-11-21 18:56:00
百度萝卜快跑累计超800万单!占全国超70%市场份额
快科技11月21日消息,百度集团发布了2024年第三季度的财务报告,显示公司总营收达到336亿元人民币,净利润为75.4亿元人民币
2024-11-21 18:56:00