• 我的订阅
  • 头条热搜
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的...……更多
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如听起来那样神秘,甚至令人担忧?为了破解...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示,问题不在于 Transformer,而是因为 Claude 3.5 仍然是一个自回归大模型。无论架构细节如何,使用固定数量的计算步骤来计算每个 t...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,进一步拉近多模态模型和人类认知能力的...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。首先,OpenAI ...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...,这也意味着它在处理图像、视频等复杂数据时可能面临局限性。 还有价格。首先要说明的是,在官方还未发布甚至官宣定价之前,实际「草莓」模型的价格是个未知数。但几乎可以肯定,「草莓」模型的训练和推理成本都会...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...工智能在复杂逻辑推理、抽象概念理解上,还存在明显的局限性。数学、物理和围棋虽然都强调逻辑思维,但侧重点不同。围棋侧重于空间布局和策略选择。数学、物理的基本概念和公理构成了一个演绎系统,通过这些基本元素...……更多
对话王田苗:万亿市场之下,大模型 + 机器人还有四大问题未解决
...在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力,但在从理解、推理、判断、执行到运动系列过程中,还涉及其他多种模型算法和软硬件协同的问题,包括...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...低的偏见,同时能够有效地识别代码生成的高质量响应。局限性和未来工作由于评估标准不断变化以及评估新的LLM功能的需要,评估LLM具有挑战性,通过开源贡献扩大我们的数据收集范围可以解决这个问题。此外,模型主要在上...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...这种做法使得系统比较和判断人工智能模型存在的风险和局限性的工作变得更加复杂。4.经济生成式AI领域投资激增。据统计,尽管去年人工智能领域的总体投资有所下降,但生成式AI领域的投资资金激增,比 2022 年增加了近八倍...……更多
2023IDEA大会:让大模型更好应对复杂问题
...存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA研究院团队研发了思维图谱技术,让大模型和知...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
5年后ai所需算力超100万倍
...定义限制在人工智能领域内,同时忽略了人工智能固有的局限性以及人类、机器和事物之间三元互动的重要作用。另一个学派将智能计算(intelligentcomputing)视为计算智能(computationalintelligence),模仿人类或生物智能来实现解决...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...也不足以处理长上下文 VLM 工作负载。在确定现有系统的局限性之后,研究者得出结论,一个理想的多模态序列并行方法应该通过解决模态和网络异构性来优先实现效率和可扩展性,并且扩展性不应受到注意力头数量的限制。 MM...……更多
...版本依旧存在幻觉问题、运行速度较慢及成本高昂等诸多局限性,限制了其应用范围。与之相比,更早提出“慢思考”概念的360通过其首创的CoE(Collaboration of Experts,专家协同)技术架构及混合大模型对“慢思考”进行落地实践,...……更多
新物种?联想Tech World 2024:AI的一切才刚刚开始
...在网络速度、云端效率、成本考量、数据隐私等方面存在局限性。而在混合式人工智能框架中,个人大模型和企业大模型,以及在其基础上开发出的个人智能体和企业智能体,将与公有大模型共存互补,提供更加个性化的服务并...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称,该模型可以解决科学、编程和数学等更...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。OpenAI o1 模型...……更多
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...“秋季发布”(9月至11月)要更早。上述报道称,专注于推理能力的人工智能“草莓”发布前后还有一些亟待解决的问题,但看似“仓促上马”似乎说明OpenAI感受到了大语言模型驱动产品领域的激烈竞争压力,希望通过近几个月...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
高考过后,看“AI+教育”发展方向
...限。对在教育领域应用AI而言,人们应该认识到依赖AI的局限性,培养发展人类的智慧和创造力仍是“AI+教育”阶段的重要目标。 目前,AI 在教育中的应用已经取得了一定进展。不少国产AI教育应用或设备可以根据学生的学习情...……更多
o1核心作者分享:激励AI自我学习,比试图教会AI每一项任务更重要
...绍下Hyung Won Chung,从公布的o1背后人员名单来看,他属于推理研究的基础贡献者。资料显示,他是MIT博士(方向为可再生能源和能源系统),去年2月加入OpenAI担任研究科学家。加入OpenAI之前,他在Google Brain负责大语言模型的预训...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今为止,解决或协助解决高等级数...……更多
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
...结合所有这些模式的模型,OpenAI仍在探索模型的功能及其局限性。新语音模式是一种语音聊天助手。据Business Insider(商业内幕)报道,它能够与用户进行自然的来回对话,能够带着情感说话,它可以假装兴奋、友好,甚至讽刺...……更多
更多关于科技的资讯:
复旦大学漆远:DeepSeek将推理成本降至百万token仅1元人民币,加速AI普及
上海科学智能研究院院长、复旦大学浩清特聘教授漆远出品|搜狐科技作者|郑松毅2月21日-23日,2025全球开发者先锋大会在上海举办
2025-02-22 11:50:00
DeepSeek等AI大模型加持 !贵州大数据集团多款政务智能体应用“上新”
智能问政、政策咨询助手、政务办事小助······随着多款自研政务智能体应用“上新”,贵州大数据集团国产算力服务器已完成DeepSeek系列大模型本地化部署
2025-02-22 11:52:00
奔驰高管:我们新车量产前都会经历“地狱级”的安全测试
快科技2月22日消息,新车量产之前都要经历严格的测试,比如大家熟知的冬测和夏测,实际上还有非常多的项目,以此验证整车的质量
2025-02-22 12:00:00
剧情太恶心!网友呼吁《难哄》下架 女主被骚扰还安慰犯罪者家属
2月22日消息,近日,电视剧《难哄》被网友呼吁下架。剧情中女主八集遭遇六次性骚扰,还去安慰犯罪家属,引起网友不满。不少网友纷纷在社交媒体上呼吁下架该剧
2025-02-22 12:00:00
王兴兴他是个天才!俞敏洪自嘲无法成DeepSeek和宇树:中国传统教育必须要改革
快科技2月22日消息,在亚布力中国企业家论坛第25届年会”上,俞敏洪发言称,自己无法成为DeepSeek和宇树科技。俞敏洪表示
2025-02-22 12:00:00
快科技2月22日消息,近日,中国科学院力学研究所宣布,我国自主研发的临近空间宽域飞行器“鸣镝”系列(型号MD-22)已成功完成关键性飞行试验
2025-02-22 12:30:00
打破行业十几年固化!米家空调上出风Pro获UET好产品奖
快科技2月22日消息,据小米官方介绍,小米米家空调上出风Pro 1.5匹等三款产品荣获“UET好产品奖”。该奖项是由中国家用电器研究院发起
2025-02-22 12:30:00
马斯克裁员大刀砍向美国交管局:自动驾驶监管人员减半
快科技2月22日消息,马斯克执掌大权后频频使用雷霆手段,而近日,他又将目光瞄向了美国交管局。据《华盛顿邮报》21日援引知情人士消息称
2025-02-22 12:30:00
200万一辆 马斯克投的飞行汽车试飞:垂直能升降
快科技2月22日消息,近日,美国电动飞行汽车公司Alef Aeronautics完成了Model A原型车在城市环境中的飞行测试
2025-02-22 13:30:00
快科技2月22日消息,近日,在黄河宁夏中卫段出现了令人惊叹的自然景观。正值冬末春初,受气候、降水及温度等多重因素影响,原本奔腾不息的黄河水在此刻竟呈现出如“翡翠”般晶莹的绿色
2025-02-22 13:30:00
东疆文旅融合玩出新花样 打造特色海洋旅游目的地 扫码阅读手机版
这两天,“飞机堵马路上了!网友:可能这辈子就碰上这一次”等相关视频霸屏市民的朋友圈。记者从东疆综保区获悉,这架堵在路上的退役空客A330-200飞机将停放在日出东疆·露营基地
2025-02-22 13:38:00
本文转自:人民网人民网北京2月22日电 (焦磊)近年来,随着人们对生活品质的追求不断提高,舒适家居已成为大众消费的热点
2025-02-22 13:57:00
首批骁龙8s至尊版旗舰!REDMI Turbo 4 Pro用上1.5K直屏+金属中框
快科技2月22日消息,高通将在Q2骁龙8s至尊版移动平台,小米Civi 5 Pro、REDMI Turbo 4 Pro将会是首批搭载的机型
2025-02-22 14:00:00
据北京日报消息,昨天,《哪吒之魔童闹海》(以下简称《哪吒2》)票房突破127亿元,其IP衍生品也在市场上取得空前成功,甚至出现了一“吒”难求的盛况
2025-02-22 14:15:00
国产新作《解限机》在海外风评大好:美女机师太诱人
国产机甲新作《解限机》Demo测试预下载已于近日开启。有国外推主被游戏强大的捏脸功能震撼,分享美女机师号召粉丝来体验一下
2025-02-22 14:30:00