• 我的订阅
  • 头条热搜
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚至还能在法律、医学和金融等专业领域提供决策...……更多
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如听起来那样神秘,甚至令人担忧?为了破解...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI agent 轨迹数据集,整合了多模态推理...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示,问题不在于 Transformer,而是因为 Claude 3.5 仍然是一个自回归大模型。无论架构细节如何,使用固定数量的计算步骤来计算每个 t...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,进一步拉近多模态模型和人类认知能力的...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 论文地址……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能,能够成为支持科研人的效率工具,但负责标注和评估的专家依旧发现了一些局限性。首先,OpenScholar不能始...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。首先,OpenAI ...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...,这也意味着它在处理图像、视频等复杂数据时可能面临局限性。 还有价格。首先要说明的是,在官方还未发布甚至官宣定价之前,实际「草莓」模型的价格是个未知数。但几乎可以肯定,「草莓」模型的训练和推理成本都会...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...中可以打败90%的人类。不过,GPT-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4...……更多
对标o1,Kimi放出了最能打的国产模型
...LaTeX 格式难以描述的几何图形类问题。此外,它还有一些局限性需要突破,包括对于过于简单的数学问题。例如「1+1=?」,k0-math 模型可能会过度思考。「意图增强」等三大推理能力注入 Kimi 探索版新的强化学习技术范式带来的...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...良好,但难以应对需要结构化多步推理的复杂任务。这种局限性在需要综合多个时间序列信息的复合问题中尤为突出,限制了模型在复杂应用场景中的适用性。为了应对这些挑战,南加州大学的研究人员提出了一种全新的时间序...……更多
一些人在ChatGPT中瞥见了AGI 另一些人:啥也不是
...人工智能专家有动机大肆炒作 GPT-4 的潜力,同时淡化其局限性。还有一些人抱怨说,这些实验是不可复制的,因为当提示重复出现时,GPT-4 很少以同样的方式做出反应,而且 OpenAI 也没有分享其设计的细节。当然人们还会问,如...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...互动的有效控制,尤其是在多角色场景中。为了解决这些局限性,来自北京大学的研究团队及其合作者提出了一项新任务:自定义漫画生成,并提出了 DiffSensei,这是一个专门用于生成动态多角色控制漫画的创新框架。DiffSensei ...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...经验来实现更据适应性的学习。这能克服思维链等方法的局限性。如图 2 所示。 左侧是基本思维链推理,其按顺序生成中间步骤,其中每个步骤都是下一步骤的直接条件,直到得到最终答案。右侧是新提出的结构化推理方法,...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
...论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。在...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...工智能在复杂逻辑推理、抽象概念理解上,还存在明显的局限性。数学、物理和围棋虽然都强调逻辑思维,但侧重点不同。围棋侧重于空间布局和策略选择。数学、物理的基本概念和公理构成了一个演绎系统,通过这些基本元素...……更多
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
...使用人工标注的关键帧:即便如此,由于姿态估计模型的局限性,最终Chamfer Distance仍达0.33这些实验结果揭示了当前AI模型的两个关键局限:1、视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧图...……更多
ChatGPT更聪明了!OpenAI推出GPT-4大型语言模型:在诸多测试中表现比人类都好
...I 还提供了描述 GPT-4 功能的技术性论文,以及详细描述其局限性的系统模型 Card。OpenAI 计划通过 ChatGPT 及其商业 API 为用户提供 GPT-4 的文本功能支持,但目前还需要等待。IT之家这里需要提醒一下,GPT4 目前仅 ChatGPT plus 账号可用...……更多
对话王田苗:万亿市场之下,大模型 + 机器人还有四大问题未解决
...在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力,但在从理解、推理、判断、执行到运动系列过程中,还涉及其他多种模型算法和软硬件协同的问题,包括...……更多
AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
... AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性,以及高质量训练数据对于弥合这些差距的潜力。 在数据集方面,ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集,模拟复杂的社会情...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...低的偏见,同时能够有效地识别代码生成的高质量响应。局限性和未来工作由于评估标准不断变化以及评估新的LLM功能的需要,评估LLM具有挑战性,通过开源贡献扩大我们的数据收集范围可以解决这个问题。此外,模型主要在上...……更多
2023IDEA大会:让大模型更好应对复杂问题
...存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。为此,IDEA研究院团队研发了思维图谱技术,让大模型和知...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...这种做法使得系统比较和判断人工智能模型存在的风险和局限性的工作变得更加复杂。4.经济生成式AI领域投资激增。据统计,尽管去年人工智能领域的总体投资有所下降,但生成式AI领域的投资资金激增,比 2022 年增加了近八倍...……更多
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
...来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准...……更多
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过...……更多
一键解锁ChatGPT原理与应用
...的人应该都能理解)。下面是GPT模型演进历史:二、GPT的局限性综上,GPT模型具有明显的、突破性的优势。典型的优势包括:①强大的语言理解能力;②极为广泛的知识储备;③学习能力与推理能力等等。这些能力让人们感觉人...……更多
“百模大战”,国产 GPT 大全
...支持多语言。文心一言的不足之处是个性化和创造力存在局限性。文心一言入口:https://yiyan.baidu.com/welcome通义千问“通义千问”是阿里云推出的超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多语言支持。能...……更多
更多关于科技的资讯:
明星大咖云集:央视跨年晚会节目单公布
12月31日消息,据媒体报道,《启航2025——中央广播电视总台跨年晚会》节目单正式出炉,这档晚会将于晚上8点正式播出
2024-12-31 18:41:00
卫星直击179人遇难的韩国济州空难:机场大片被熏黑
当地时间2024年12月29日上午9时许,韩国济州航空公司一架客机在降落中飞机发生鸟击,降落时冲出跑道,与跑道尽头的围墙等设施发生碰撞
2024-12-31 18:41:00
抖音李亮:字节70亿美元购买英伟达芯片不实 张一鸣从未参与算力采购和数据中心建设
快科技12月31日消息,针对今日媒体报道的字节跳动70亿美元购买英伟达芯片的消息,抖音集团副总裁李亮回应称,相关报道多处不实且数字不准确
2024-12-31 18:41:00
华为鸿蒙智行官宣入驻天猫京东!全系车型都将上架
快科技12月31日消息,今天鸿蒙智行官方宣布入驻天猫、京东两大电商平台,对应的官方旗舰店也在今天正式开业。店铺内上架了包含近期刚上市的享界S9
2024-12-31 18:41:00
胖东来:明日起 自有品牌部分商品调整为同城线上限购销售
快科技12月31日消息,据媒体报道,今日,胖东来发布通知称,胖东来超市自有品牌部分商品调整为同城线上限购销售,凭会员账号每周每个单品按照限购数量购买一次
2024-12-31 18:41:00
沪渝蓉沿江高铁最后一段宜昌至涪陵正式开工:全程时速350公里
国铁集团官方宣布,12月31日,赶在2024年的最后一天,沪渝蓉沿江高铁宜昌至涪陵段(沿江高铁宜涪段)正式开工建设!沿江高铁宜涪段起自在建的沪渝蓉沿江高铁武汉至宜昌段宜昌北站
2024-12-31 19:12:00
赵明:荣耀12月海外销量占比突破50%!真正成为国际化企业
快科技12月31日消息,今天,荣耀CEO赵明在微博上发布了管理团队新年致辞。赵明透露,在今年12月,荣耀的海外销量占比突破50%
2024-12-31 19:12:00
大嘴猴5A级抗菌秋裤到手19元:锁温保暖 赠退货宝
大嘴猴5A秋裤原价46元,下单领取优惠券,到手价为19元。购买链接:天猫(券后19元)这款秋裤采用远红外热感升温科技,面料纤维吸收远红外线光波
2024-12-31 19:12:00
售价1.5亿!宝骏E100计划登陆越南:将成当地市场最便宜的车
快科技12月31日消息,据媒体报道,TMT汽车与上汽通用五菱合资公司达成协议,将三款小型低成本电动汽车Baojun Yep
2024-12-31 19:12:00
购物狂欢、电音跨年、烟花秀……元旦假期济南商场活动缤纷来袭
元旦假期,济南多家商场购物中心不断“上新”,超多福利与精彩活动吸引潮流一代前往现场打卡。消费抽大奖、DJ电音倒数跨年、新春启幕跑
2024-12-31 19:21:00
近日,交通运输部科技司组织综合交通运输大数据专项交通强国建设试点两项试点任务验收工作,高德地图承担的“综合交通大数据提升综合交通运输服务便捷化”任务顺利通过验收
2024-12-31 19:38:00
美女COS《剑星》伊芙:身材完美还原
日前,国外美女@Abi Aikou分享了其COS《剑星》伊芙的最新作品。据称服装灵感来自游戏更新的假日兔子战衣,这套服装完美的展示了Coser的性感身材
2024-12-31 19:42:00
罗技ERGO M575 S鼠标首发269元:配备无线轨迹球
快科技12月31日消息,罗技ERGO M575 S鼠标目前已经上市,首发269元。据介绍,罗技ERGO M575 S由罗技Ergo Lab的专家开发研制
2024-12-31 19:42:00
四川一长寿老人喜迎124岁生日:现已六世同堂 每天必食用猪油
快科技12月31日消息,据媒体报道,今日,在四川省南充市南部县花罐镇柴氏祠村,一位名叫邱柴氏老人迎来她的124岁生日。据了解
2024-12-31 19:42:00
2149元 蓝戟Intel Arc B580 Tri OC显卡终于开售!目前仅在中国销售
快科技12月31日消息,前不久蓝戟正式发布了全新Intel Arc 580系列显卡,共推出了ARC B580 PHOTON
2024-12-31 19:42:00