• 我的订阅
  • 头条热搜
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
... o1 在基准测试上性能超过了竞争对手,但它还远未达到饱和状态。论文标题:LLMs Still Can\'t Plan; Can LRMs? A Preliminary Evaluation of OpenAI\'s o1 on PlanBench 论文地址……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...续性记忆,不能推理(只要推理的定义是合理的)、不能规划。」Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...mini一次!亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview...……更多
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
...能够显著增强系统的自适应能力。例如,GenAI 可以分析并规划系统策略,自动调整配置以应对环境变化。尽管已有一些研究探索了 GenAI 在自适应系统中的应用,但该领域尚缺乏系统性和深入的研究。因此,本论文旨在为研究人...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...径庭。从下面这张图中可以看到,LLM在各种基准测试上的饱和速度越来越快。几乎是每提出一个新的测试集,模型就能迅速达到人类水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...PT-4V 无法区分信念和真实世界状态。BIP-ALM 小模型 + 逆向规划超过 GPT-4V那么,我们该如何缩小 AI 模型和人类表现之间的差距?该团队提出了一种新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language M……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...boMamba图 1. RoboMamba 具备的机器人相关能力,其中包括任务规划、提示性任务规划、长程任务规划、可操纵性判断、可操纵性生成、未来与过去预测、末端执行器位姿预测等。摘要机器人操纵的一个基本目标是使模型能够理解视觉...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。Hyung Won Chung表示,o1可以成为很好的编码助手。他自己...……更多
理想的智能驾驶,到底「City 不 City」?
...能够在各种道路条件下行驶; 绕行丝滑:具备时空联合规划能力,对道路障碍物的避让和绕行更加流畅;路口轻松:通过超视距导航选路能力,在复杂路口也能顺畅通行;默契安心:考虑用户心理安全边界,实现分米级微操,...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...型的性能随着深度的增加而增加,但似乎在 8 层左右达到饱和,这表明深度很重要,但不能超过某个点。 ……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
... dynamics bootstrapping》,参阅机器之心报道《补齐 Transformer 规划短板,田渊栋团队的 Searchformer 火了》。为了执行规划,他们要训练一个 Transformer 来建模一个 token 序列,而该序列则是以顺序方式来表示该规划任务、A* 算法的计……更多
...策的实施,促使学生对学业和未来的职业生涯要及早做出规划。高中生经验不足,对生涯规划比较陌生,因此特别需要家长指导帮助孩子做好生涯规划。高中生生涯规划易出现的问题问题一:学生缺乏职业生涯教育。很多学生都...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知...……更多
钉钉发布全新AI搜索,将面向深度用户邀请测试
...系统。如在思考系统方面,AI助理具备更强的记忆和推理规划能力。用户授权后,可以让AI助理记住与其相关的信息、习惯、偏好等,包括姓名、岗位、上下级关系、工作任务进展,也支持用户自定义设置记忆,让AI助理的生成结...……更多
o1带火的CoT到底行不行?新论文引发了论战
...方法,使用 CoT 时 LLM 能更好地生成可执行的形式化方案规划;但如果使用语言模型来生成方案规划,然后再使用外部符号解算器来求解该规划,性能表现还会更好一些。这样的结果忽然让 CoT 的处境变得有点尴尬:在 CoT 有用的...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...ath模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格...……更多
ai硬件产品规划流程
...正在变革。下面这篇文章是笔者整理分享的关于硬件产品规划手册的相关内容,大家一起来看看吧!随着人工智能(AI)的快速发展和全球数字化转型的加速,硬件产品正经历着前所未有的变革。在这个时代,智能化、网络化、...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...一个生成数据分析报告的工作流,工作流共包含数据分析规划、代码生成与执行、分析报告总结三步,每一步都有一个单独的智能体。数据分析规划:数据分析规划智能体编写一份全面的数据分析计划,概述分析数据所需的步骤...……更多
...整车智能才是新能源汽车智能化发展的正确方向。”按照规划,比亚迪未来将在智能化领域投入1000亿元,沿着整车智能的技术路线,加速汽车行业智能化转型。“整车智能,才是真智能”比亚迪之所以提出“整车智能”的概念...……更多
安兔兔评测pc版正式发布,欢迎大家下载体验
...NPU的支持,准确评判电脑的AI能力,以便让您可以更好地规划电脑在AI方面的使用场景。CPU测试部分,通过运行特定的AI任务和算法,对CPU的计算能力、数据处理速度以及指令执行效率进行评估,小到简单的数学运算,大到复杂的...……更多
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用
...算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...究任务,这意味着它不再仅限于生成答案,而是能够提前规划、自动导航互联网,甚至自主解决高度复杂的科学问题。 相比现有的 GPT-4 系列模型,「草莓」被寄予了厚望,可以帮助 AI 更好地模仿人类的思维过程,尤其是在数...……更多
转型关键期:如何高效构建AI产品线的专业能力和权威地位?
...从前到后,可以分为:转型之机、搭建团队、制定AI战略规划、AI商业化规划、内部AI工具建设、外部AI产品开发、申报权威荣誉、大模型备案、加强知识产权保护、培训和知识分享等10个方面,其中几个环节是在以后的产品研发...……更多
...文章链接。ChatGLM3还集成了自研的AgentTuning技术,在智能规划和执行方面相比于上一代ChatGLM2提升了1000%,并开启了国产大模型原生支持工具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。以代...……更多
google向美国用户推出人工智能驱动概览功能
...驱动的概览功能。此外,该公司还希望使用Gemini作为旅行规划等方面的代理。Google搜索部门主管利兹-里德(LizReid)说,公司为搜索建立了一个定制的Gemini模型,将实时信息、Google排名、长语境和多模态功能结合在一起。自去年...……更多
CVPR’24 Navsim挑战赛冠军方案!
...的研究表明,近年来涌现的不少端到端自动驾驶模型,在规划范式上存在一定问题。近期,NVIDIA 研究团队提出了一种新型的端到端自动驾驶框架 Hydra-MDP。在 CVPR 2024 NAVSIM(大规模端到端驾驶)挑战赛中,Hydra-MDP 获得了第一名和...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...索(MCTS)。草莓可能是一种具有特殊tokens(例如回溯、规划等)的混合深度模型。它可能会通过人类数据标注员和来自容易验证领域(如数学/编程)的强化学习进行训练。论文链接:https://arxiv.org/pdf/2408.03314参考链接:[1]https://...……更多
谷歌Gemini数学反超o1预览版!成本仅1/10、无需额外思考时间
...提升。不过倒也有网友表示,数学基准也没啥用。它已经饱和,而且污染了大多数模型的训练数据。在现实世界的数学难题里,这些还是没办法跟o1系列相提并论。虽然但是,谷歌升级模型还有一个用处。那就是push一下OpenAI,赶...……更多
AI智驾时代降临,端到端奏响“三重奏”
...感知和规控的“端到端”;小鹏的XNGP则被分为感知XNet、规划XPlaner、控制XBrain三个部分。这一做法等同于将感知、规划和控制三个模块全部揉进一个模型中。 智驾的端到端与模块化方案回顾过去数年,几乎所有的智驾企业都选...……更多
更多关于科技的资讯:
马化腾内部透露:把广告当内容来看待 看好未来AI带给广告的提升空间
快科技1月13日消息,据媒体报道,腾讯在今天下午召开了2024年度员工大会。在大会现场,腾讯公司董事会主席兼首席执行官马化腾发表了重要讲话
2025-01-13 18:53:00
放手让车自己去停:华为泊车代驾全球首个机场商用试点发布
快科技1月13日消息,华为乾崑智能汽车解决方案官方官宣,华为乾崑智驾ADS 3.0泊车代驾(VPD)在深圳宝安国际机场正式启动首个商用试点
2025-01-13 18:53:00
曝iPhone 17 Air堪称“实验机”!设计大改为可折叠iPhone铺路
快科技1月13日消息,马克·古尔曼最新曝光了苹果2025年计划,将推出一款全新的iPhone 17 Air,这款设备在设计上有所突破
2025-01-13 18:53:00
黄子韬回应持续掉粉:没抽中就取关会很伤心
1月13日消息,据媒体报道,艺人黄子韬在直播间送出30台车,其中10辆捐给妇女儿童基金会。直播送车后,黄子韬掉粉超百万
2025-01-13 18:53:00
英特尔CES又发新品 14代酷睿/酷睿Ultra怎么搭配主板
英特尔最近几年先后发布了12、13、14代酷睿,去年又带来了酷睿Ultra 200S系列处理器,而在今年又在CES上发布酷睿Ultra 200S系列的非K版本和B860/H810芯片组
2025-01-13 18:53:00
华恒隆科技固废检测:智能化与绿色化的深度融合
在环境保护和资源循环利用日益受到重视的今天,固废检测成为了确保工业废弃物合规处理、资源高效回收的关键环节。华恒隆,作为固废检测领域的先行者
2025-01-13 18:59:00
华恒隆科技铁矿石快速筛查系统:铁矿石筛查的核心引擎
在铁矿石资源日益紧张的今天,高效、准确地识别与分类铁矿石对于资源的高效利用和环境保护至关重要。华恒隆,作为矿石检测技术的领航者
2025-01-13 19:05:00
推动科普连接赋能 业内聚焦创新人才贯通式培养
本文转自:人民网人民网北京1月13日电 (记者孙阳)近年来,整合产学研多方优势资源,着力打造协同规范的科学素质建设生态
2025-01-13 19:13:00
路人在日本被火车撞或反遭铁路公司索赔:最高可达数百万
1月13日消息,媒体报道,近日在日本兵库县,两名中国女游客在铁路道口等红绿灯时遭列车撞击,一名当场身亡,另一名送医后也不幸身亡
2025-01-13 19:23:00
公园观赏鱼大量死亡 一男子被刑拘:嫉妒同行 投放杀虫剂
快科技1月13日消息,日前,重庆一公园观赏鱼大量死亡引发关注。网友晒出的画面显示,公园原本生机勃勃的湖面如今却成了一片死寂
2025-01-13 19:23:00
腾讯2024海外游戏大调整 马化腾点评:非常争气 海外业务已接近国内一半
快科技1月13日消息,今日下午,腾讯召开了以“凝心聚力”为主题的2024年度员工大会。会上,腾讯公司董事会主席兼首席执行官马化腾发表了重要讲话
2025-01-13 19:23:00
本月13日,拉卡拉支付股份有限公司(300773.SZ,以下简称“拉卡拉”)宣布斥资2.5亿+战略入股天财商龙,双方签署框架协议
2025-01-13 19:31:00
机器人灵巧手“肌腱”,谁在布局?关注恒辉安防、南山智尚
特斯拉灵巧手的驱控方案已经基本定型,用腱绳实现三级传动连接模组和末端手指,克服了重量与灵活性的问题。 根据“中国机器人网”
2025-01-13 19:45:00
三轮全责撞宾利被代位追偿引热议 网友:应借鉴美国的“无过错制度”
快科技1月13日消息,据报道,近日,浙江衢州,一位卖猪肉的老人开三轮车逆行下山,撞上了正常行驶的宾利欧陆GT轿车。事后
2025-01-13 19:53:00
周鸿祎AI短剧女一号演员亮相:气质美女演女王陛下
快科技1月13日消息,今晚,周鸿祎在最新视频中揭晓了海选胜出的女王陛下。此前,他宣布将拍摄一部约60集的穿越题材短剧,女主角是一位女皇帝
2025-01-13 19:53:00