• 我的订阅
  • 头条热搜
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
... o1 在基准测试上性能超过了竞争对手,但它还远未达到饱和状态。论文标题:LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench 论文地址……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...续性记忆,不能推理(只要推理的定义是合理的)、不能规划。」Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...mini一次!亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview...……更多
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
...能够显著增强系统的自适应能力。例如,GenAI 可以分析并规划系统策略,自动调整配置以应对环境变化。尽管已有一些研究探索了 GenAI 在自适应系统中的应用,但该领域尚缺乏系统性和深入的研究。因此,本论文旨在为研究人...……更多
很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3
...况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有AGI”。当然,ARC-AGI只是AI领域的重要基准之一,对AGI的定义只是其中之一。肖莱称,主...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...径庭。从下面这张图中可以看到,LLM在各种基准测试上的饱和速度越来越快。几乎是每提出一个新的测试集,模型就能迅速达到人类水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...PT-4V 无法区分信念和真实世界状态。BIP-ALM 小模型 + 逆向规划超过 GPT-4V那么,我们该如何缩小 AI 模型和人类表现之间的差距?该团队提出了一种新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language M……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...boMamba图 1. RoboMamba 具备的机器人相关能力,其中包括任务规划、提示性任务规划、长程任务规划、可操纵性判断、可操纵性生成、未来与过去预测、末端执行器位姿预测等。摘要机器人操纵的一个基本目标是使模型能够理解视觉...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...做的事情是否正确,而且最后很多常用的行业基准也趋于饱和,需要重新找到适合o1能力的基准测试。除了模型的开发历程,研究人员们还被问到了自己最喜欢的o1模型用例。Hyung Won Chung表示,o1可以成为很好的编码助手。他自己...……更多
理想的智能驾驶,到底「City 不 City」?
...能够在各种道路条件下行驶; 绕行丝滑:具备时空联合规划能力,对道路障碍物的避让和绕行更加流畅;路口轻松:通过超视距导航选路能力,在复杂路口也能顺畅通行;默契安心:考虑用户心理安全边界,实现分米级微操,...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...型的性能随着深度的增加而增加,但似乎在 8 层左右达到饱和,这表明深度很重要,但不能超过某个点。 ……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
... dynamics bootstrapping》,参阅机器之心报道《补齐 Transformer 规划短板,田渊栋团队的 Searchformer 火了》。为了执行规划,他们要训练一个 Transformer 来建模一个 token 序列,而该序列则是以顺序方式来表示该规划任务、A* 算法的计……更多
从辅学工具到成长伙伴,科大讯飞重构学习机想象力
...将在暑期发布(1)AI 1对1精准学能力提升,虚拟老师1对1规划学习路径2019年科大讯飞发布首款AI学习机,持续通过软件硬件创新引领行业发展。首创的AI精准学、AI作文批改、AI口语陪练、作业过滤、AI手写笔、类自然光&微纳米...……更多
...策的实施,促使学生对学业和未来的职业生涯要及早做出规划。高中生经验不足,对生涯规划比较陌生,因此特别需要家长指导帮助孩子做好生涯规划。高中生生涯规划易出现的问题问题一:学生缺乏职业生涯教育。很多学生都...……更多
旅游如何更精准规划?多个景区及文旅平台接入DeepSeek
...亿参数模型,平台创新实现智能客服精准问答、行程动态规划、应急事件AI推演等场景,让“一部手机管景区、游山水”成为现实。同日,复星旅游文化集团(复星旅文,1992.HK)也宣布,成立AI Lab(人工智能创新中心),专注于...……更多
长春“紫东长空”低空大模型正式发布
...土壤情况等地理数据,结合降水、日照等气象数据,政策规划、人口布局等公共数据,玉米种植的农业技术等知识数据,综合多维度数据进行逻辑思考和研究判断,输出解决方案,告诉我们这块土地是否适合种植玉米、种植什么...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知...……更多
大厂AI,还干不掉张雪峰
...填报只是起点,未来还可能延伸至大学学习、考研、职业规划等环节,长期留住用户。其次是数据积累。一瓢提到,有的大厂还会和一些教育机构合作,获得一些非公开的报考数据,也能不断丰富模型的能力。最后是技术验证。...……更多
钉钉发布全新AI搜索,将面向深度用户邀请测试
...系统。如在思考系统方面,AI助理具备更强的记忆和推理规划能力。用户授权后,可以让AI助理记住与其相关的信息、习惯、偏好等,包括姓名、岗位、上下级关系、工作任务进展,也支持用户自定义设置记忆,让AI助理的生成结...……更多
o1带火的CoT到底行不行?新论文引发了论战
...方法,使用 CoT 时 LLM 能更好地生成可执行的形式化方案规划;但如果使用语言模型来生成方案规划,然后再使用外部符号解算器来求解该规划,性能表现还会更好一些。这样的结果忽然让 CoT 的处境变得有点尴尬:在 CoT 有用的...……更多
集群建设不断加码,齐鲁软件园做对了啥
...产业策源地与高质量发展的前沿技术高地。随着不断强化规划引领、引导产业集聚、优化产业生态,齐鲁软件园的软件和新一代信息技术产业取得蓬勃发展,形成软件和信息技术服务、人工智能、集成电路、信息技术应用创新等...……更多
酷开超级智能体获国内首张AI硬件智能体应用成熟度证书
...错误率低于5%。在决策与任务执行层面,AI理解、推理、规划与动态优化四大能力驱动精准响应;执行层支持15+种工具一键调用,任务成功率95%,响应延迟低于2秒;影音模块通过广度/深度双路径搜索,保障内容检索效率与速度。...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...ath模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。不过,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格...……更多
打造“新城建”,青云科技助力城投集团落地大模型应用示范中心
...业开发投资建设及运营。城投集团以“投-建-运”的模式规划人工智能算力中心,初步规划建设1000P规模的智算中心,包括智算集群硬件基础设施、管理软件及服务系统等。挑战与痛点技术稳定与成本控制的平衡城投集团需要确...……更多
ai硬件产品规划流程
...正在变革。下面这篇文章是笔者整理分享的关于硬件产品规划手册的相关内容,大家一起来看看吧!随着人工智能(AI)的快速发展和全球数字化转型的加速,硬件产品正经历着前所未有的变革。在这个时代,智能化、网络化、...……更多
工业软件之芯!阿里达摩院自研敏迭求解器斩获权威赛事冠军
...功卫冕。此次,敏迭延续在能源电子领域大规模混合整数规划难题求解上的优势,并创新性地引入多种前沿AI技术和云计算能力进行加速,在比赛中实现时间和精度双重制约下的高效优化求解,再次取得数字子赛道第一名。同时...……更多
AI圈又炸锅了!Claude 4突然发布:连跑7小时不带喘气
...理解能力刮目相看。这种“超长待机”、深度记忆和精细规划的能力,意味着在那些需要长时间投入、多步骤推理的超级复杂任务中,能够更出色地理解并一步步执行那些错综复杂的计划。比如在之前广受关注的“Claude玩宝可梦...……更多
...绕政策导向与业务需求,系统性部署大模型技术应用场景规划与实施路径,推动集团向“智能建造+智慧城市”双轮驱动的数智化转型。集团相关领导、各权属企业相关负责人及集团各部室负责人参加会议。顶层统筹布局 明确“...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...一个生成数据分析报告的工作流,工作流共包含数据分析规划、代码生成与执行、分析报告总结三步,每一步都有一个单独的智能体。数据分析规划:数据分析规划智能体编写一份全面的数据分析计划,概述分析数据所需的步骤...……更多
更多关于科技的资讯:
浪潮智慧科技深耕标准建设:3项主导数字山东技术规范成功获批
近日,山东省大数据局正式下发《关于发布〈矿产资源数据治理规范〉等11项数字山东技术规范的公告》,其中由浪潮智慧科技主导编制的《智慧渔业养殖系统建设规范》《数字孪生机场模型构建规范
2025-10-11 10:24:00
长白时评评论员 杨飞近日,陕西西安等地出台政策,全面暂停网约车“一口价”等低价营销行为,严禁任何形式的价格欺诈和恶意压价
2025-10-11 10:47:00
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00