新论,电脑,任务,模型,动作,测试头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操

Claude操控电脑，究竟可以做到什么程度？新加坡国立大学团队在20多个场景下做了全面测试，其中最引人瞩目的是：AI可以自动玩手游清日常任务了！研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成今天的模拟...……更多

2024-11-26 09:43:00新论,电脑,任务,模型,动作,测试

谷歌版贾维斯即将问世，最强Gemini 2.0加持！AI自主

...科幻中的贾维斯，已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式，爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头，下一个发力的战场。AI接管人类电脑，就是下一个未来！几...……更多

2024-10-28 09:51:00贾维斯,贾维,时代,电脑,模型,图标

o1带火的CoT到底行不行？新论文引发了论战

To CoT or not to CoT？OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多

2024-09-21 09:37:00新论,推理,符号,性能,任务,数据

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...信息填表。AI推理已至瓶颈，下一个爆破点，就是AI操作电脑！Claude 3.5深夜迎来重磅升级！不出所料，Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来了。不过，「超大杯」Opus依然没有亮相。让...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

安兔兔评测pc版正式发布，欢迎大家下载体验

...UX（用户体验）四大项，通过模拟多种复杂场景最终得到电脑性能评分。另外，除了传统的x86-64架构之外，安兔兔评测PC版还支持Arm64架构的新AIPC，两个版本评测体系完全一致，分数可以横向对比。下载安装时请注意选择符合您...……更多

2024-10-04 00:33:00评测,体验,测试,模型,处理,电脑

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...《给小学数学题加句「废话」，OpenAI o1 就翻车了，苹果新论文质疑 AI 推理能力》）。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤」。然而，事实真的是这样吗...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

一个弹窗整懵Claude，瞬间玩不转电脑了

纳尼？AI Agent容易受到弹幕影响！甚至比人类更容易。事情是这样的，3位来自斯坦福、港大的研究人员发现：人类有时会被弹窗分散注意力，但对于AI Agent（包括当前王牌选手Claude)来说，情况变得更糟了！从数字来看，面对实...……更多

2024-11-09 09:52:00电脑,智能,攻击,任务,研究,成功

OpenAI劲敌甩大招！Claude 3.5模型升级，能力反

...网友直呼，“像魔术，AI Agent真的来了。”AI自己“玩”电脑这项能力的亮相，似乎又把AI大模型“卷”到了新高度。之前各大厂商为了提升模型逻辑推理能力，可谓是下了不少功夫。但在“执行”和“操作”能力方面，一直还是...……更多

2024-10-23 14:27:00劲敌,模型,训练,能力,升级,电脑

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年，效果好的AI生成模型层出不穷，又以OpenAI、Meta...……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...团队提出的 DINO-WM 是一种可基于离线的轨迹数据集构建与任务无关的世界模型的简单新方法。据介绍，DINO-WM 是基于世界的紧凑嵌入建模世界的动态，而不是使用原始的观察本身。对于嵌入，他们使用的是来自 DINOv2 模型的预训...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

...的风险。GUI Agent 基于大模型针对预设的任务自动化控制电脑手机等设备，即 “大模型玩手机”。如图 2 所示，不同于现有的研究，研究团队考虑即使用户和平台都是无害的，在现实世界中部署时，GUI Agent 不可避免地会面临多种...……更多

2024-09-03 09:59:00模型,环境,智能,手机,环境,干扰

重大突破！Claude 3.5迎重磅升级：AI像人一样操控电

...引人注目的就是Claude 3.5 Sonnet模型，可以像人类一样操控电脑。Claude 3.5 Sonnet模型的升级，使得AI可以模拟人类与计算机的交互方式，包括移动光标、点击屏幕以及通过虚拟键盘输入信息。这一功能的实现，得益于Anthropic推出的一...……更多

2024-10-23 17:55:00重磅,突破,升级,电脑,人类,计算机

GR-2登场！ByteDance Research提出机器人

...出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性，预示着机器人大模型技术将爆发出巨大潜力和无限可能。GR-2 官方项目页面：https://gr2-manipulation.github.io初识 GR-2：百炼出真金和许多大模型一样，GR-2 的训练包...……更多

2024-10-10 09:57:00模型,机器,世界,物体,任务,机器

让“数字人老板娘”活力四射

...张吉英热情洋溢的语调，却有很强的感染力。我在笔记本电脑上打开了AI设计后台，上传录音，经过AI处理后，一段带有一点“中式风味”的英语视频就生成了。“确实，和原先呆板的视频相比，这个生动多了，活力四射。”我...……更多

2024-06-26 05:55:00老板娘,活力,老板,数字,陈超,义乌

美媒：GPT-4通过图灵测试

...的人类测试对象，让他们认为自己在和人类对话。在一篇新论文中，来自加利福尼亚大学圣迭戈分校的认知科学研究人员发现，在超过一半的时间里，人们会把GPT-4写的文本误认为是有血有肉的人写的。换句话说，大语言模型毫...……更多

2024-05-21 16:36:00图灵,测试,图灵,圣迭戈,研究,人类

AI电脑操控完整测评：全自动搞定崩铁日常、还能创建炉石卡组

...道，近日新加坡国立大学团队，在20多个场景下对Claude的电脑操控能力进行了全面测试。结果显示，AI不仅能自动完成手游日常任务，还能执行复杂的办公任务。研究中选用了米哈游《崩坏：星穹铁道》，可以跟它说”帮我完成...……更多

2024-11-25 17:29:00全自动,电脑,任务,办公,框架,新加坡国立大学

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

快科技10月13日消息，近日，苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文，揭示了大型语言模型（LLM）在数学推理方面的显著局限性。尽管……更多

2024-10-13 14:15:00逻辑推理,新论,推理,缺陷,逻辑,模型