基准,机器,任务,学习,基准,自然语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

openai推出mle-bench新基准

...机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。IT之家注：Kaggle是一个非常受欢迎的平台，专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛，包括数据预测...……更多

2024-10-12 20:06:00基准,机器,任务,学习,基准,自然语言

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...g up 显著推动了大语言模型（LLMs）研究的发展，展示了在自然语言处理（NLP）中推理和泛化能力的显著进步。为了理解多模态信息，多模态大语言模型（MLLMs）应运而生，赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...轨迹显得尤为重要。如今，具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术，其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中，具身智能体必须充分理解语言指...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

限定120分钟科研挑战，o1和Claude表现超越人类

...并且都有权限使用所需的计算资源，如GPU。然后，AI通过自然语言处理和编程能力来执行任务，而人类专家则通过编码和实验来完成任务。执行结束后，每个环境都有一个评分函数，用于衡量Agent或人类专家提交的解决方案的效...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

Bengio团队提出多模态新基准，直指Claude 3.5和

...Visual Question Answering, VQA）任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案，评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询，而不涉及图像中嵌入...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

什么是AGI？人工智能的未来

...应用在了各个领域，比如：机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是：我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标，而不是我们构建了类似智能人脑...……更多

2024-03-19 06:00:00人工智能,人工,智能,人工智能,智能,人工

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...eview 的受欢迎程度远远高于 GPT-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。在需要更强大推理能力的领域，人们更青睐 o1-preview。安全思维链（CoT）推理为安全和对齐提供了新的思路。Open...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

Pika爆火，但AI视频还没到「GPT时刻」；首个GPT-4

...T-4控制的多样性。研究依赖于思维链和零样本学习，允许自然语言直接转换为机器人动作。（来源：“量子位”微信公众号）《微软小模型击败大模型：27亿参数，手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2，它在...……更多

2023-12-14 09:34:00模型,微软,人形,早报,机器人,机器

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...数十到数百个任务。如何解决呢？近年来，大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样，LLM 已经应用于机器人的多个方面，包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...过现在有了Gemini，一切就变得简单了起来。首先，通过自然语言的Prompt，告诉Gemini去过滤相关的科学论文：只需片刻时间，Gemini就能找到相关论文和非相关的论文。而后，继续用Prompt告诉Gemini去阅读相关论文，并提取关键数据...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

智能体首达Kaggle Grandmaster,华为结构化推

...外部工具（如超参数优化算法、集成方法、计算机视觉和自然语言处理库）协作的内部函数，从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程：首先从一个 Kaggle URL 开...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...igLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

科学家建立新评价基准，助力评估大模型数据分析能力

...具。以 GPT-4 为代表的大型语言模型，它们已经能够理解自然语言查询，并能生成相应的代码或分析，让自动数据分析变得更加接近现实。例如，Devin 的成功，激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美；并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，而所需计算量仅为后者的1/6。与其他同等大小模型相比，DCLM-7B的MMLU得分超越Mistral-7B，接近Llama 3 8B。最后……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

首个多模态连续学习综述，港中文、清华、UIC联合发布

...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的，研究人员通常会利用多个数据集或将单个数据集划分为多个子集，以模拟 MMCL 环境中的...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...本的输出，每个都包含思考和回答部分。且思考过程采用自然语言形式，便于解释和利用预训练知识。然后系统会将这些输出中的回答部分（不含思考过程）提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...士生 Ruochen Li，指导作者为其博士生导师 Xinya Du，专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上，其问题生成工作入选最具影响力的 AC...……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

下载次数破39万！CMU、Meta联合发布VQAScore文

...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频，广受用户喜爱。然而，这些模型在处理复杂的提示词时仍存在不足。例如，当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...，用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。最初版本Grok-0仅拥有330亿参数，经过数次改良后的Grok-1拥有3140亿参数，是当时全球参数量最大的开源大语言模型。即便这些参数在给定token上的激活...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

多模态竞技场对标90B Llama 3.2！Pixtral

...型一般有个问题，就是为了多模态的性能而牺牲了本身的自然语言性能，之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷，单单比较文本模型的性能，也在同等尺寸的模型中居于前列。另一点与大多数模型...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...全的策略？当前安全强化学习的应用进展如何？有哪些基准测试可以用于评估安全强化学习的性能？未来安全强化学习面临的挑战是什么？二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题，可...……更多

2024-10-09 09:51:00同济,学习方法,深度,理论,方法,应用

清华郑纬民院士：AI for Science的出现，让高性能

...的问题。特别是要反映人工智能问题中的神经网络运算、自然语言处理能力。4、评测程序包含必要的多机通信，因为是一个大的系统，由多机连起来的，需要有通信。最后，以清华大学为主的团队做了一个AIPerf来测试，于2020年1...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

一个弹窗整懵Claude，瞬间玩不转电脑了

...大学助理教授，今年的斯隆奖得主。她对具有社会意识的自然语言处理感兴趣。她的研究将语言学、社会科学与机器学习相结合，以解决少样本学习以及网络霸凌等社会问题。她曾在2013年毕业于上海交通大学ACM班，并取得计算...……更多

2024-11-09 09:52:00电脑,智能,攻击,任务,研究,成功

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安

...定律」和作为补充的「机器人第零定律」，这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来，OpenAI 已经在向着这个方向努力了。论文标题：Rule Based Rewards for Language Model Safety 论文地址：https://arxiv.org/pdf/……更多

2024-11-07 09:54:00定律,机器人,模型,规则,机器,安全