基准,机器,任务,学习,基准,自然语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

openai推出mle-bench新基准

...机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。IT之家注：Kaggle是一个非常受欢迎的平台，专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛，包括数据预测...……更多

2024-10-12 20:06:00基准,机器,任务,学习,基准,自然语言

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...g up 显著推动了大语言模型（LLMs）研究的发展，展示了在自然语言处理（NLP）中推理和泛化能力的显著进步。为了理解多模态信息，多模态大语言模型（MLLMs）应运而生，赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...轨迹显得尤为重要。如今，具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术，其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中，具身智能体必须充分理解语言指...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

限定120分钟科研挑战，o1和Claude表现超越人类

...并且都有权限使用所需的计算资源，如GPU。然后，AI通过自然语言处理和编程能力来执行任务，而人类专家则通过编码和实验来完成任务。执行结束后，每个环境都有一个评分函数，用于衡量Agent或人类专家提交的解决方案的效...……更多

2024-11-26 09:46:00科研,人类,人类,专家,任务,评估

Bengio团队提出多模态新基准，直指Claude 3.5和

...Visual Question Answering, VQA）任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案，评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询，而不涉及图像中嵌入...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

什么是AGI？人工智能的未来

...应用在了各个领域，比如：机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是：我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标，而不是我们构建了类似智能人脑...……更多

2024-03-19 06:00:00人工智能,人工,智能,人工智能,智能,人工

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...eview 的受欢迎程度远远高于 GPT-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。在需要更强大推理能力的领域，人们更青睐 o1-preview。安全思维链（CoT）推理为安全和对齐提供了新的思路。Open...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

Pika爆火，但AI视频还没到「GPT时刻」；首个GPT-4

...T-4控制的多样性。研究依赖于思维链和零样本学习，允许自然语言直接转换为机器人动作。（来源：“量子位”微信公众号）《微软小模型击败大模型：27亿参数，手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2，它在...……更多

2023-12-14 09:34:00模型,微软,人形,早报,机器人,机器

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...数十到数百个任务。如何解决呢？近年来，大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样，LLM 已经应用于机器人的多个方面，包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...过现在有了Gemini，一切就变得简单了起来。首先，通过自然语言的Prompt，告诉Gemini去过滤相关的科学论文：只需片刻时间，Gemini就能找到相关论文和非相关的论文。而后，继续用Prompt告诉Gemini去阅读相关论文，并提取关键数据...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

智能体首达Kaggle Grandmaster,华为结构化推

...外部工具（如超参数优化算法、集成方法、计算机视觉和自然语言处理库）协作的内部函数，从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程：首先从一个 Kaggle URL 开...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...igLIP）进行了比较，结果发现，PaLI-3 虽然在标准图像分类基准上略微表现不佳，但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能，特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

科学家建立新评价基准，助力评估大模型数据分析能力

...具。以 GPT-4 为代表的大型语言模型，它们已经能够理解自然语言查询，并能生成相应的代码或分析，让自动数据分析变得更加接近现实。例如，Devin 的成功，激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美；并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，而所需计算量仅为后者的1/6。与其他同等大小模型相比，DCLM-7B的MMLU得分超越Mistral-7B，接近Llama 3 8B。最后……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

...或图像中物体检测及视觉定位。三位一体，高效能打通自然语言、图像等多模态任务处理“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合，即InternImage-G通用视觉大模型、用...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

首个多模态连续学习综述，港中文、清华、UIC联合发布

...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的，研究人员通常会利用多个数据集或将单个数据集划分为多个子集，以模拟 MMCL 环境中的...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...本的输出，每个都包含思考和回答部分。且思考过程采用自然语言形式，便于解释和利用预训练知识。然后系统会将这些输出中的回答部分（不含思考过程）提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...士生 Ruochen Li，指导作者为其博士生导师 Xinya Du，专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上，其问题生成工作入选最具影响力的 AC...……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

下载次数破39万！CMU、Meta联合发布VQAScore文

...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频，广受用户喜爱。然而，这些模型在处理复杂的提示词时仍存在不足。例如，当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生