基准,北大,生成,模型,文本,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

全模态对齐框架align-anything来啦：实现跨模态指

... 支持多种开、闭源对齐评估：支持了 30 多个多模态评测基准，包括如 MMBench、VideoMME 等多模态理解评测，以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架，支持...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...了新颖的视觉条件 3D 生成框架。他们在单一和稀疏重建基准上进行的数值和视觉比较表明，See3D 在经济高效且可扩展的视频数据上经过训练后，实现了显著的零样本和开放世界生成能力，明显优于在昂贵且受限的 3D 数据集上...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...多种操作技能。在实验中，RoboMamba 在通用和机器人评估基准上展示了出色的推理能力，如图 2 所示。同时，我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力，其推理速度比现有的机器人 MLLMs 快 7 倍...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

下载次数破39万！CMU、Meta联合发布VQAScore文

...图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能通过选择最佳候选图像来实际改善生成的图像。近年来，生成...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...粒度标注系统 VERIFIED，并基于此系统构建新的细粒度 VCMR 基准数据集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG），以推动细粒度视频理解的发展。论文题目：VERIFIED: A Video Corpus Moment Retrieval Be……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

文生图参数量升至240亿！Playground v3发布：深

...nd v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同，PGv3完全集成了大型语言模型（LLMs），基于...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...AD 模型生成性能我们与多个点云重建或者基于点云生成的基准工作进行比较，评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上，我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构，没...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

GPT-4不仅性能更强也更贵了：单次输出7.5万单词需6美元

...多现实世界场景中的能力不如人类，但在各种专业和学术基准上表现出人类水平，比如在法律考试中可以打败90%的人类。不过，GPT-4仍存和此前模型相似的局限性，仍然不完全可靠，存在事实性“幻觉”并出现推理错误，可能自...……更多

2023-03-15 21:00:00单词,输出,性能,模型,文本,语言

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

北京大学王选计算机研究所研究员、博士生导师赵东岩出品｜搜狐科技作者｜张雅婷随着DeepSeek的爆火，公众对AI幻觉的担忧也日益加剧。比如，不少人通过DeepSeek辅助就医、撰写论文时发现，DeepSeek会“一本正经地胡说八道”...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

关于LLM-as-a-judge范式，终于有综述讲明白了

...where to judge）。最后，我们归纳了评估 LLM 作为评判者的基准数据集，并强调了关键挑战和有希望的方向，旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接：https://arxiv.org/abs/2411.16594 网站链接：https://llm...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了，但是依旧算...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

谷歌发布 FACTS Grounding 基准，AI 大语言

...eepMind 团队于 12 月 17 日发布博文，宣布推出 FACTS Grounding 基准测试，评估大型语言模型（LLMs）根据给定材料是否准确作答，并避免“幻觉”（即捏造信息）的能力，从而提升 LLMs 的事实准确性，增强用户信任度，并拓展其应用...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...的研究人员联合撰写百页长文，发布名为MultiTrust的综合基准，首次从多个维度和视角全面评估了主流多模态大模型的可信度，展示了其中多个潜在安全风险，启发多模态大模型的下一步发展。论文标题：Benchmarking Trustworthiness of ...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...DS-1000在数据格式和评估的编程技能方面与HumanEval和MBPP等基准有所不同，其数据构造过程确保其几乎不被任何模型的训练集所包含，从而使得团队在DS-1000上观察到的改进具有可靠性。这些结果表明，CodeDPO不仅仅适应于HumanEval等...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

清华团队提出大模型“密度定律”；足球领域首个视觉语言基础模型

...entGoogle DeepMind：利用运动轨迹控制视频生成大模型数学新基准：成功率最高 2%Meta 推出「高效追踪一切」模型SOLAMI：首个端到端社交视觉-语言-动作建模框架RevThink：使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热...……更多

2024-12-10 09:53:00模型,语言基础,清华,定律,密度,团队

Bengio团队提出多模态新基准，直指Claude 3.5和

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

大幅减缓幻觉百融云创大模型精度测评结果出炉

...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评，这是对大模型处理“幻觉问题”的能力测评，也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步，但“幻觉”一直是制约其发展的主要...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

Mamba再次挑战霸主Transformer！首个通用Mam

...型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前，但仅……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

多模态竞技场对标90B Llama 3.2！Pixtral

...要好。最后，与开源模型一起，Mistral还贡献了一个开源基准测试MM-MT-Bench，用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是：模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出，后...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

文本图格式大一统！首个大规模文本边基准TEG-DB发布 |

...里大学等机构的研究人员首次提出了文本边图的数据集与基准，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究，有利于自然语言处理与...……更多

2024-11-09 13:34:00大规,本图,基准,大规模,文本,格式

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。在12个自动评分器评估基准中的8个基准上，FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练：引入了一种计算更为高效的方法，使用创新...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

....5 倍（如图 5 所示）。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能，包括常识推理任务（如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge）、阅读理解任务（如 BoolQ、QuAC）、聚合基准测试（如 MMLU、BBH），采用不同……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

非Transformer架构站起来了!首个纯无注意力大模型,

...理各种文本生成任务。从结果来看，Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型，包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型，分别是基础版本、指令微调版本、4bit 版本……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练