• 我的订阅
  • 头条热搜
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...了新颖的视觉条件 3D 生成框架。 他们在单一和稀疏重建基准上进行的数值和视觉比较表明,See3D 在经济高效且可扩展的视频数据上经过训练后,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的 3D 数据集上...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。近年来,生成...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目:VERIFIED: A Video Corpus Moment Retrieval Be……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...nd v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...AD 模型生成性能我们与多个点云重建或者基于点云生成的基准工作进行比较,评测结果展示出我们的方法在重建精度上表现出色。而在拓扑完整性的评估上,我们模型生成的 CAD 模型大多数生成结果都能保持严格的流形结构,没...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平,比如在法律考试中可以打败90%的人类。不过,GPT-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接:https://arxiv.org/abs/2411.16594 网站链接:https://llm...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...DS-1000在数据格式和评估的编程技能方面与HumanEval和MBPP等基准有所不同,其数据构造过程确保其几乎不被任何模型的训练集所包含,从而使得团队在DS-1000上观察到的改进具有可靠性。这些结果表明,CodeDPO不仅仅适应于HumanEval等...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...entGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基准:成功率最高 2%Meta 推出「高效追踪一切」模型SOLAMI:首个端到端社交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前,但仅……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...要好。 最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
...里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
....5 倍(如图 5 所示)。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...。为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。由UWNLP和Ai2两大顶流机构联手,OpenScholar在开源方面几乎...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...理各种文本生成任务。从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...内容,将通过定量评估一系列需要生成文本或语音token的基准测试,特别评估Spirit LM在单模态和跨模态场景中的语义能力。自动语音识别(ASR)和文本转语音(TTS)与文本语言模型类似,SPIRIT语言智能体可以通过少量样本提示来...……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
...预测精度。田柯宇团队在ImageNet 256×256和512×512条件生成基准上测试了深度为16、20、24和30的VAR模型,并将其与最先进的图像生成模型家族进行比较,包括生成对抗网络(GAN)、扩散模型(Diff.)、BERT 风格的掩码预测模型(Mask.)...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Krystals Kyber,使研究人员能够对基于人工智能的攻击进行基准测试,并将其与现在以及将来的新攻击手段进行对比。论文链接:https://arxiv.org/pdf/2408.00882v1代码链接:https://github.com/facebookresearch/LWE-ben……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
更多关于科技的资讯:
生成模型真实物理引擎Genesis来了!由全球AI顶尖高校团队开发
来自卡内基梅隆大学、马里兰大学、哥伦比亚大学、斯坦福大学、麻省理工学院、清华、北大、港大等全球 AI 顶尖高校和 Nvdia 等研究机构的华人团队
2024-12-20 09:22:00
送礼物,微信电商的关键一枪
微信开放“送礼物”,会改变电商行业格局吗?这或许是近些年来,微信最大胆的一步。12月17日,微信小店运营团队发布公告称
2024-12-20 09:24:00
豆包再降价,字节“饱和式”进攻仍在继续
大模型应用大战即将一年整,竞争依然激烈。12月18日的火山引擎Force冬季大会上,字节跳动“豆包全家桶”又迎来了新成员
2024-12-20 09:25:00
三星和世嘉合作推出索尼克主题 PRO Plus microSD 卡
IT之家 12 月 20 日消息,科技媒体 thefpsreview 昨日(12 月 19 日)发布博文,报道称三星和世嘉合作
2024-12-20 09:26:00
第六代联想ThinkBook Plus卷轴屏笔电渲染图曝光,或CES 2025发布
IT之家 12 月 20 日消息,北京时间今天凌晨,爆料人 Evan Blass 发布了其所称的“第六代联想 ThinkBook Plus”笔记本的图片
2024-12-20 09:27:00
八位堂海外推出 Ultimate Mini 有线游戏手柄,紧凑 Xbox 布局
IT之家 12 月 20 日消息,八位堂现已在海外推出一款型号为 Ultimate Mini 的游戏手柄,号称专门为青少年或小手玩家打造
2024-12-20 09:27:00
OnexPlayer G1壹号mini游戏本预热:搭载AMD锐龙AI9 HX 370处理器
IT之家 12 月 19 日消息,除 OnexPlayer X1 Pro 外,壹号本科技还预热了另一款搭载 AMD 锐龙 AI 9 HX 370 处理器的新机 ——OnexPlayer G1
2024-12-20 09:28:00
谷歌让 12 个 AI 大模型攒局玩“大富翁”:Claude3.5 爱合作,GPT-4o 最“自私”
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3
2024-12-20 09:28:00
闪极 S4 唱片充电器 65W 发布:透明设计、自带伸缩线,249 元
IT之家 12 月 19 日消息,在今晚举行的 AI 眼镜发布会上,闪极还公布了一款 S4 唱片充电器 65W ,现已在京东平台上架并开售
2024-12-20 09:29:00
闪极 AI“拍拍镜”智能眼镜发布:接入数十家大模型,售 999 元起
IT之家 12 月 19 日消息,闪极今晚正式发布新款 AI 智能眼镜 —— 闪极 AI「拍拍镜」,零售价 1499 元
2024-12-20 09:29:00
中国大陆首条 TFT 基 Micro LED 量产线及首台量产产品点亮
IT之家 12 月 19 日消息,成都辰显光电有限公司今日发文宣布,在四川省成都市今日举行的 2024 世界显示产业创新发展大会开幕式上
2024-12-20 09:30:00
全球首款遇冷变色手机 realme 14 Pro 外观公布
IT之家 12 月 19 日消息,realme 14 Pro 率先在印度官宣,同时该系列机型外观设计也正式公布,该系列机型将于明年 1 月正式发布
2024-12-20 09:30:00
快手可灵 1.6 模型发布
IT之家 12 月 19 日消息,快手今日宣布视频生成推出可灵 1.6 模型,文本响应度、画面美感及运动合理性,均有明显提升
2024-12-20 09:30:00
xMEMS Labs 预告 CES 2025 首度公开展示扬声器、芯片上风扇新品
IT之家 12 月 19 日消息,MEMS 微电子机械系统设备制造商 xMEMS Labs 表示,将于明年 1 月初的 CES 2025 消费电子展上首度公开展示其基于 MEMS
2024-12-20 09:32:00
微星首款 DP 2.1 显示器 MPG 322URX QD-OLED 亮相
IT之家 12 月 19 日消息,微星首款搭载 DP 2.1 接口的显示器 MPG 322URX QD-OLED即将上市
2024-12-20 09:32:00