• 我的订阅
  • 头条热搜
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...多种操作技能。在实验中,RoboMamba 在通用和机器人评估基准上展示了出色的推理能力,如图 2 所示。同时,我们的模型在模拟和现实世界实验中展示了令人印象深刻的操纵位姿预测能力,其推理速度比现有的机器人 MLLMs 快 7 倍...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。近年来,生成...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...粒度标注系统 VERIFIED,并基于此系统构建新的细粒度 VCMR 基准数据集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推动细粒度视频理解的发展。论文题目:VERIFIED: A Video Corpus Moment Retrieval Be……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...nd v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。虽然之前,但仅……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...要好。 最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
...里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
....5 倍(如图 5 所示)。数据集评估本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
...理各种文本生成任务。从结果来看,Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型,包括 Meta 的 Llama 3 8B、Llama 3.1 8B 和 Mistral 7B。 Falcon Mamba 7B 分为四个变体模型,分别是基础版本、指令微调版本、4bit 版本……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
用过GPT-4 Turbo以后,我们再也回不去了
...了不到十分钟。GPT-4 Turbo 具有创纪录的准确率,在 PyLLM 基准上,GPT-4 Turbo 的准确率是 87%,而 GPT-4 的准确率是 52%,这是在速度几乎快了四倍多的情况下(每秒 48 token)实现的。至此,生成式 AI 的竞争似乎进入了新的阶段。很多...……更多
智慧芽垂直领域大模型通过国家网信办“双备案”
...、C-Eval,以及智慧芽面向业内首次提出的专利大模型测试基准(Patent-bench)的测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。图:智慧芽垂直领域大模型专业考试成...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...与 Gemma 相当。具体来说,Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估。对于视觉 LLM,评估基准涉及图像理解和视觉推理任务。视觉模型Llama 3.2 11B 和 90B 模型是首批支持视觉任务的 Llama 模型,因此 Meta 为...……更多
2023 AI现状报告:GPT-4仍最强,监管方向缺乏全球共识
...变得更加强大和灵活,比较它们的能力越来越困难。由于基准变得不那么明确,用于评估大语言模型的“基于氛围”的方法在业界越来越普遍。·人工智能安全在2023年首次占据舞台中心。但人工智能界内部存在深刻分歧,世界各...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...性两方面评估生成视频的质量,结果显示该方法明显优于基准:最佳学生论文 BioCLIP: A Vision Foundation Model for the Tree of Life论文作者来自俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院。他们构建了一个...……更多
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
...TS) 、 Qwen2-Audio (+TTS) 。主要结果表 1 给出了 InstructS2S-Eval 基准测试主要结果。首先,在 S2TIF 任务中,从内容(content)角度来看,LLaMA-Omni 相比之前的模型有了显著提升,这主要是因为 LLaMA-Omni 是基于最新的 L……更多
北大、快手开源视频生成模型Pyramid Flow,1分钟生成5秒视频
智东西10月11日消息,据VentureBeat报道,北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。Pyramid Flow采用了...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
多个中国团队斩获EMNLP\\\'24最佳论文!UCLA华人学者中三篇杰出论文
...结果显示,XEUS 在多个下游任务中表现优异,在 ML-SUPERB 基准测试中超越了其他模型,如在多语言自动语音识别任务中实现SOTA,且在语音翻译、语音合成等任务中也表现出色。该团队超半数都是华人,其中一作William Chen目前是CMU...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
更多关于科技的资讯:
澳大利亚清关详细攻略:澳洲豹国际物流助力顺畅通关
在跨境贸易的广阔舞台上,澳大利亚清关流程犹如一座关键的桥梁,连接着各国与澳大利亚之间的商业往来。清关流程的顺畅与否,直接关系到货物能否及时
2025-01-02 13:37:00
14.98万起!菜鸟发布GT Pro全新无人车:L4级自动驾驶 180km续航
快科技1月2日消息,今日,菜鸟集团正式发布其新款L4级公开道路无人车——菜鸟无人车GT Pro。据了解,菜鸟GT Pro是菜鸟继2024年推出L4级公开道路无人车菜鸟GT后的首次升级改款
2025-01-02 13:43:00
iPhone 16等突然降价能否退差价 苹果中国回应
快科技1月2日消息,今天苹果中国没有预警的进行了降价,不过降幅跟第三方平台相比并不大。按照苹果中国官方的公告,2025年1月4~7日举办“叱咤福利”新年促销活动
2025-01-02 13:43:00
广汽“小揽胜”传祺S7内饰曝光!搭载自研智驾系统与AI智能座舱
快科技1月2日消息,广汽传祺官方发布了旗下全新中大型SUV——传祺S7的内饰官图。新车将搭载广汽自研的端到端无图智驾技术
2025-01-02 14:13:00
曝禾赛科技裁员数百人:赔偿N+1、无年终奖
快科技1月2日消息,据集微网报道,近期,在职场社交平台“脉脉”上有网友爆料称,禾赛科技正在开启裁员计划,裁员人数或达数百人
2025-01-02 14:13:00
胖东来将出台制度规范员工彩礼:让员工明白要活自己喜欢状态 而非为面子
快科技1月2日消息,全国首个要出台制度规范员工结婚要彩礼的公司诞生了,而它就是胖东来。近日,胖东来创始人于东来直播中提到将出台更多制度
2025-01-02 14:13:00
近年来,山东工业经济发展在创新的浪潮中展现出蓬勃生机,犹如一艘在时代海洋中扬起创新之帆的巨轮,正向着高质量发展的彼岸破浪前行
2025-01-02 14:13:00
顾客删特斯拉销售微信被辱骂:怎么不把你妈也删了
快科技1月2日消息,买车本是件开心的事,但打算在上海买特斯拉的周先生最近却遇到了糟心事。据媒体报道,周先生自述删除特斯拉一销售员微信后
2025-01-02 14:13:00
新年新启程 | 星瀚互娱联袂国际伙伴布局全球沉浸式剧场
星瀚互娱携手美霖文化、好莱坞娱乐科技投资公司StarsCollective,以及七次获得奥斯卡大奖的视觉特效巨头DNEG(“双重否定”视觉特效工作室)
2025-01-02 14:17:00
绘制数据产业发展蓝图 国家数据局划重点
本文转自:人民网国家数据局关于推动数据产业高质量发展和促进企业数据资源开发利用专题新闻发布会。人民网记者 许维娜摄人民网北京1月2日电 (记者许维娜)国家数据局自组建伊始
2025-01-02 14:26:00
本文转自:人民网-山东频道光电产业如何点亮生活?如果你和家人刚打开新买的激光电视,光电技术为我们提供了色彩纷呈、帧帧精致的视觉享受
2025-01-02 14:30:00
苹果官网突然降价!最高降800元,紧跟华为降价步伐?
元旦刚过,苹果中国官网公布出了“叱咤福利”新年促销活动,将于1月4日-7日开启。活动期间,以符合条件的支付方式购买指定商品
2025-01-02 14:34:00
宋雨琦代言 OPPO Reno13心动白上架:2599元起
快科技1月2日消息,今天,OPPO预告Reno13心动白将于1月10日正式上市,起售价是2599元,由宋雨琦代言。据悉
2025-01-02 14:43:00
村民称刘强东又给老家发现金:每家有几千元礼品 60岁以上老人有一万元
快科技1月2日,村民扶我青云志,我送村民万两金。每逢过年给老家村民发红包、送礼品,已经成为京东创始人刘强东多年的习惯。据媒体报道
2025-01-02 14:43:00
REDMI官宣全新产品策略:K系列全面升档 Turbo接棒2K档
快科技1月2日消息,在REDMI Turbo 4的发布会上,王腾首先回顾成绩,并展望2025年。王腾表示,REDMI品牌2025年将坚持高品质
2025-01-02 14:43:00