• 我的订阅
  • 头条热搜
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA,该基准主要测试文档图像的问答能力。在文本能力方面,文心4.5则在多个主流基准测试中超过DeepSeek-...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...模型的真实性,并探索将中文简短问答扩展到多语言和多模态设置。论文地址:https://arxiv.org/abs/2411.07140 ……更多
「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发
作者 | 邓咏仪编辑 | 苏建勋36氪获悉,6月7日,虎博科技正式发布并开源其自研大模型TigerBot。同时,虎博科技还发布了大模型应用开发所需的全套API,以及多领域专业数据。虎博科技成立于2017年,是一家专注于深度学习及NLP(...……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...中包含不可复现的论文。 CORE-Bench的优势能力要求高、多模态(Skills and modalities)解决CORE-Bench中的任务需要多种能力,包括理解指令、调试代码、检索以及跨学科解释结果,模型只有具备这些技能才能在CORE-Bench上拿到更高分数...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。如何解决模型生成幻觉一直是人工智能(AI)领...……更多
华为:不会有“盘古Chat”此类命名 也不“对标”业界产品
...提供秒级天气预报;紫东.太初是全球首个图、文、音三模态大模型。对于盘古大模型定位,华为内部团队确立了三项最关键的核心设计原则:一是模型要大,可以吸收海量数据;二是网络结构要强,能够真正发挥出模型的性能...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
更多关于科技的资讯:
优秀 AI赋能人才招聘案例,数字化员工走进企业
近日,由《中国企业报》集团主办的数智强企·2025企业数字化创新发展交流会在京举办,会上发布与解读了“2024数智强企创新发展案例”
2025-05-12 11:27:00
腾厨食品:食材蔬菜配送——食堂承包管理质量的隐形“生命线”
在员工福利竞争日益激烈的今天,一顿健康美味的工作餐已成为企业吸引人才的重要砝码。然而,许多企业将食堂承包后,却常陷入“管理失控”的困境——菜品质量时好时坏
2025-05-12 11:29:00
健康国货品牌榜单发布!京东健康助力国内大健康产业高质量发展
5月10日中国品牌日,京东健康宣布启动“双百品牌联盟”,并首次发布健康国货品牌榜单,汇聚云南白药、鱼跃、汤臣倍健等国内大健康产业的领军品牌
2025-05-12 11:39:00
一加15曝光:回归直屏 2K曲屏时代终结
快科技5月12日消息,博主数码闲聊站暗示,一加15工程机采用6.78英寸1.5K直屏,使用了LIPO封装工艺,BM黑边极窄
2025-05-12 11:43:00
比Cybertruck更帅!广汽领程GAC PICKUP 01量产版将于2027年上市
快科技5月12日消息,广汽集团日前宣布,旗下广汽领程GAC PICKUP 01概念车的量产版本将在2027年正式上市。值得一提的是
2025-05-12 11:43:00
墨西哥一热气球升空后起火:搭乘男子试图逃生最终坠亡
快科技5月12日消息,担心的事情还是发生了!当地时间5月11日早上,在墨西哥萨卡特卡斯州恩里克·埃斯特拉达举行的首届热气球节期间
2025-05-12 11:43:00
男子5个月转账200万追求女主播:遭拒后起诉 法院判返还175万
5月12日消息,河北的闫先生是一名工程老板,于女士是一名网络主播,2023年1月,闫先生通过某短视频平台认识了于女士,并添加了她的微信好友
2025-05-12 11:43:00
央视财经频道深度探访千禾味业:科技让传承更纯粹
民营经济高质量发展,正在进入一个新的阶段。据了解,《中华人民共和国民营经济促进法》将于2025年5月20日正式施行。这部在我国民营经济发展历程中具有里程碑意义的大法在第八条明确提到
2025-05-12 11:45:00
2025世界品牌莫干山大会:以岭健康展现中医药品牌创新力
当世界的目光聚焦中国品牌,中医药文化正以其跨越千年的智慧结晶,成为全球健康领域的璀璨明珠。以岭健康扎根深厚的中医药文化沃土
2025-05-12 11:46:00
ADC掘金热退潮后,敢问路在何方?
在去年的首届映恩生物研发日上,张剑教授对ADC名称给出了别出心裁的解读,包括了“Anything Done by China”“Apparently Different Characteristic”在内的六个英语词组
2025-05-12 11:47:00
浪潮计算机重磅发布AI服务器新品 赋能全场景智能化互联
近日,浪潮计算机重磅发布安全可靠AI服务器新品——CS5468H3。作为AI家族的重要成员,CS5468H3搭载第四代C86处理器与双宽AI加速卡
2025-05-12 11:47:00
简单密码有多不安全:RTX 5090破解8位数字密码仅需三小时!
快科技5月12日消息,在数字化时代,密码安全的重要性不言而喻,网络安全公司Hive Systems的最新研究揭示了在当前计算能力下
2025-05-12 12:13:00
网友在京东外卖举报无堂食 :被奖励200元!
快科技5月12日消息,近日,有网友爆料,当地在京东上线的一眼脏,一眼假的无堂食纯外卖店铺,感觉京东标榜的入驻商家全是品质堂食就是个噱头
2025-05-12 12:13:00
支付宝上线语音通话功能:头像下方显示对方真实姓名
快科技5月12日消息,据不少网友反馈,支付宝在今年4月悄悄上线了语音通话功能,用户可以和好友进行语音沟通。支付宝官方介绍称
2025-05-12 12:13:00
超391万人预约 肖战新剧《藏海传》5月18日央视八套黄金档开播
快科技5月12日消息,今日,央视CCTV官网更新节目单,央视八套(CCTV-8)节目单已有《藏海传》排播,将于5月18日19:30在播出第1
2025-05-12 12:13:00