• 我的订阅
  • 头条热搜
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...模型的真实性,并探索将中文简短问答扩展到多语言和多模态设置。论文地址:https://arxiv.org/abs/2411.07140 ……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...中包含不可复现的论文。 CORE-Bench的优势能力要求高、多模态(Skills and modalities)解决CORE-Bench中的任务需要多种能力,包括理解指令、调试代码、检索以及跨学科解释结果,模型只有具备这些技能才能在CORE-Bench上拿到更高分数...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。如何解决模型生成幻觉一直是人工智能(AI)领...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展...……更多
更多关于科技的资讯:
非洲刚果金内乱钴价大涨 赣锋锂电:所有新订单需重新定价
快科技3月5日消息,日前,国产动力电池厂商赣锋锂电发布客户告知函称:近期,全球最大的钻矿产地刚果金爆发内战,导致全球钻矿供应紧张
2025-03-05 07:41:00
首座3000米以上隧道!雄忻高铁山西段紫罗山1号隧道顺利贯通
快科技3月5日消息,据报道,历经731个日夜的奋战,雄忻高铁(山西段)紫罗山1号隧道顺利贯通。这是雄忻高铁贯通的首座3000米以上隧道
2025-03-05 15:12:00
5G智能引领 海信中央空调用心做产品
海信中央空调以实力品质成为行业标杆。海信中央空调的实力技术,是其品质保障的核心所在。在技术研发方面,海信始终保持着前瞻性的视野
2025-03-05 15:14:00
购买SU7 Ultra是否有购置税?小米:有3万补贴
3月4日,小米汽车官方微博发布“小米汽车答网友问(第115集)”,其中回应了不少车主提到的“购买SU7 Ultra是否有购置税”的问题
2025-03-05 15:26:00
浙商基金任命楼羿南为督察长 原督察长纪士鹏离任
中国经济网北京3月5日讯今日,浙商基金公告,任命楼羿南为督察长,原督察长纪士鹏离任。公告显示,楼羿南2011年8月加入浙商基金管理有限公司
2025-03-05 15:39:00
云稼“芝麻生活折扣店”亮相第四届中国零售供应链展览会!
云稼芝麻生活折扣店亮相第四届中国零售供应链展览会:乡村零售新风口,供需资源齐交融2025年3月2日,第四届中国零售供应链展览会在郑州国际会展中心顺利举办
2025-03-05 15:40:00
近日,“AI公务员”上岗的话题引发大量关注。据报道,深圳市福田区推出基于DeepSeek开发的“AI数智员工”,已上线11大类70名“数智员工”
2025-03-05 15:41:00
一张书桌、一盏台灯、一台电脑,这是文字工作者熟悉的创作场景。在这样的场景中,灵感的火花需在长时间的冥思苦想、资料查阅中艰难迸发
2025-03-05 15:41:00
瞬息互娱创始人辟谣:与鸿蒙智行遭遇的黑公关无关
快科技3月5日消息,日前,瞬息互娱创始人“玩机少女”微博辟谣,称瞬息互娱MCN从未参与任何黑公关行为。玩机少女表示,“首先
2025-03-05 15:42:00
惊骇!美国一公司宣布培育出“猛犸象特征”的老鼠
快科技3月5日消息,据媒体报道,当地时间3月4日,美国初创生物企业“巨无霸生物科学”公司宣布,他们已经在实验室培育出具有“猛犸象特征”的老鼠
2025-03-05 15:42:00
小孩哥喊话雷军出一款全家出行的车:他们说只要给你需求 你就能满足
快科技3月5日消息,一名小男孩在短视频平台上替自己的米粉妈妈喊话雷军,亲爱的小米雷总叔叔,我们很想成为你品牌新车的第一批车主
2025-03-05 15:42:00
华网·两会世界窗|波士顿科学:政策创新与本土化共振,看中国医疗产业升级新机遇
文|罗曾2025年3月4日,随着全国两会进程推进,如何通过制度创新吸引全球资源、激发本土创新活力,成为中国医疗产业高质量发展的关注方向之一
2025-03-05 15:45:00
智汇金陵 共探AI未来:开发者圈层沙龙·南京站圆满举行
近日,南京市鼓楼区发改委(工信局)、百度飞桨(南京)人工智能产业赋能中心、百度飞桨星河社区联合举办的“大模型深度应用与产业融合”开发者圈层沙龙在南京华贸中心成功举办
2025-03-05 15:46:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
北京大学王选计算机研究所研究员、博士生导师 赵东岩出品|搜狐科技作者|张雅婷随着DeepSeek的爆火,公众对AI幻觉的担忧也日益加剧
2025-03-05 15:54:00
扔掉手机跑步!览邦Watch Ultra:视频通话+徒步+畅玩游戏,运动党狂喜
对于热爱运动的人来说,手机往往是跑步、徒步时的“甜蜜负担”。想听歌、想记录运动数据、想接电话,都离不开它,但带着又嫌累赘
2025-03-05 15:56:00