• 我的订阅
  • 头条热搜
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...模型的真实性,并探索将中文简短问答扩展到多语言和多模态设置。论文地址:https://arxiv.org/abs/2411.07140 ……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...中包含不可复现的论文。 CORE-Bench的优势能力要求高、多模态(Skills and modalities)解决CORE-Bench中的任务需要多种能力,包括理解指令、调试代码、检索以及跨学科解释结果,模型只有具备这些技能才能在CORE-Bench上拿到更高分数...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。如何解决模型生成幻觉一直是人工智能(AI)领...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展...……更多
更多关于科技的资讯:
死亡率高到难以想象!髋部骨折:人生最后一次骨折
人口老龄化是全球社会发展的普遍趋势,根据国家统计局发布的数据,截至 2023 年末,我国 60 周岁及以上人口超 2.96 亿
2025-01-13 14:22:00
华鼎冷链荣膺“2024年度值得用户信赖物流企业先锋奖”殊荣!
由中国卡车网主办、河南省物流协会、河南省交通物流协会协办的“第十届发现信赖评选活动”,在郑州举行。华鼎冷链科技凭借创新的服务模式和综合实力
2025-01-13 14:22:00
2025年01月13日环洋市场咨询机构出版了一份详细的、综合性的调研分析报告【全球超声波扫描声学显微镜行业总体规模、主要厂商及IPO上市调研报告
2025-01-13 14:27:00
买疯了!上海市民直呼:没见过这么多人,到处在排队!有人开车几十公里,来抢“胖东来”爆款
这个周末上海最闹忙的地方应该有刚刚开业的“学习胖东来”自主调改店1月10日,位于金山万达广场的永辉超市上海首家“学习胖东来”自主调改店开业
2025-01-13 14:37:00
春节即配需求激增,顺丰同城“春节不打烊”保障运力供给
随着蛇年农历新年的临近,整个消费市场节日氛围浓厚,年夜饭预订花样频出,年货市场烟火气十足……特别是在即时零售等新业态的带动下
2025-01-13 14:41:00
林忆莲强势回归,跨年夜燃爆舞台,飞猫随身WiFi惊喜同框
相信很多80年代的人都是听她歌曲长大的。在华语乐坛的璀璨星空中,林忆莲无疑是一颗最为耀眼的恒星。她出道多年,用那极具辨识度且富有感染力的嗓音
2025-01-13 14:45:00
启源芯动力斩获电力创新一等奖,助力电动重卡与绿色能源深度融合
近日,由中国电力企业联合会(以下简称中电联)组织开展的2024年度电力创新奖评审结果出炉。由启源芯动力联合生态圈伙伴共同申报的《基于换电重卡的充换送关键技术研究及应用》项目获2024年度电力创新奖一等奖
2025-01-13 14:46:00
随着生成式人工智能(AI)被应用在社交娱乐等领域,AI不受限制与无法预知的互动内容引发了新问题。近日,有10岁女孩被发现偷偷用AI聊天软件与AI生成的“角色”谈恋爱
2025-01-13 14:46:00
《射雕英雄传:侠之大者》定档:黄晓明说大年初一去看郭伯伯
1月23日消息,据媒体报道,肖战新电影《射雕英雄传:侠之大者》将于大年初一上映,其好友黄晓明积极帮他宣传,说大年初一去看郭伯伯
2025-01-13 14:52:00
国补也止不住颓势 2024年中国电视出货量创十年新低
快科技1月23日消息,根据洛图科技(RUNTO)的数据监测,2024年中国电视市场的品牌整机出货量为3596万台,同比2023年下降1
2025-01-13 14:52:00
潮流是个轮回!美国公司推出手机换电站:2秒换电池
快科技1月13日消息,在CES 2025上,爱尔兰初创公司Swippitt推出了一款名为Instant Power System(IPS)的系统
2025-01-13 14:52:00
赶紧排查手机!16款App被国家计算机病毒应急处理中心通报
快科技1月13日消息,今日,国家计算机病毒应急处理中心官网发布公告称,近期通过互联网监测发现16款移动App存在隐私不合规行为
2025-01-13 14:52:00
OPPO Find X8全系纳入国补计划:购机最高立省700元
快科技1月13日消息,OPPO Find X8系列手机正式加入国家补贴计划,为消费者带来前所未有的优惠力度。此次活动涵盖了OPPO Find X8全系产品
2025-01-13 14:52:00
加州山火或成美国史上最严重自然灾害 本周火情恐进一步恶化
截至美东时间周日,美国加州洛杉矶地区的山火已经连续燃烧第六天,而火情目前还在持续恶化。目前,山火已经摧毁了加州超过1.2万栋建筑
2025-01-13 14:52:00
新手卖家该如何提升Etsy平台流量
对于Etsy新手卖家来说,尽管Etsy提供了一个展示创意的舞台,但如何提高店铺的曝光度和流量,才是成功运营的关键。今天的文章就为新手卖家提供一些实用的技巧
2025-01-13 14:52:00