• 我的订阅
  • 头条热搜
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
... CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多
谷歌和微软两位“印度老乡”CEO,正面硬刚
...,不同于ChatGPT、GPT-4模型率先发布文本功能再逐渐扩充多模态功能,Gemini被设计为原生多模态大模型,从一开始就支持多模态输入输出。Pichai对此讲道:“就像人一样,它不仅从文本中学习,还能通过视频、音频和代码进行学习...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。...……更多
自主研制!我国发布“全球首个”
...。 “空天·灵眸”2022年首次推出,是我国:首个面向多模态遥感数据生成式基础模型;首个专为遥感领域打造的专业基础模型。今年3月起,研究团队基于中国算力网“鹏城云脑II”枢纽节点,历时数月攻关完成了在4亿张国产化...……更多
...式的变革提供了可能。“空天·灵眸”是我国首个面向多模态遥感数据生成式基础模型,也是首个专为遥感领域打造的专业基础模型。自2022年首次推出后,空天院研究团队在“基础模型+下游任务”计算范式积累上持续探索。于...……更多
...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
苹果公司公布“mm1”多模态大模型
...omMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...,引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-V,声称只花500美元训练,就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现,该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...布,“大杀器”Gemini 1.0,正式上线。Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenA...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...网)包含三款能力逐级递增的模型,在自然语言处理、多模态整合等方面表现卓越如果讨论本世纪最激动人心且影响深远的科学技术领域,AI 必定榜上有名。以“确保变革性 AI 帮助人们和社会繁荣发展”为使命的 Anthropic,则是...……更多
更多关于科技的资讯:
专注农业机械电动化、智能化、无人化,「知申禾行」获数千万级天使轮融资 | 36氪首发
文 | 吴优编辑 | 王方玉36氪获悉,深圳知申禾行科技有限公司(以下简称“知申禾行”),近日一举完成数千万人民币天使轮融资
2024-10-21 15:19:00
济南和谐广场13年:“正当红”背后的商业进化密码
日前,济南和谐广场13周年店庆圆满落幕。据悉,本次周年庆典以“red on time·正当红”为主题,自9月26日至10月7日持续进行
2024-10-21 10:47:00
赵明:荣耀Magic7系列ID设计第一眼就惊艳 引领行业
快科技10月21日消息,荣耀CEO赵明表示,第一代Magic亮相的时候超级惊艳,后面有无数的跟随着,荣耀在那个时代引领了整个行业的设计
2024-10-21 10:52:00
日本企业拆解比亚迪、蔚来等国产车:研究中国电动车便宜的秘诀
快科技10月21日消息,据报道,日本中部经济产业局本月举行了分享纯电动汽车(EV)技术动向的研修会。日本中部地区约70家汽车零部件企业
2024-10-21 10:52:00
荣耀Magic7系列首款配色出炉:灵感来自世界首部科幻大片《月球旅行记》
快科技10月21日消息,荣耀2024年度旗舰——荣耀Magic7系列将于10月30日发布,官方今日公布了该系列首款配色——月影灰
2024-10-21 10:52:00
全球第一!联想moto竖向折叠屏手机市场占有率达30.8%
快科技10月21日消息,据联想官微发文称,据最新的IDC 2024年Q2的全球手机数据显示,联想moto以30.8%的市场占有率
2024-10-21 10:52:00
小米科技盛会米粉招募开启:可通过小米社区、小米汽车应用报名
快科技10月21日消息,小米科技盛会米粉招募于今日10点开启报名,用户可以通过小米社区、小米汽车应用进行报名。此次招募将持续至10月25日18点
2024-10-21 10:52:00
法拉第未来来国内公司被限消:此前已被强制执行31万余元
快科技10月21日消息,近日,因未履行生效法律文书确定的给付义务,“FaradayFuture”关联公司法法汽车(中国)有限公司及法定代表人王志刚被限制高消费
2024-10-21 10:52:00
realme UI 6.0开启内测招募:真我GT5 Pro/GT6可升级
快科技10月21日消息,今天上午,realme宣布realme UI 6.0内测用户招募正式开启,支持真我GT5 Pro和真我GT6两款机型
2024-10-21 10:52:00
第四届中国健康生活方式医学大会于10月19日在京召开,平安健康险联合中国医学科学院阜外医院推出业内首款数字化减重管理方案
2024-10-21 10:59:00
艾琳科技集团—— 奋勇前进,争做智慧养老市场的风向标
随着全球人口老龄化问题的日益严峻,传统的养老模式已难以满足现代社会的需求。智慧养老作为一种利用现代信息技术优化养老资源配置
2024-10-21 10:59:00
强国复兴有我 点赞吉林劳模㉓|王雷:开拓创新,永不止步
“开拓创新,永不止步”。四平市顺邦农机公司技术研发中心打捆机技术部技术员王雷时常用这八个字勉励自己。干一行、爱一行、专一行
2024-10-21 11:02:00
解锁商场视听新领域 秋日创意潮玩地
10月16日至20日,第四场“新视听体验空间”公共服务主题活动在王府井奥莱UP TOWN举行,活动由国家广播电视总局团委与北京市广播电视局共同主办
2024-10-21 11:08:00
本报记者 魏 静 □ 许金栋“网红”直播带货领域,部分头部主播频繁翻车,相关虚假宣传更是引发了消费者对直播带货、电商行业的信任危机
2024-10-21 11:17:00
广电总局最近的监测数据显示,在治理电视“套娃”收费方面,各指标合格率均已超过96%,标志着治理工作取得了阶段性成效。这一成果不仅为消费者营造了一个更加清朗的消费环境
2024-10-21 11:17:00