• 我的订阅
  • 头条热搜
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...源模型(如GPT-4o)的表现并不一致。为了改变这一现状,英伟达的研究团队最近宣布推出NVLM 1.0,在视觉-语言任务上取得了最先进的成果,能够与最强大的闭源模型(如GPT-4o)和开源模型(如Llama 3-V 405B和InternVL 2)相媲美,并且...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...(涵盖系统、数据和 pipeline)是必不可少的。本文,来自英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校的研究者引入了 LongVILA,这是一种用于训练和部署长上下文视觉语言模型的全栈解决方案,包括系统设计、模型训练策略...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。另一点与大多数模型不同的是,Pixtral选...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...了闭源Claude 3 Haiku。甚至,90B版本击败了GPT-4o mini。就连英伟达高级科学家Jim Fan都不禁夸赞,在轻量级模型中,开源社区整体上并不落后! 同时,为了适配边缘计算和终端设备,Meta还推出了1B和3B两个轻量级纯文本的版本,可支...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新突破,其卓越的图文跨模态开放任务处理能力可...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...的业务流程。AzureAIStudio现已支持提供GPT-4oAPI将率先使用英伟达BlackwellAI芯片纳德拉介绍,由OpeanAI开发的最新旗舰模型GPT-4o,现已在AzureAIStudio中提供,并作为API提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新...……更多
疯狂一夜!美国AMD、谷歌纷纷亮出大杀器,人类迎来巨变前夜?|钛媒体焦点
...夜,谷歌(Google)、AMD先后上新,终于要“打爆”OpenAI和英伟达了。钛媒体App 12月7日消息,北京时间今天凌晨,谷歌CEO桑达尔·皮查伊 (Sundar Pichai) 宣布,谷歌公司正式发布迄今为止功能最强大、最通用的多模态人工智能(AI)...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
“重创”美科技股后,DeepSeek除夕再发新模型,文生图测试优于OpenAI
...27日收盘,道指涨0.65%,标普500指数跌1.46%,纳指跌3.07%。英伟达暴跌16.97%,单日市值蒸发5890亿美元,创史上最大单日个股市值蒸发纪录。英伟达的暴跌也使得创始人黄仁勋的身家大幅缩水210亿美元。此外,甲骨文下跌13.78%,超微...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...巨头任命首席AI官;科技巨头纷纷出手布局,诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲,这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。各种生命科学大模型也纷纷被顶刊所接收,比如像百图生科此前发...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...圈,Gemini才在千呼万唤中面世。△图源:谷歌一个月前,英伟达的资深科学家Jim Fan就为Gemini捏了把汗:“人们对谷歌Gemini的期望高得离谱!”他表示,Meta要惊艳世界的话,只要让Llama 3开源就好了。但谷歌想要重夺当年AlphaGo的...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...谷歌。如果大量人工智能使用转向苹果硬件,它们也会对英伟达构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...:HK)、三人行(605168)等;上游增加需求来看,推荐关注英伟达等算法、算力方面标的。东方证券早前的报告认为,从技术突破的角度来看,下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力,...……更多
GPT-4撞上文心一言,百度压力骤增:多模态和中文能力受关注,或多种方式落地
...元为 OpenAI 建造了一台巨大的超级计算机,使用了上万颗英伟达GPU计算芯片,并称愿意投入更多资金。前述互联网分析师也提到,对文心一言等类似大模型来说,最重要的还是算力。“这次百度抢先在国内最早发布类ChatGPT应用,...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781.SZ)涨13.32%,苏州科达涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...的整体性方案,不仅包含了文档大模型能力,还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机,基于垂直模型能力和软硬件相互配合,可帮助企业实现文档的知识抽取、知识融合,直至知识推理和问答的全流程覆...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
价格便宜75%!亚马逊推出全新大模型系列,3纳米自研芯片明年上市
...训练苹果智能背后的AI模型,而不是像其他公司那样使用英伟达芯片。 3日当天,亚马逊(Nasdaq:AMZN)涨1.3%收于每股213.44美元,总市值2.24万亿美元。今年以来,公司股价已涨超40%。 ……更多
更多关于科技的资讯:
助力3250家企业“走出去”,外贸“新春第一展”开幕
本文转自:人民网-上海频道人民网上海3月2日电 (记者龚莎)3月1日,外贸“新春第一展”——第33届华东进出口商品交易会(以下简称“华交会”)在上海新国际博览中心开幕
2025-03-02 19:52:00
167天的奇迹救援!发射失利的两颗中国探月卫星又活了
快科技3月2日消息,一般来说,卫星发射升空后如果遇到故障,想要救援几乎是不可能的,但是中国却创造了一个奇迹!2024年3月13日
2025-03-02 20:09:00
亚马逊首款量子芯片Ocelot发布:量子纠错成本降低90%
继谷歌、微软之后,亚马逊近日也发布了自家的第一代量子计算芯片 Ocelot,首次实现了可扩展的玻色子纠错架构,与目前的量子纠错方式相比成本可以降低超过90%
2025-03-02 20:39:00
生育率实在太低!韩国考虑每周只工作35小时
韩国的生育率一直都是全球最低,2023年韩国的生育率来到了历史最低水平,育龄女性的生育率只有0.72,这意味着每100个育龄女性只会生72个孩子
2025-03-02 20:39:00
比亚迪发布智能车载无人机系统“灵鸢”:全品牌车型可搭
快科技3月2日消息,今日晚间,比亚迪携手大疆在深圳举办智能车载无人机系统发布会,并将该系统正式定名为“灵鸢”。据介绍,“灵鸢”让汽车获得垂向视野
2025-03-02 21:09:00
江南时报讯 记者获悉,江苏首批32家标杆孵化器名单近日出炉。这些标杆孵化器涉及前沿新材料、生物医药、智能制造、绿色技术
2025-03-02 21:14:00
首搭灵鸢无人机系统!豹8无人机版上市:选配价16000元
快科技3月2日消息,比亚迪携手大疆在深圳举办智能车载无人机系统发布会,并将该系统正式定名为“灵鸢”。除已经上市的仰望U8(越野玩家版)外
2025-03-02 21:39:00
全国名字最长的火车站定了!史无前例的7个字
快科技3月2日消息,国铁集团近日正式发文,明确在建的京唐城际始发站正式名称为“北京城市副中心”站,一共7个字(不包含末尾的站字)
2025-03-02 21:39:00
我去试驾了小米SU7 Ultra:它真的想重新定义豪车!
万众期待的 SU7 Ultra 前天上市了, 52.99 万的价格直接把社媒引爆了。雷总之前还说目标一年卖一万辆,结果发布会当晚就完成了
2025-03-02 21:39:00
难以理解!为什么在自然界中 颜色鲜艳代表危险
大自然有自己的规则,鲜艳的颜色通常代表了危险信号,拥有鲜艳颜色的动物,它们很显眼,时刻在提醒潜在捕食者不要招惹自己。那么
2025-03-02 22:09:00
中国蓝观察丨文化出海“新三样” 如何出彩又出圈
中国蓝新闻 眼下,以中国网络文学、网络影视剧、网络游戏为代表的文化出海“新三样”,在海外市场屡创佳绩。正加快建设高水平文化强省的浙江
2025-03-02 22:21:00
标配天神之眼C!第二代比亚迪元PLUS智驾版3月5日上市:现款11.98万起
快科技3月2日消息,日前,比亚迪官方宣布第二代元PLUS智驾版将于3月5日正式上市。此次发布的新车最大亮点是有望全系标配天神之眼C-高阶智驾三目版(DiPilot 100)
2025-03-02 16:09:00
谷歌创始人要求员工每周工作60小时!努力才能赢得AGI对决
快科技3月2日消息,据媒体报道,谷歌联合创始人谢尔盖·布林(Sergey Brin)发布内部信,督促员工每周工作60小时
2025-03-02 16:09:00
NVIDIA首款Arm PC芯片首度现身跑分!成绩不太理想
快科技3月2日消息,英伟达与联发科合作开发的首款Arm架构PC芯片NVIDIA N1X的工程机现身Geekbench跑分平台
2025-03-02 16:09:00
柯洁成小米SU7 Ultra车主:53.39万元全款拿下
快科技3月2日消息,著名围棋棋手、世界冠军柯洁发微博称:“你们怎么知道我全款拿下小米SU7 Ultra啦”,并配上了付款记录
2025-03-02 16:09:00