英伟,模态,文本,性能,模态,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...源模型（如GPT-4o）的表现并不一致。为了改变这一现状，英伟达的研究团队最近宣布推出NVLM 1.0，在视觉-语言任务上取得了最先进的成果，能够与最强大的闭源模型（如GPT-4o）和开源模型（如Llama 3-V 405B和InternVL 2）相媲美，并且...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

...（涵盖系统、数据和 pipeline）是必不可少的。本文，来自英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校的研究者引入了 LongVILA，这是一种用于训练和部署长上下文视觉语言模型的全栈解决方案，包括系统设计、模型训练策略...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

多模态竞技场对标90B Llama 3.2！Pixtral

...是为了多模态的性能而牺牲了本身的自然语言性能，之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷，单单比较文本模型的性能，也在同等尺寸的模型中居于前列。另一点与大多数模型不同的是，Pixtral选...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...了闭源Claude 3 Haiku。甚至，90B版本击败了GPT-4o mini。就连英伟达高级科学家Jim Fan都不禁夸赞，在轻量级模型中，开源社区整体上并不落后！同时，为了适配边缘计算和终端设备，Meta还推出了1B和3B两个轻量级纯文本的版本，可支...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。2024年5月，GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势，原生多模态大模型在其中扮...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文

在当今多模态领域，CLIP 模型凭借其卓越的视觉与文本对齐能力，推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习，将视觉与语言信号嵌入到同一特征空间中，受到了广泛应用。然而，CLIP 的文本处理能力被广...……更多

2024-11-28 09:59:00模态,教会,文本,升级,数据,模态

首个可保留情感的音频LLM！Meta重磅开源7B-Spiri

【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。...……更多

2024-11-23 09:43:00音频,模态,重磅,文本,任务,情感

微软宣布Team Copilot发布，年内将推出初步预览版

...的业务流程。AzureAIStudio现已支持提供GPT-4oAPI将率先使用英伟达BlackwellAI芯片纳德拉介绍，由OpeanAI开发的最新旗舰模型GPT-4o，现已在AzureAIStudio中提供，并作为API提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新...……更多

2024-05-22 20:01:00微软,微软,纳德拉,纳德,模型,功能

疯狂一夜！美国AMD、谷歌纷纷亮出大杀器，人类迎来巨变前夜？

...夜，谷歌（Google）、AMD先后上新，终于要“打爆”OpenAI和英伟达了。钛媒体App 12月7日消息，北京时间今天凌晨，谷歌CEO桑达尔·皮查伊 (Sundar Pichai) 宣布，谷歌公司正式发布迄今为止功能最强大、最通用的多模态人工智能（AI）...……更多

2023-12-07 13:02:00美国,人类,疯狂,焦点,媒体,英伟

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。随便上传一张图，...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列

...巨头任命首席AI官；科技巨头纷纷出手布局，诸如谷歌Meta英伟达也早已相关探索。还有像赛诺菲，这种全球TOP10药企愿意砸超10亿美金与百图生科共同打造AI模型。各种生命科学大模型也纷纷被顶刊所接收，比如像百图生科此前发...……更多

2024-11-07 09:50:00模型,重构,生命科学,序列,生命,基础

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...圈，Gemini才在千呼万唤中面世。△图源：谷歌一个月前，英伟达的资深科学家Jim Fan就为Gemini捏了把汗：“人们对谷歌Gemini的期望高得离谱！”他表示，Meta要惊艳世界的话，只要让Llama 3开源就好了。但谷歌想要重夺当年AlphaGo的...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...谷歌。如果大量人工智能使用转向苹果硬件，它们也会对英伟达构成威胁，Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。也有网友认为，苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...:HK）、三人行（605168）等；上游增加需求来看，推荐关注英伟达等算法、算力方面标的。东方证券早前的报告认为，从技术突破的角度来看，下一阶段的重点攻克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力，...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...Qwen-VL-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态