英伟,模态,文本,性能,模态,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“杜甫很忙”梗图变视频！智谱AI生成视频模型上线

...过半，经过一轮“价格战”后，各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点，大模型行业本身也正经历从单模态到多模态，再到全模态的演进。就在本月初的世界人工智能大会上，腾讯集团副总裁...……更多

2024-07-27 14:18:00视频,杜甫,生成,模型,模型,模态

Bengio团队提出多模态新基准，直指Claude 3.5和

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

华中科技大学白翔教授发布多模态大模型

...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注：多模态大模型是一类可...……更多

2023-12-15 01:14:00华中科技大学,华中,模态,模型,教授,大学

记者实测|速度更快成本更低，人机交互更自然，OpenAI新模

...是GPT-5的一个早期检查点（checkpoint），尚未完成训练。”英伟达高级科学家Jim Fan在社交媒体上评论称。Jim Fan认为，在谷歌召开I/O大会前，OpenAI宁愿发布超过人们对GPT-4.5心理预期的产品，也不愿因为推出达不到人们期望的GPT-5，...……更多

2024-05-14 14:39:00实测,人机,更快,模型,成本,速度

arxiv研究人员：多模态ai模型存在安全隐患

...论文指出，包括GPT-4V、GPT-4o和Gemini1.5在内的大部分主流多模态AI模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-ModalitySafetyAlignment），提出了...……更多

2024-06-26 03:07:00模态,研究人员,隐患,模型,人员,安全

谷歌史上最强大模型！Gemini 2.0正式发布

...今为止功能最强的AI模型，带来了更强的性能、更多的多模态表现（如原生图像和音频输出）和新的原生工具应用。Gemini 2.0关键基准测试中相较于前代产品Gemini 1.5 Pro实现了性能的大幅提升，速度甚至达到了后者的两倍。支持图...……更多

2024-12-12 07:15:00模型,音频,模态,自然语言,文生,多语

西云算力举办AIGC沙龙,CTO梁峰分享“全系列全场景智算基

...动伊始，西云算力CTO梁峰为大家介绍了西云算力，随后就英伟达 2024 GTC大会的亮点及趋势展开分享。梁峰介绍到，英伟达CEO黄仁勋在演讲中提到的AI与能源消耗的问题，西云算力早有前瞻布局，一直致力于打造高效的绿色安全算...……更多

2024-04-15 19:00:00梁峰,全系列,基础设施,沙龙,场景,设施

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...合提出即插即用的SearchLVLMs框架，可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强，使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

北京智源研究院发布原生多模态世界模型Emu3

...者刘峣）近日，北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成，成功验证了基于下一个token（词元）预测的多模态技术范式，释放其在大规模训练和推理上...……更多

2024-10-24 05:12:00模态,北京,研究院,模型,研究,世界

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...qizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

...文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍，此次更新中，HunYuan-Video模型经历了四项核心改进：1、引入超大规模数据处理系统，提升视频画质；2、采用多模态大语言模型（MLLM），...……更多

2024-12-04 09:49:00文生,腾讯,提示,建议,视频,生成

人工智能接入电信网络意味着什么？英伟达称最早明年下半年商..

AI（人工智能）芯片龙头英伟达尝试解锁电信行业的AI发展潜力。近日，在英伟达举办的日本AI峰会上，英伟达宣布，英伟达和软银集团已经试运行了全球首个5G AI-RAN（人工智能无线接入网络），即一种可以同时运行AI和5G工作负...……更多

2024-12-03 08:51:00英伟,人工智能,接入,人工,意味,电信

Google推出全新人工智能模型Gemini 2.0 用途更

...。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示，通过使用多模态实时 API，开发人员可以创建实时、多...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机

在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。基于对通用人工智...……更多

2024-04-10 10:25:00模型,模态,终端,科学家,科学,手机

Meta推出AI新模型VFusion3D，微美全息布局AIG

...深刻的 3D 效果，上一次出圈是在 SIGGRAPH 上：在 2021 年，英伟达在这个舞台上介绍了给黄仁勋制作 3D 模型的方法，以假乱真的效果震撼了世界。而就在上周举行的 SIGGRAPH 2024 大会上，英伟达（NVDA.US）CEO黄仁勋同Meta的CEO扎克伯...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora

...混合使用不同厂商芯片，兼容昆仑芯、昇腾、海光 DCU、英伟达、英特尔等国内外主流 AI 芯片。选择灵活，也降低了算力成本，还不用担心性能显著下降。因为，百舸的多芯混合训练任务的性能损失，控制在了万卡性能损失 5%，...……更多

2024-12-11 09:52:00标王,模型,更多,企业,模态,模型

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

...为了AI发展的最大障碍。当前的数字化世界，信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立，彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多

2024-09-20 09:51:00阿里,生成,统一,语言,世界,模态

Meta等成立AI联盟对抗OpenAI；春晚吉祥物“龙辰辰”

...科学基金会等学术机构，但不包含ChatGPT开发公司OpenAI和英伟达。点评：该联盟将专注于负责任的AI技术开发，包括安全和安保工具，还将寻求增加开源AI模型的数量。自去年底OpenAI的ChatGPT推出以来，在人工智能赛道上，OpenAI已经...……更多

2023-12-11 16:47:00图灵,吉祥物,周报,对抗,吉祥,生成

Sora爆火96小时国内大模型进场

...尽管国内大模型近年来取得显著进展，但与OpenAI、谷歌、英伟达等国际大公司相比，仍存在技术差距。这些国际大公司在深度学习、自然语言处理、计算机视觉等领域拥有更深厚的技术积累和研发实力，在AIGC领域具有更强的竞...……更多

2024-02-20 05:20:00模型,小时,视频,模型,生成,文本

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...60页的详细技术报告。消息一出，社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan就第一时间转发评论：这是OpenAI王座的有力竞争者。话不多说，一起来看更多细节。谷歌史上最强大模型Gemini在LLM中的表现，也正如我们刚才所述，32...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

谷歌和微软两位“印度老乡”CEO，正面硬刚

...，不同于ChatGPT、GPT-4模型率先发布文本功能再逐渐扩充多模态功能，Gemini被设计为原生多模态大模型，从一开始就支持多模态输入输出。Pichai对此讲道：“就像人一样，它不仅从文本中学习，还能通过视频、音频和代码进行学习...……更多

2023-12-08 16:29:00印度,微软,老乡,正面,模型,微软

无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-

...，无问芯穹今日宣布，开源无问芯穹端侧解决方案中的全模态理解小模型 Megrez-3B-Omni 和它的纯语言模型版本 Megrez-3B-Instruct。官方表示，Megrez-3B-Omni 是一个为端而生的全模态理解模型，同时具备图片、音频、文本三种模态数据的...……更多

2024-12-17 09:24:00模态,模型,全球,模态,模型,精度

Gemini 开启大模型路线之争，新战场将“数流成河”

...，无疑成AI最大受益者。2、大模型淘金热的万卡起步，让英伟达股价飙升了 245%，市值解锁万亿后停不下来，已突破1.2万亿美元，超过Facebook母公司Meta或特斯拉，跻身所谓“七巨头”。3、作为登上巅峰后迄今为止在互联网搜索...……更多

2023-12-15 10:02:00成河,战场,模型,路线,马斯,马斯克

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...在压缩去噪步数的同时可保持接近无损的性能。接下来，英伟达解决方案架构师赵一嘉从底层技术出发，讲解了文生图最主流的基于Unet的SD和DIT两种模型架构及其相应的特性，并介绍了英伟达的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron...……更多

2024-08-13 09:39:00文生,出图,美感,秘籍,心意,更快

拓宽行业应用场景多模态大模型加速通用AI进程

...业内分析认为，该项新产品或将促使大模型厂商加大对多模态大模型的研发投入，并进一步推动AGI（通用人工智能）进程。一直以来，视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后，Sora的发布迎合了...……更多

2024-02-26 08:58:00模态,行业应用,模型,进程,场景,应用

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...us的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴（Garry Tan）、英伟达研究员Timo Aila等专家及AI公司跟投，还收到了来自General Catalyst等一线基金的后续投资。该团队的顾问委员会，包括在内容创作行业拥有丰富经验的前迪士尼总裁Michae...……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型