模态,基准,弱点,团队,模型,任务头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...数据泄露，从而反映模型的真实性能。研究团队测试了多模态大模型（LMMs）和纯文本大模型（LLMs）。对于LLMs的测试，输入时不提供任何与图像相关的信息给模型，仅提供文本。所有评估均采用零样本（zero-shot）思维链（Chain of ...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...qizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...息处理全国重点实验室两大平台，长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

反击OpenAI，谷歌放出最强悍大模型Gemini

... CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

谷歌和微软两位“印度老乡”CEO，正面硬刚

...，不同于ChatGPT、GPT-4模型率先发布文本功能再逐渐扩充多模态功能，Gemini被设计为原生多模态大模型，从一开始就支持多模态输入输出。Pichai对此讲道：“就像人一样，它不仅从文本中学习，还能通过视频、音频和代码进行学习...……更多

2023-12-08 16:29:00印度,微软,老乡,正面,模型,微软

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此，鹏城实验室多...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

720亿参数模型开源通义千问已实现“全尺寸、全模态”开源

...参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。...……更多

2023-12-01 13:33:00通义,模态,模型,尺寸,参数,模型

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...DCLM来设计高质量数据集从而提高模型性能，尤其是在多模态领域。其思路很简单：使用一个标准化的框架来进行实验，包括固定的模型架构、训练代码、超参数和评估，最终找出哪种数据整理策略最适合训练出高性能的模型。...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

苹果公司公布“mm1”多模态大模型

...omMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...，引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-V，声称只花500美元训练，就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现，该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

GPT-4劲敌，谷歌进入高能+高产模式

...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世，将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日，Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

Claude 3大模型引起学界关注，业内人士：或将开启科研新

...网）包含三款能力逐级递增的模型，在自然语言处理、多模态整合等方面表现卓越如果讨论本世纪最激动人心且影响深远的科学技术领域，AI 必定榜上有名。以“确保变革性 AI 帮助人们和社会繁荣发展”为使命的 Anthropic，则是...……更多

2024-03-12 10:59:00范式,学界,业内人士,模型,业内,科研

全国首个成都创新团队发布机器人多模态模型

中国首个机器人多模态模型，可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果，根据语音指令，机器人会把苹果送到你手上；如果想收拾干净桌面，机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多

2024-08-13 09:51:00模态,人多,成都,模型,团队,机器

谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

...Demis Hassabis）在发布会上表示，谷歌运行了32个完善的多模态基准测试来比较Gemini和OpenAI的GPT-4，Gemini“在32项基准测试的30项中大幅领先”。据谷歌介绍，在训练后期，Gemini在各类任务上都表现优异。例如，MMLU（大规模多任务语...……更多

2023-12-07 18:27:00王者,模型,模型,视频,微软,测试

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

...来，于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision，整体迭代速度已足够惊人。但要超越当前所有AI大模型，Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型，真的假的？2023年11月，x...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...和音频并与之交互的能力。这很大程度上是设计使然：多模态在最开始就是Gemini计划的一部分。谷歌没有像OpenAI构建DALL·E（文生图模型）和Whisper（语音识别模型）那样单独训练图像和语音模型，而是从一开始就建立为一个多感...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

【产业互联网周报】字节回应被曝秘密利用OpenAI；英特尔预

...，但其中未见蔡英华的动向。（36氪）贾佳亚团队推出多模态大模型LLaMA-VID据介绍，该模型可支持单图、短视频，还可以将3个小时的电影或视频精简为数个Token，直接使用大语言模型进行理解和交互。（36氪）蚂蚁集团回应职级...……更多

2023-12-18 22:02:00马斯,英特,英华,马斯克,英特尔,阿里

云从科技从容大模型荣登中国大模型第一梯队

...有力证明。云从科技在综合评测权威平台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示，从容大模型在该体系中的平均得分为65.5，这一成绩使其跻身全球前三，超越了谷歌的Gemini-1.5-Pro和GPT-4v，仅次于GPT...……更多

2024-08-09 15:00:00模型,梯队,中国,从容,科技,模型

谷歌公司发布人工智能模型“双子座”

...”Ultra性能优于迄今最先进的人工智能模型，具有天然多模态性，显示出拥有更复杂推理能力的早期迹象。谷歌公司还表示，“双子座”能够理解、解释和生成世界上主流编程语言的代码，可以用作高级编码系统的引擎。此外“...……更多

2023-12-08 07:31:00人工智能,双子座,双子,人工,模型,智能

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-

国产大模型，多模态能力都开始超越GPT-4-Turbo了？？权威榜单，中文多模态大模型测评基准SuperCLUE-V，新鲜出炉：特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B，分别成为国内闭源和开源界两大领跑者，甚至超过Claude-3.5-Sonnet..……更多

2024-08-09 09:38:00模态,腾讯,国产,模态,腾讯,元宝