模型,模态,模型,答案,大杯,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“试用完谷歌的新AI模型，再也不爱GPT”

...号，憋了好久的谷歌开大了，直接推出了最新的人工智能模型 Gemini （双子座）。这个被谷歌称为规模最大、能力最强的人工智能模型，如果光看官方的演示视频，那真的过于高级了点。在视频里， Gemini 不仅秒识别演示者画的...……更多

2023-12-12 00:22:00模型,模态,模型,答案,大杯,能力

疯狂一夜！美国AMD、谷歌纷纷亮出大杀器，人类迎来巨变前夜？

...迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemini（中文称“双子座”）。具体来看，谷歌最新发布的Gemini 1.0系列，主要是英语模型，共包括三个不同尺寸版本：Ultra（超大杯）、Pro（大杯）和Nano（中杯），将...……更多

2023-12-07 13:02:00美国,人类,疯狂,焦点,媒体,英伟

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...点在于，Llama 3.2成为羊驼家族中，首个支持多模态能力的模型。Connect大会上，新出炉的Llama 3.2包含了小型（11B）和中型（90B）两种版本的主要视觉模型。正如Meta所说，这两款模型能够直接替代，相对应的文本模型，而且在图像...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

Gemini的展示是剪辑造假？我们亲测了一下，发现…

...重推出他们史上“规模最大、能力最强”的原生多模态大模型Gemini 1.0。并称已在多项基准测试中打败GhatGPT，综合能力称霸目前市面上所有AI大模型。官方放出的一段6分22秒演示视频更是震撼：Gemini能流畅而准确地识别出视频中...……更多

2023-12-08 16:30:00剪辑,模态,中文,提示,别出,大杯

多模态竞技场对标90B Llama 3.2！Pixtral

...杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...检索策略，这种设计不仅提高了检索效率，也显著增强了模型生成内容的准确性。为评估OmniSearch，研究团队构建了全新Dyn-VQA数据集。在一系列基准数据集上的实验中，OmniSearch展现了显著的性能优势。特别是在处理需要多步推理...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

哪里不会扫哪里！全球最强数学大模型在线玩，阿里多模态模型加持

现在，最强数学大模型，人人都可上手玩了！一觉醒来，阿里千问大模型团队发布了Qwen2-Math的Demo，抱抱脸在线可玩。惊喜的是，如果嫌输入数学公式比较麻烦，可以把想问的题截图or扫描，上传即可解题。整得挺方便。试玩界...……更多

2024-08-21 09:42:00模型,模态,阿里,数学,全球,在线

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-

国产大模型，多模态能力都开始超越GPT-4-Turbo了？？权威榜单，中文多模态大模型测评基准SuperCLUE-V，新鲜出炉：特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B，分别成为国内闭源和开源界两大领跑者，甚至超过Claude-3.5-Sonnet..……更多

2024-08-09 09:38:00模态,腾讯,国产,模态,腾讯,元宝

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，真正意义上实现了多模态交互。紧随其后一天，年度Google I/O开发者大会如期而至，谷歌CEO Sundar Pichai...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

全模态对齐框架align-anything来啦：实现跨模态指

...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作，包括 Aligner（NeurIPS 2024 Oral）、ProgressGym（NeurIPS 2024 Spotlight）以及 Safe-RLHF（ICLR 2024 Spotlight）等系列……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据