模型,基准,多语,测试,性能,生成头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型（VLM）——PaLI-3，该模型与相似的体...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...过。但是，也需要说明这些测试存在局限：仅使用了一种模型，即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说，这个结果很是不错。但到今年年底时，考虑到英伟达 B...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

全球AI安全评估测试有了新基准

本文转自：科技日报大模型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统，特别是大语言模型成为社会各方面不可或缺的一部分，以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群，——还...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

继旗下xAI公司宣布正式开源大模型Grok-1后，特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Gr...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

戴尔以技术创新推动AI基础架构升级

...蓬勃发展的AI应用背后离不开底层基础设施的支持。以大模型的训练和推理为例,大模型的参数量已经从数十亿增加到几百亿、几万亿甚至更高,更大的模型带来了更大的AI算力需求。有数据显示,AI所消耗的算力平均每3至4个月就会...……更多

2024-04-22 18:00:00戴尔,技术创新,架构,升级,基础,技术

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

通义大模型发布一周年之际，迎来重要的历史性时刻。5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4 Turbo，成为地表最强中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Llama-3-7...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

Mamba再次挑战霸主Transformer！首个通用Mam

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的...……更多

2024-08-14 09:43:00一鸣,霸主,模型,再次,模型,序列

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实

...布新产品，不是AI搜索引擎，也不是GPT-5，而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。GPT-4o的“o”代表“omni”，意为全能，与现有模型相比，它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和...……更多

2024-05-14 16:45:00本实,和文,推理,新品,音频,对话

华为matebook14和matebookd16笔记本测试

...于MX330独显的水平了。AI功能使用体验：流畅运行端侧大模型，加速日常办公创作前面我们介绍了华为MateBookD16和MateBook14的基础性能表现，对于主打轻薄的商务办公本来说，都给出了超出预期的性能表现，而这同时也为两款笔记...……更多

2024-04-04 03:47:00华为,笔记本,测试,笔记,英特,英特尔

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能

...日（9 月 24 日）发布博文，报道谷歌升级旗下 Gemini 1.5 AI 模型，推出了 Gemini-1.5-Pro-002和 Gemini-1.5-Flash-002，相比较此前版本成本更低、性能更强、响应更快。成本更低谷歌下调了 token 输入和输出费用，Gemini-1.5-Pro……更多

2024-09-26 09:51:00进化,更快,模型,成本,性能,模型