推理,新一代,模型,高考,模型,基准头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

快科技11月18日消息，日前，国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型，采用全新强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升解决数学...……更多

2024-11-18 08:22:00推理,新一代,模型,高考,模型,基准

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

9月5日，腾讯正式推出其新一代旗舰大模型——混元Turbo。相比前代模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...有那些经过长期积累的公司，才能构建起改变我们生活的新一代应用。期待昆仑万维在未来给我们带来更多、更强大的技术。 ……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

腾讯推出新一代大模型“混元Turbo”，性能大幅提升，定价低

9月5日，腾讯宣布推出新一代大模型“混元Turbo”，相比前代模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升100%，推理成本降低50%，解码速度提升20%，效果在多个基准测试上对标GPT-4o，第三方测评居国内第...……更多

2024-09-05 17:29:00腾讯,新一代,模型,定价,性能,腾讯

腾讯推出新一代大模型「混元Turbo」，性能大幅提升，定价低

鞭牛士 9月5日消息，腾讯宣布推出新一代大模型“混元Turbo”。腾讯介绍，该模型采用MoE架构，比上一代产品推理效率提升100%，推理成本降低50%，解码速度提升20%。腾讯公司副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏...……更多

2024-09-05 14:28:00腾讯,新一代,模型,定价,性能,腾讯

清华提出CharacterGLM；DeepMind联创发全新

...｜微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集，由微软、UCLA和UW联合开发，包含6141个数学问题，涵盖丰富的任务类型、推理能力和图像类型。特点：旨在提供一个全面、多样、复杂的视觉数学推理挑战...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...Gemini正式亮相的同时，谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。那么，你觉得这一波，谷歌能赶上OpenAI的脚步吗？参考链接：[1]https://blog.google/technology/ai/google-gemini-ai[2]https://storage……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

高通发布新款云ai推理加速卡

近日，高通公司发布了新一代云AI推理加速卡——CloudAI100Ultra。这款产品专为生成式AI和大型语言模型而设计，提供相当于上一代产品四倍的性能。新款CloudAI100Ultra可部署的模型规模进一步扩大，单张150W的卡上可部署100B参数模...……更多

2023-11-16 09:38:00加速卡,高通,推理,高通,加速卡,高通公司

让OpenAI o1逆天的慢思考，360两月前就做出来了？周

...让OpenAI三缄其口OpenAI o1的横空出世，开启了GPT系列之外的新一代模型。它代表着人工智能发展新范式的开端，在LLM领域首次实现了通用复杂推理能力。在代码生成方面，o1可以媲美IOI金牌水准。在物理、生物、化学等STEM学科问题...……更多

2024-09-21 09:50:00周鸿,前瞻,应用,模型,推理,协作

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...复杂推理能力的OpenAI o1。九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

对标o1，Kimi放出了最能打的国产模型

...历新一轮技术范式的变化，预训练 Scaling Law 放缓之后，推理时间计算成为了新的性能提升关键。两个月前，OpenAI o1 的诞生再次引领了大模型技术的突破。从后训练阶段入手，通过更多的强化学习、原生的思维链和更长的推理时...……更多

2024-11-19 09:50:00模型,国产,模型,推理,能力,数学

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...ma 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还正式发布了 Llama Stack Distribution，其可将多个 API 提供商……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

新智元报道编辑：乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...73.56的高分，并在数理逻辑维度取得第一，体现其强大的推理能力。 SenseChat-Vision5.5基础能力突出，数理逻辑维度超越GPT-4o本次SuperCLUE-V涵盖了国内外最具代表性的11个开源/闭源多模态理解大模型，聚焦多维度能力评估，包括基...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

文生图参数量升至240亿！Playground v3发布：深

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

科学家建立新评价基准，助力评估大模型数据分析能力

...题任务，要求模型在代码执行后对结果进行理解、归纳和推理，提供有价值的观点。尽管 Tapilot-Crossing 已经是规模较大、且较为全面的测试集，其构建成本也低于 100 美元，显示了利用虚拟多智能体容器生成复杂、高质量数据集...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

... 重新点燃了关于复杂 VLM 核心组成部分的研究，可能推动新一代规模更大的模型的发展。更高分辨率的多模态学习最近，大型视觉语言模型在其更大的模型中使用预训练的图像编码器，其中一些使用监督分类进行预训练（如PaLI...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型，并受制于缺乏多语言医疗专业数据的限制...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力，本文创新性地将视觉编码器与高效的状态空间语言模型集成，构建了全新的 RoboMamba 多模态大模型，使其具备视觉常识任务和机器人相关任务的推理能力，...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

阿里云发布通义千问2.5，性能赶超GPT-4 Turbo

...，中国科学院国家天文台人工智能组基于通义千问开发了新一代天文大模型“星语3.0”，这是大模型首次应用于天文观测领域；陕煤建新煤矿等十余座矿山推出由通义支持的新型矿山重大风险识别处置系统，成为大模型在矿山场...……更多

2024-05-09 12:00:00通义,阿里,性能,通义,模型,阿里

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...们的字面请求，更要能透视我们的隐式意图。因此，让新一代的智能体落地并为大众所用，需要以人为中心，不仅仅关注于任务执行的精确度，更关注于如何与人类建立起一种更加自然、流畅而富有洞察力的沟通方式。为了弥...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

自动化、可复现，基于大语言模型群体智能的多维评估基准

...上万的大规模语言模型（LLM），这些模型的各项能力（如推理和生成）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

精准狙击Llama 3.1？Mistral AI开源Larg

...l Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理等方面与 OpenAI 和 Meta 的最新尖端模型不相上下。紧随 Llama 3.1 405B 之后，Mistral Large 2 的发布让开源大模型的赛道一下子热闹起来，而这一模型的特点是 ——「足够大...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成