模型,国产,模型,推理,能力,数学头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...享直播活动的最后一天！周五，OpenAI发布了下一代的推理模型o3，这是今年早些时候发布的o1推理模型的升级版本。更准确地说，o3是一个模型系列——就像o1一样，同时有o3和o3-mini两个版本，后者是一款更小的精简版模型，针对...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

...了，这次又是重磅炸弹。昨晚，DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview，直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。在美国数学竞赛（AMC）中难度等级最高的 AIME 以及全球顶级编程竞赛（codeforces）等权威评...……更多

2024-11-22 09:50:00推理,性能,再次,重点,模型,推理

大模型“翻车”小学题？

...——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉，孙楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高？”迅速引起热...……更多

2024-07-18 16:39:00模型,小学,模型,小数,记者,南都

阿里发布全球最强开源模型千问3 通义App第一时间已上线

快科技4月29日消息，阿里新一代通义千问开源模型Qwen3（简称千问3），现已在通义App与通义网页版（tongyi.com）全面上线。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”，以及主对话页面，体验到全球最强...……更多

2025-04-29 11:35:00通义,阿里,模型,全球,通义,模型

360智脑7b参数模型采用3.4万亿tokens训练

...12日消息，360公司日前在GitHub上开源了360智脑7B（70亿参数模型）。360智脑大模型采用3.4万亿Tokens的语料库训练，以中文、英文、代码为主，开放4K、32K、360K三种不同文本长度。360表示，360K（约50万字）是当前国产开源模型文本长...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

阿里最新开源推理模型发布：性能比肩DeepSeek-R1

阿里通义发布最新开源推理模型，称其性能比肩DeepSeek-R1。3月6日凌晨，阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B。据介绍，通过大规模强化学习，千问QwQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩De...……更多

2025-03-06 13:22:00阿里,推理,模型,性能,模型,通义

科大讯飞：在智能汽车领域将持续融合集成行业最新相关技术

...大讯飞将持续融合集成行业最新相关技术，通过与星火大模型融合协作，为用户提供更加智能化的交互产品和解决方案。投资者：董秘您好，有消息称20家车企已引入DeepSeek，请问对讯飞有哪些影响科大讯飞董秘：您好，在智能...……更多

2025-02-15 15:58:00讯飞,领域,智能,汽车,行业,技术

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

智源评测体系发布国内外“百模”评估结果出炉

5月17日，智源研究院举办大模型评测发布会，正式推出智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测，分别从主观、客观两个维度考察了语言模型的简单理...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

港中文团队提出大模型元推理范式，革新大模型的评价体系

...院工作过一段时间。在 ChatGPT 面世以后，他意识到针对大模型的研究范式存在一定的不足，于是决定来到香港中文大学读博。图 | 曾忠燊（来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

通义App全面上线千问3 第一时间体验全球最强开源模型

...义网页版（tongyi.com）全面上线阿里新一代通义千问开源模型Qwen3（简称千问3）。用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”，以及主对话页面，体验到全球最强开源模型的顶级智能能力。据了解，千问3...……更多

2025-04-29 11:28:00通义,模型,体验,全球,通义,模型

姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑

姚期智院士领衔，推出大模型新推理框架，CoT“王冠”戴不住了。提出思维图（DiagramofThought），让大模型思考更像人类。团队更是为这种推理过程提供了数学基础，通过拓扑斯理论（Topos Theory）正式化（formalize）DoT，确保其逻...……更多

2024-09-24 13:36:00维图,院士,逻辑,模型,一致,理论

全国产算力平台“飞星一号”的首个成果发布：讯飞星火V3.5来

科大讯飞举行星火认知大模型V3.5升级发布会。受访者供图华龙网讯（首席记者董进）1月30日，科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪，正式发布基于首个全国产算力训练的讯飞...……更多

2024-01-30 22:41:00讯飞,星火,成果发布,成果,全国,平台

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

...源：硬AI圣诞节前，人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒，谷歌刚发布自家的先进推理模型挑战OpenAI的o1，第二天，OpenAI就推出了升级版的最强推理模型o3。美东时间12月20日周五，在为期12个工作...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

商汤科技发布日日新5.0大模型

本文转自：劳动报商汤科技发布日日新5.0大模型五大产品全新亮相局部能力赶超GPT-4本报讯（劳动报记者陈宁）日前，在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动现场，商汤发布行业首个“云、端、边”全栈大模...……更多

2024-04-29 04:36:00商汤,模型,科技,商汤,能力,模型

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

几天前 OpenAI 新模型 o1 的发布，再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”，是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域，还表现出超强...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

马斯克突然发布Grok-2！数学推理能力突出，攻克“9.9与

...北京时间8月14日下午，xAI正式官宣Grok-2和Grok-2 mini两款AI模型（测试版）。xAI直接揭秘，前一阵子出现在Lmsys大模型竞技场上的神秘模型“sus-column-r”就是Grok-2。在xAI给出的大模型排行榜中，Grok-2的评分优于GPT-4o-mini和Claud……更多

2024-08-15 09:56:00马斯,马斯克,推理,难题,大小,能力

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多

2024-11-23 09:42:00推理,模型,思路,原理,推理,模型

最新大模型产品抢先看

本文转自：劳动报2024世界人工智能大会探营：最新大模型产品抢先看■劳动报记者陈宁7月4日至6日，2024世界人工智能大会将在上海拉开帷幕。今年“百模大战”热度依旧不减，大模型依然是这次大会的十大重点议题之一。据...……更多

2024-06-26 00:34:00模型,产品,模型,星环,人工智能,智能

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模

...网友猜测的一样，人工智能（AI）巨头OpenAI发布最新推理模型o3和o3-mini。前一天，OpenAI公司CEO山姆·奥特曼（Sam Altman）就曾发文提到三个“o”暗示了o3的到来。为何新模型跳过了o2直接命名o3？奥特曼表示是为了避免和英国电信运...……更多

2024-12-21 12:10:00推理,模型,直播,推理,模型,时间

AI表现直逼国际奥数优秀选手，它要 “征服”数学了吗？

...65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力，训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶，往往意味着人类智慧极限的突破。迄今为止，解决或协助解...……更多

2024-06-14 11:54:00奥数,选手,数学,国际,数学,数学家

专注于推理的OpenAI“草莓”模型两周内发布？是人工智能下

...二，据知名科技商业类媒体The Information援引多位测试过该模型的人士透露，站在时代风口浪尖的“AI宠儿”OpenAI计划在未来两周内发布名为“草莓”的最新人工智能产品，作为ChatGPT所提供服务的一部分。这比两周前传闻的“秋季...……更多

2024-09-11 09:55:00人工智能,推理,草莓,人工,模型,突破

DeepSeek的能力，到底从哪里来？

...ixabay撰文 | 张天祁● ● ●今年年初，DeepSeek发布DeepSeek-R1模型，引发全球的关注。在公开评测中，它的综合能力逼近当时的顶尖大模型，尤其在逻辑推理和数学题上展现出强劲性能，而且它的成本要远低于作比较的其他大模型。...……更多

2025-05-27 10:23:00里来,能力,模型,训练,推理,能力

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o

...日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还...……更多

2025-01-16 14:56:00通义,阿里,推理,模型,尺寸,奖励

“AI孙悟空”对话全球！讯飞星火AI大模型展项亮相大阪世博会

...起来”，向全球展示生动靓丽的“中国名片”。中国AI大模型也首秀世博舞台，科大讯飞代表中国人工智能企业展示了领先的AI大模型技术——依托国产自主可控讯飞星火大模型，打造了支持中、日、英三语实时交互的人工智能...……更多

2025-04-13 16:36:00大阪,世博,孙悟空,讯飞,星火,世博会

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科

....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型，包括阿里、百度等5家大厂模型，月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其他8家则答错。首先是目前全球...……更多

2024-07-17 20:56:00理科,文科,业内人士,模型,业内,多个

苹果新论文证明LLM大模型存在缺陷！没有进行真正的逻辑推理

...nguage Models in Mathematical Reasoning”的论文，揭示了大型语言模型（LLM）在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色，但当处理简单的数学问题时，即使问题仅进行了微小的改动，如添加无关信...……更多

2024-10-13 14:15:00逻辑推理,新论,推理,缺陷,逻辑,模型

国产大模型 DeepSeek-V3 开源：6710 亿参数自

...（12 月 26 日）发布博文，宣布上线并同步开源 DeepSeek-V3 模型，用户可以登录官网 chat.deepseek.com，与最新版 V3 模型对话。IT之家援引博文介绍，DeepSeek-V3 是一个 6710 亿参数的专家混合（MoE，使用多个专家网络将问题空间划分为同...……更多

2024-12-27 09:20:00模型,国产,参数,模型,缓存,价格