推理,模型,极限,突破,学习,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

GPT-4劲敌，谷歌进入高能+高产模式

...参数划分为多个组别而实现的计算的稀疏化，即每次执行推理任务时，根据对输入类型的判断，MoE模型会通过门控网络选择性地激活神经网络中最契合指令的专家参与计算。这种专业化、模块化的划分可以在提升预训练计算效率...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

DeepSeek首次披露：理论成本利润率545%

...层涟漪。3月1日，DeepSeek在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章，全面揭晓V3/R1 推理系统背后的关键秘密。最为引人注目的是，文章首次披露了DeepSeek的理论成本和利润率等关键信息。据介绍，假定GPU租赁成本为2...……更多

2025-03-01 18:59:00利润率,利润,成本,理论,节点,模型

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...凌晨1时许，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...纷卷速度的当下，通过优化技术，智谱生成式视频模型的推理速度提升了6倍。目前，生成6s视频，模型花费的理论时间是30s，解放用户的等待时间。在此前，智谱CEO张鹏曾公开表示，在AGI的一致目标下，智谱AI与OpenAI等厂商有着...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

黄仁勋：我从不在乎市场份额、英伟达唯一目标是创造新市场

...英伟达，老黄还讨论了AGI的智能扩展、机器学习的加速、推理与训练的重要性……虽然时长感人（近1个半小时），但一大波网友已经看完并交起了作业（开始卷了是吧！）网友：学起来！学起来！黄仁勋：未来推理的增长将远...……更多

2024-10-23 12:25:00新市,英伟,份额,从不,目标,市场

OpenAI升级o3-mini模型思维链：提升AI推理过程透

...更新o3-mini-high的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。OpenAI在去年12月发布了推理模型o3，该系列包含两个模型，即o3和o3-mini，前者是高性能推理模型，后者是更小的精简版模型，在保持智能...……更多

2025-02-07 10:14:00透明度,推理,模型,思维,过程,升级

大模型步入推理Scaling时代,SambaNova如何挑战

...震。o1 能像人类一样「思考」复杂问题，拥有优秀的通用推理能力。在未经专门训练的情况下，o1 能够直接拿下数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外，更重要的是，它揭示了大模型...……更多

2024-10-21 09:55:00英伟,霸主,推理,模型,地位,时代

前零一万物联创戴宗宏创业：20人团队，能干上百人的AI定制项

...突出的是语言性能力和逻辑性能力。只有当模型具有深度推理和思考能力，它才能去理解企业的业务流，辅助决策。直到o1发布，我才觉得大模型落地到千行百业成了一个优化程度的问题，而不是行与不行的问题。事实上当时...……更多

2025-09-09 15:19:00联创,万物,团队,创业,项目,企业

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...概念，提高了大语言模型（LLM，large language models）在复杂推理任务上的性能，例如算术推理、常识推理和符号推理等。图 | 金明宇（来源：金明宇）CoT 的原理是通过提供推理过程的示例，来教会模型处理推理，详细说明导致最...……更多

2024-03-15 10:41:00罗格,罗格斯,推理,模型,团队,概念

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...M) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能的发展产生帮助？LLM 为什么会犯...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

o1核心作者分享：激励AI自我学习，比试图教会AI每一项任务

...绍下Hyung Won Chung，从公布的o1背后人员名单来看，他属于推理研究的基础贡献者。资料显示，他是MIT博士（方向为可再生能源和能源系统），去年2月加入OpenAI担任研究科学家。加入OpenAI之前，他在Google Brain负责大语言模型的预训...……更多

2024-09-21 09:36:00教会,核心,任务,作者,学习,模型

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型，也是首个支持用单台409...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...解决复杂数学问题的能力。通过此，他们不仅提高了算法推理速度，还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100，也更加符合算法在复杂数学问题下的评价场景。目前，赵子龙的合作者正在基于本次成果开...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

头部企业为何纷纷接入DeepSeek模型？现象级合作背后蕴藏

...近期他们在算法层面的优化使得效率提升，已显著降低了推理成本，为产业带来了直观的震撼——比如在更低的算力需求下实现更高质量的生成效果。Deepseek这种开源模型的崛起，背后灵活、低门槛的特性正在重构行业生态。专...……更多

2025-02-26 12:40:00头部,接入,模型,背后,现象,趋势

度小满CEO朱光：必须密切关注大模型在金融领域的发展

...供更多资料，例如银行流水记录。最近，我们尝试使用了推理大模型来处理这些上传的银行交易记录。该模型能够迅速发现并评估客户的风险状况。例如，模型可以识别出客户在过去几个月内疑似向高风险账户转账，表明其消费...……更多

2024-11-06 11:38:00模型,领域,金融,发展,模型,客户

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...用混合专家架构，超10TB tokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...73.56的高分，并在数理逻辑维度取得第一，体现其强大的推理能力。 SenseChat-Vision5.5基础能力突出，数理逻辑维度超越GPT-4o本次SuperCLUE-V涵盖了国内外最具代表性的11个开源/闭源多模态理解大模型，聚焦多维度能力评估，包括基...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

清华团队开源大模型推理引擎“赤兔Chitu”：硬件成本削减5

...授团队与清华系科创企业清程极智联合宣布，开源大模型推理引擎“赤兔Chitu”。这一突破性技术为国产AI芯片的广泛应用和生态建设带来了新的机遇。“赤兔Chitu”首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精...……更多

2025-03-14 17:22:00清华,推理,模型,团队,成本,硬件

姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑

姚期智院士领衔，推出大模型新推理框架，CoT“王冠”戴不住了。提出思维图（DiagramofThought），让大模型思考更像人类。团队更是为这种推理过程提供了数学基础，通过拓扑斯理论（Topos Theory）正式化（formalize）DoT，确保其逻...……更多

2024-09-24 13:36:00维图,院士,逻辑,模型,一致,理论

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

...的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

人工智能助推能源产业高“智”发展

...，其性能与世界顶尖模型GPT-4o不相上下；R1作为面向复杂推理任务的大模型，全球首次复现OpenAI o1模型且性能对比不分伯仲。两款模型是开源模型性能达到世界顶尖闭源模型的首例。简单来说，DeepSeek像是一个聪明又懂你的生活...……更多

2025-02-24 08:32:00人工智能,助推,人工,能源,智能,产业

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖

...。通过迭代式的自举过程，o1 基于现有大语言模型的强大推理能力，生成合理的推理过程，并将这些推理融入到其强化学习训练过程中。强化学习技术能够显著提升模型解决复杂问题的能力，尤其是在 o1 所采用的细粒度奖励机...……更多

2024-10-26 09:48:00算法,奖励,理念,问题,技术,模型

郑小林:建立思维链的AI 具有里程碑意义

...段即对话式AI，AI能解决语言交互问题；第二阶段是具备推理阶段；第三阶段，AI能感知物理世界并与物理世界实现交互；第四阶段，AI将进入创新领域，具备开创新想法和技术的能力；到了第五阶段，AI将具备战略思维和自我管...……更多

2024-09-27 07:04:00小林,里程,里程碑,思维,意义,小林

MiniMax进化论：一群「偏执者」的破浪前行

...捉关键细节，进而有效减少HBM内存读写量逾70%，让训练与推理效率提升2.5倍。当然，这种将精力放在对的事情上、不断创新的逻辑，不只是NCR的底层技术思路，同时也是对MiniMax企业气质，以及如今地位如何炼成的最好概括。M1创...……更多

2025-07-02 13:31:00一群,进化论,偏执,进化,模型,技术

李彦宏：大模型场景下开源是最贵的，多模态是通往AGI的必经之

...练效率提升到了原来的5.1倍，周均训练有效率达到98.8%，推理性能提升了105倍，推理的成本降到了原来的1%。会上，百度发布了文心大模型4.0的工具版，该工具版可以让开发者体验代码解释器功能，开发者不仅可以通过自然语言...……更多

2024-04-16 17:57:00李彦,模态,之路,必经,模型,场景

vivo发布自研大模型，为用户和开发者带来诸多惊喜

...能计算领域的探索与创新。他指出，大规模训练、高性能推理及海量算力治理是AI落地面临的三大挑战。为此，vivo构建了大模型工程体系，解决了大规模训练的问题，让模型能按天迭代;解决高性能推理的问题，能秒级生成图片;...……更多

2024-10-14 01:53:00开发者,模型,惊喜,用户,开发,模型

语音克隆达到人类水平，微软全新VALL-E 2模型让Deep

...零样本TTS依旧是一个有挑战性的问题。「零样本」意味着推理过程中，模型只能参照一段简短的陌生语音样本，用相同的声音说出文本内容，就像一个能即时模仿的口技大师。听到这里，不知道你会不会突然警觉——有这种能力...……更多

2024-07-25 09:34:00堪比,微软,配音,语音,模型,人类

方寸之间算力无边，华硕隆重推出Ascent GX 10

...达1000AITOPS处理能力和128GB统一内存，实现无缝模型开发和推理先进架构：NVIDIA?GB10GraceBlackwell超级芯片配备BlackwellGPU、20核ArmCPU和NVLink-C2C?技术，可有效提升AI工作负载扩展互联：配置为独立或私有云系统，以在桌面上驱动AI……更多

2025-03-31 08:42:00华硕,方寸,隆重推出,之间,计算机,模型

“AI教母”李飞飞巴黎AI峰会演讲：现在才是“第一个AI时代

...以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。据了解，s1模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。李飞飞团队研究人员表示，s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Fl...……更多

2025-02-12 11:19:00教母,巴黎,峰会,时代,模型,人工智能