推理,模型,能力,论文,社区,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

姚期智院士领衔，推出大模型新推理框架，CoT“王冠”戴不住了。提出思维图（DiagramofThought），让大模型思考更像人类。团队更是为这种推理过程提供了数学基础，通过拓扑斯理论（Topos Theory）正式化（formalize）DoT，确保其逻...……更多

2024-09-24 13:36:00维图,院士,逻辑,模型,一致,理论

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量语料学会生成文本，那...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...湖大学工学院助理教授（研究）杨林易。o1 作为 OpenAI 在推理领域的最新模型，大幅度提升了 GPT-4o 在推理任务上的表现，甚至超过了平均人类水平。o1 背后的技术到底是什么？OpenAI 技术报告中所强调的强化学习和推断阶段的 Sca...……更多

2024-10-15 09:56:00框架,团队,联合,模型,过程,步骤

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...凡的性能而获得了前所未有的关注。然而， LLM 的训练和推理成本高昂，人们一直在尝试通过各种优化方法来降低成本。本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发，他们通过为 LLM ...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

最近，以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升，在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称，推理可以让模型更好的遵守安全政策，是提升模型安全的新路径。然而，推理能力的提升真的能解决...……更多

2024-11-08 09:46:00诱导,推理,安全性,对话,安全,攻击

“AI科学家”登场科研自动化时代来了？

...语言模型之外的其他技术。例如，解决数学问题需要逻辑推理，而目前大多数AI模型都不擅长逻辑推理。鉴于此，谷歌深度思维公司开发出AlphaGeometr，将语言模型与符号引擎(使用符号和逻辑规则进行推理)相结合，构建出一种神...……更多

2024-09-12 07:47:00科学家,科研,自动化,科学,时代,科学家

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。论文一作为华人学者Tian...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...们刚才所述，32个基准测试中拿下30个SOTA。其中，通用、推理、数学和编程等大方向的成绩如下表所示：△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA 在多模态方面，Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOT...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...仅解码器LLM）作为文本编码器，以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展，但大多数现有模型仍依赖CLIP或T5进行文本编码，这些模型往往缺乏强大的文本理解和指令跟随能力。与CLIP或T5不同，Gem...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型，一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。在实际的执行过程中，这会用到一种名为思考标签（thinking tag）的机制。模型会在这个标签内部进行反思，直到它得到正确答案或认为自己得到了正确...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

... 3.5依旧答错了。LeCun在此嘲讽大模型一番，大模型竟可以推理...？问题在于，LLM没有常识，不理解现实世界，也不会规划和推理。LLM行不行，就看提示了一位网友分析总结了，以上LLM失败的原因。他表示，LLM本身就是个「哑巴」...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

本周（4.8-4.14）AI界发生了什么？

...模型中，只需一次API调用，该模型就可以分析图像并应用推理。“欧洲版OpenAI”Mistral AI也正式开源了大模型Mixtral8x22B，参数规模高达1760亿，仅次于马斯克AI公司的Grok-1大模型。苹果或在9月发布新电脑，搭载AI功能当地时间4月11...……更多

2024-04-14 20:33:00模型,特斯,马斯,芯片,融资,英特

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CP

微软开源1bit大模型推理框架！现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现，开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数（如FP16或BF16）形...……更多

2024-10-23 12:05:00模型,微软,推理,框架,参数,模型

字节版Sora火爆24小时，同名论文再次被热议

...令描述了视频片段的主要场景尾帧图像指令（在训练和推理过程中可选使用）描绘了视频片段的结尾，并提供了额外的控制这里要插一句，与文本指令相比，图像指令更加直接且易于获取——使用真实视频帧作为训练中的图像...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

人类和AI在推理任务中的表现相似，Google DeepMi

...人工智能（AI），特别是大型Transformer语言模型（LMs）在推理任务中的表现及其局限性。研究结果显示，尽管这些模型在处理自然语言方面表现卓越，但在复杂逻辑推理任务中，人类和语言模型都会受到语义内容合理性和可信度...……更多

2024-08-19 13:49:00局限性,推理,人类,任务,研究,模型

开源社区分水岭：Meta大模型Llama 3发布，参数最高或

...行业基准测试上展现了最先进的性能，提供了包括改进的推理能力在内的新功能，是目前市场上最好的开源大模型。在架构层面，Llama3选择了标准的仅解码（decoder-only）式Transformer架构，采用包含128K token词汇表的分词器。Llama 3...……更多

2024-04-19 15:58:00分水,分水岭,模型,参数,社区,模型

挑战Scaling Law，Meta发布移动端350M小模型

...做个假设，如果把GPT-4（大约有1万亿参数）以50tokens/s的推理速度部署在生活中，你需要什么样的硬件？答案是1亿个H100 GPU。别说是移动设备了，家里都放不下。那如果降低标准，用LLaMA-v2 7B这样的模型，再加上8-bit量化呢？简单...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。最后，目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献，而是局限于摘要、在固定语料库上检索，或者只是直接提供相...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

...ion模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。新模型具体如何推理，直接上实例，比如问题是：减去所有的小亮球和紫...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

o1带火的CoT到底行不行？新论文引发了论战

...To CoT or not to CoT？OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多

2024-09-21 09:37:00新论,推理,符号,性能,任务,数据