知识,模型,推理,数据,方法,学习头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ChatGPT大流行的思考-解析篇

...在是给定人类的自然表述，LLM通过大量数据学习语义语法知识及既定事实，最终再用符合人类的表述方法进行反馈，讲究的是GPT去适应人，而不是人去适应GPT（这活脱脱是个绝对合格的乙方思路！谁能不爱）（2）角色定位的区...……更多

2023-02-17 21:00:00知识,模型,推理,数据,方法,学习

$免训练大模型知识编辑，吸收新数据更高效｜EMNLP\'24$

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

让大模型能快速、准确、高效地吸收新知识！被EMNLP 2024收录的一项新研究，提出了一种检索增强的连续提示学习新方法，可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识，同时不需...……更多

2024-10-30 09:57:00模型,训练,知识,数据,模型,知识

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-

...推理系统，TS-Reasoner 支持创建自定义模块，能够适应外部知识和用户指定的约束，具有高度的灵活性和可扩展性。这种高度的灵活性不仅增强了模型应对复杂时间序列任务的能力，还使其在需要严格约束的领域（如气候建模和投...……更多

2024-10-29 09:55:00推理,时间序列,序列,框架,难题,突破

DeepSeek的能力，到底从哪里来？

...拆解这套训练方法，厘清模型性能提升的真正来源。《知识分子》和Open-Reasoner-Zero团队成员胡倞成、韩琦，Light-R1团队成员邹昊晟，新加坡国立大学、Sea AI Lab研究人员刘梓辰，以及个人复现者许书尧都聊了聊，试图回答以上一...……更多

2025-05-27 10:23:00里来,能力,模型,训练,推理,能力

推动大模型自我进化，北理工推出「流星雨计划」

...段：第一阶段：导师监督学习，旨在赋予模型基本的领域知识，让模型能够完成领域任务；第二阶段：自我评估能力习得，通过借助通用大模型的指导，进一步迭代训练学习，赋予模型自我评判的能力；第三阶段：自我提升...……更多

2024-12-06 09:52:00流星雨,进化,理工,流星,模型,模型

百川智能发布baichuan3稳定语言模型

...助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大，能充体现大模型的各项能力，被百川智能称为“大模型皇冠上的明珠”。因此，诸如OpenAI、谷歌等头部大模型企业都将医疗...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

全球科研团队竞逐低成本AI模型研发新范式

...算资源等成本只需几十美元。s1的核心创新在于采用了“知识蒸馏”技术和“预算强制”方法。“知识蒸馏”好比把别人酿好的酒进一步提纯。该模型训练数据是基于谷歌Gemini Thinking Experimental模型“蒸馏”出的仅有1000个样本的...……更多

2025-02-27 05:08:00范式,模型,科研,团队,成本,全球

上海AI实验室版o1已上线！数学题、Leetcode全拿下，

...段试题题目为例，模型在读取题目信息后会先列出相关的知识点，然后逐步进行推理计算，和人类解题的方式非常接近。再来看看另外一个大家都很熟悉的数字游戏24点，模型也能做到先列出相关的计算方法，然后根据最可能成...……更多

2024-11-29 09:27:00数学题,上海,实验室,实验,数学,模型

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...数学计算、代码编程，以及测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1 系列模型的性能均明显优于 GPT-4o。根据OpenAI公布的信息，o1系列模型的特长并不相同，从数学能力看，o1最强，其次是o1-mini，最后是o1-preview，...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

微软华人团队发布全新基准AGIEval，专为人类考试而生

...基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练，文中对模型能力(理解、知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来，大型基础模型如GPT-4在各个领域已经...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

...具备获得 IMO 金牌的数学素养，但在具体场景下利用特定知识和工具完成复杂任务（例如使用搜索引擎、处理私有文档等）的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...对 TriMaster100 这一数据集，该团队还绘制出一幅三角函数知识图（knowledge graph）。实验中，他们发现通过搜索知识图来提供相关的知识信息，可以有效提高大模型的推理水平。即在解答一个数学问题时，如果可以提供一些高级...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...子。检索增强生成（RAG）企业还可以通过添加特定领域的知识库来适配LLM，RAG是典型的「搜索驱动的LLM文本生成」。RAG于2020年推出，它使用动态提示上下文，通过用户问题检索并注入LLM提示，以引导其使用检索到的内容，而不...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...从根本上减少大模型幻觉，可以从让大模型学习运用已有知识来实现受限推理，向可控生成的方向进行突破。以下为对话实录：搜狐科技：来自Vectara机器学习团队的幻觉测试显示，DeepSeek-R1的幻觉率高达14.3%，显著高于V3的3.9%，...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...从海量且快速增长的视频数据中获取视觉内容来获取 3D 知识。为实现这一目标，他们首先使用一个拟议的数据整理管道来扩大训练数据的规模，该管道可自动过滤掉源视频中的多视角不一致和观察不足的内容。这样就得到了一...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

...仅包含相当于分类任务的简单问题，缺乏语义推理和临床知识。如图1所示，现有的ImageCLF VQA-MED数据集仅包含「这张图像里主要异常是什么？」和「这张图片里看到了什么？」这两种完全相当于分类任务的问题。较小的数量以及...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...其专门用于评估模型在化学、物理和生物学等领域的专业知识水平，并邀请了拥有相关领域博士学位的专家参与测试。测试结果显示，o1不仅成功完成了测试，更是超越了博士表现，成为首个在GPQA diamond 基准上击败人类专家的AI...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

华人团队爆火instructblip抢跑看图聊天

...有阅读理解的图像字幕、视觉推理、图像问题回答、基于知识的图像问题回答，带阅读理解的图像问题回答，图像问题的生成（与QA数据集相反），视频问题回答，视觉对话问题回答，图像分类，以及LLaVA-Instruct-150K。对于每一项...……更多

2023-05-15 20:17:00团队,华人,指令,数据,模型,研究

2023内容科技应用典型案例：农业银行大模型ChatABC

...述农业银行大模型ChatABC，对于大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习（RLHF）等大模型相关新技术进行了深入探索和综合应用，结合农业银行研发支持知识库、内部问答数据以及人工标注数据等金融...……更多

2024-04-08 17:06:00农业银行,典型案例,模型,典型,案例,银行

讯飞星火X1全面升级领跑教育、医疗、司法行业应用

...星火X1在数学、代码、逻辑推理、文本生成、语言理解、知识问答等通用任务上效果显著提升，在模型参数比业界同类模型小一个数量级的情况下，整体效果对标OpenAI o1和DeepSeek R1，再次证明了基于国产算力训练的全栈自主可控...……更多

2025-04-22 16:50:00讯飞,星火,行业应用,司法,升级,医疗

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？

...了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域，强化微调将会发挥至关重要的作用。从OpenAI的官方演示中不难看出，强化微调的效果可谓是相当显著——经过强化微调的o1 mini，竟然全面超越了当今最强的...……更多

2024-12-09 09:53:00奥特,奥特曼,字节,直播,惊喜,模型

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...？研究人员对此，提出了一种假设，并设想是否可以通过知识引导，进一步提高LLM的能力。其实，此前的研究已经表明，大模型表现出一些类人的特征，比如通过CoT一步一步推理。而且，也有一些研究称，LLM具备了元认知能力...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...据的不断积累，模型必须在学习新信息和保留先前获取的知识之间取得平衡。传统模型通常假设稳定的数据分布，但在实际场景中，新的 LTM 数据可能与早期模式显著背离，导致过拟合或灾难性遗忘等风险。有效处理这些变化对...……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

人工智能已经可以解决复杂的数学问题了，还有哪些工作无法被取代

...成的文本中。这可能导致出现歧视性语言或错误的陈述。知识表示：LLMs没有真正的理解语言或世界的知识，它们只是学习出现在数据中的模式。这意味着它们可能会在处理新的情况时出现问题。模型大小：LLMs需要大量的计算资...……更多

2023-02-24 18:22:00人工智能,人工,数学,智能,问题,工作

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...难的智力基准，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。实验结果表明：o1 超越了人类专家的表现，成为第一个在该基准测试中做...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

大模型不是未来？你需要学习下图灵奖得主Yann LeCun选

...正理解文本在现实世界中所代表的含义。这种对底层现实知识的缺乏会导致 LLM 犯错，有时候这些错误还非常愚蠢。举个例子，在某用户分享的使用 Claude 续写小说的案例中，续写情节中出现了角色失去心脏依然正常生活的情节...……更多

2023-06-26 13:37:00图灵奖,模型,图灵,得主,选择,学习

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...类才能涉足。深蓝是一个专家系统，它结合了广泛的象棋知识和启发式规则以及强大的树搜索算法（alpha-beta 剪枝）。几乎所有当代且更强大的象棋引擎都遵循类似的模式，目前世界上最强大的（公开可用的）引擎是 Stockfish 16。...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

...。且思考过程采用自然语言形式，便于解释和利用预训练知识。然后系统会将这些输出中的回答部分（不含思考过程）提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回答评分的模型，也可以是像Self-Taught Eva...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...记忆格式）来降低这一成本。从概念上讲，由于其大部分知识都外化为显式记忆，因而 LLM 可以享受更少的参数大小、训练成本和推理成本。论文地址：https://arxiv.org/pdf/2407.01178论文标题：Memory3 : Language Modeling with Explici……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储