弱点,模型,推理,答案,思路,准确率头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...OpenAI于8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率为71.7%，比o1高出了22.8个百分点。o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

ChatGPT o1满血版上线！实测中它竟然败给了国产AI？

...时间12月5日，OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了，只是那时候还叫o1-preview，仅开放了o1模型的部分功能，如今新版本去掉了preview，也意味着o1模型的满血版终于正式上线。图...……更多

2024-12-11 20:12:00实测,国产,模型,推理,文心,答案

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...推理能力：在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

Transformer推理天花板被谷歌打破？DeepMind

...跟o1的核心技术CoT非常相似。传统的Transformer模型的致命弱点，就是擅长并行计算，但不擅长串行推理。而CoT，恰恰解决了这个问题。在这项工作中，Denny Zhou等人发现：传统的Transformer模型，只能解决AC0电路能解决的问题；但一...……更多

2024-09-21 09:43:00天花,天花板,推理,首席,科学家,科学

中国财税GPT迎来最准确的大模型：小竹财税AI问世

...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型，小竹财税AI将不断提升其逻辑推理和上下文理解能力，以更好地满足用户的需求，努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多

2024-03-14 13:30:00中国,模型,模型,领域,需求,正确率

荣耀Magic V5发布，一文看懂YOYO到底有多强大

...息和自动执行任务方面表现出色，例如，MagicGUI模型操作准确率高达91.5%，MagicVL-Nano端侧模型可在保护用户隐私安全基础上实现低功耗图像理解；此外，荣耀构建的三款云端大语言模型，可实现个性化推理、精准理解用户意图；...……更多

2025-07-04 13:11:00一文,荣耀,荣耀,智能,用户,模型

夸克上线“AI解题大师” 用深度思考帮用户讲透难题、拓展思维

...。据悉，夸克“AI解题大师”基于自研的推理及多模态大模型，具备强大的深度思考能力，覆盖全学科、全学段的各类题目，尤其擅长解答逻辑推理类的理科题目。当用户切换“深度解题”模式后，它能够精准理解每一道题目的...……更多

2025-03-18 11:49:00夸克,难题,深度,思维,大师,用户

GPT-4o的识图能力有多牛？四大维度深度体验

...识别数据图上的信息，并按要求以图表的形式重新呈现，准确率高达100%。图片来源：GPT-4o四、手写指令和逻辑推理最后，记者上了点难度，用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...6呈现了，新论文所提出的方法，在4个案例中实现了最高准确率。总之，作者提出一个LLM提取元认知知识框架，其形式是根据解决问题所需的概念，对数学数据集中的问题进行分类的技能。目前，新框架依赖于GPT-4等高级模型的...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

ChatGPT创业潮来了，我既兴奋又焦虑

...准确度上做了妥协，在知识跟推理里用了更模糊的方式，准确率远远不如搜索，能打6分；在时效性上，ChatGPT是0分，它的模型是以年为单位训练的，不适合处理有时效性的信息。所以ChatGPT是一个强适应性、弱准确度、弱时效性...……更多

2023-02-28 13:38:00焦虑,创业,模型,领域,创业,应用

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...rompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分的绝对优势排名第一。开源共享，引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

ChatGPT大流行的思考-解析篇

...对话，这是为什么？可以从以下两个维度来解答：（1）模型的本质区别首先我们要了解的是chatGPT是采用了LLM模型构建的对话机器人（large Language Model）；一般的语言模型处理任务的类型大致分为两种类型：中间任务及最终任务...……更多

2023-02-17 21:00:00知识,模型,推理,数据,方法,学习

华为NCE-数据通信领域总裁王辉：AI落地应用的新阶段

...这个0.01的误差是很难消除的，你认为如果想要真正使AI的准确率达到100%的话，行业还需要付出怎么样的努力？王辉：我个人认为，现在的数据可能还有很多水分，实际上达到99%也很难，达到90%以上，甚至95%以上是可接受的，因...……更多

2025-08-04 16:05:00王辉,华为,数据通信,落地,总裁,阶段

AI如何落地智慧交通？网新IN-TRANS产品给你答案

...的公路数智管养“设备成本降低90%，识别效率提升480倍，准确率接近90%，助力河南省累计采集农路里程超过20万公里”网新道路事业部产品总监王中用一连串数字，证明了网新AI自动化巡检方案，依托多模态算法引擎，在道路病...……更多

2024-05-29 10:00:00落地,答案,智慧,交通,产品,交通

又慢又贵？OpenAI推理模型“草莓”来了，GPT-5还有多

...生行列，在物理、生物和化学问题（GPQA）基准测试中的准确率也超过了人类博士生水平。据介绍，类似于人类在回答一个难题前可能会思考很长时间，o1在尝试解决问题时也会使用一连串的思考。通过强化学习，o1可以学会磨练...……更多

2024-09-13 15:28:00多远,推理,草莓,模型,模型,思维

李飞飞空间智能之后，上交、智源、北大提出空间大模型Spati

...深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多

2024-08-08 09:39:00空间,北大,模型,智能,深度,模型

用AI自动设计智能体，数学提分25.9%，远超手工设计

...分数提高了 13.6/100（与基线比），在 MGSM 的数学任务中将准确率提高了 14.4%。此外，在跨域迁移后，它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比，本文算法表现出色，这...……更多

2024-08-24 09:36:00设计,手工,数学,智能,智能,元智

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的可靠性。以下是两个案例：- Phi-2对金融数据情绪分析准确率，从34%提高到85%。- 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说，对于较小的初始精度（<50%），微调是一个巨大的障碍，需要用几...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...问题，是否会导致其在行业应用面临较大的挑战？比如对准确率要求比较高的教育、医疗、金融等行业？赵东岩：是的，所以在这些关键领域，模型的对齐效果非常关键。实践中，可以通过多次校验，对齐，RAG来改善大模型的幻...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁

...辑推理类和谜语类题目来比较腾讯元宝和GPT-4o回答问题的准确率和速度。记者观察到，尽管元宝和GPT-4o的正确率相同，正确率都是75%，但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案，使用数学公式清晰...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

...于 Python、C++、J等多种语言。在HumanEval基准测试中，它的准确率为53% ，接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日，Mistral联合创始人兼CEO Arthur Mensch在X上表示，引发众多猜测的“miqu-1-70b”是……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

东大发布深度推理法律垂域大模型

...现了从“知道”到“懂得”的性能飞跃，在法律要件分析准确率、法律推理可解释性等关键指标上实现全面提升。 ……更多

2025-03-19 08:25:00东大,推理,深度,模型,法律,法律