弱点,模型,推理,答案,思路,准确率头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...时间12月5日，OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了，只是那时候还叫o1-preview，仅开放了o1模型的部分功能，如今新版本去掉了preview，也意味着o1模型的满血版终于正式上线。图...……更多

2024-12-11 20:12:00实测,国产,模型,推理,文心,答案

Transformer推理天花板被谷歌打破？DeepMind

...跟o1的核心技术CoT非常相似。传统的Transformer模型的致命弱点，就是擅长并行计算，但不擅长串行推理。而CoT，恰恰解决了这个问题。在这项工作中，Denny Zhou等人发现：传统的Transformer模型，只能解决AC0电路能解决的问题；但一...……更多

2024-09-21 09:43:00天花,天花板,推理,首席,科学家,科学

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...推理能力：在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

中国财税GPT迎来最准确的大模型：小竹财税AI问世

...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型，小竹财税AI将不断提升其逻辑推理和上下文理解能力，以更好地满足用户的需求，努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多

2024-03-14 13:30:00中国,模型,模型,领域,需求,正确率

荣耀Magic V5发布，一文看懂YOYO到底有多强大

...息和自动执行任务方面表现出色，例如，MagicGUI模型操作准确率高达91.5%，MagicVL-Nano端侧模型可在保护用户隐私安全基础上实现低功耗图像理解；此外，荣耀构建的三款云端大语言模型，可实现个性化推理、精准理解用户意图；...……更多

2025-07-04 13:11:00一文,荣耀,荣耀,智能,用户,模型

夸克上线“AI解题大师” 用深度思考帮用户讲透难题、拓展思维

...。据悉，夸克“AI解题大师”基于自研的推理及多模态大模型，具备强大的深度思考能力，覆盖全学科、全学段的各类题目，尤其擅长解答逻辑推理类的理科题目。当用户切换“深度解题”模式后，它能够精准理解每一道题目的...……更多

2025-03-18 11:49:00夸克,难题,深度,思维,大师,用户

GPT-4o的识图能力有多牛？四大维度深度体验

...识别数据图上的信息，并按要求以图表的形式重新呈现，准确率高达100%。图片来源：GPT-4o四、手写指令和逻辑推理最后，记者上了点难度，用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...6呈现了，新论文所提出的方法，在4个案例中实现了最高准确率。总之，作者提出一个LLM提取元认知知识框架，其形式是根据解决问题所需的概念，对数学数据集中的问题进行分类的技能。目前，新框架依赖于GPT-4等高级模型的...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...rompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分的绝对优势排名第一。开源共享，引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

华为NCE-数据通信领域总裁王辉：AI落地应用的新阶段

...这个0.01的误差是很难消除的，你认为如果想要真正使AI的准确率达到100%的话，行业还需要付出怎么样的努力？王辉：我个人认为，现在的数据可能还有很多水分，实际上达到99%也很难，达到90%以上，甚至95%以上是可接受的，因...……更多

2025-08-04 16:05:00王辉,华为,数据通信,落地,总裁,阶段

AI如何落地智慧交通？网新IN-TRANS产品给你答案

...的公路数智管养“设备成本降低90%，识别效率提升480倍，准确率接近90%，助力河南省累计采集农路里程超过20万公里”网新道路事业部产品总监王中用一连串数字，证明了网新AI自动化巡检方案，依托多模态算法引擎，在道路病...……更多

2024-05-29 10:00:00落地,答案,智慧,交通,产品,交通

又慢又贵？OpenAI推理模型“草莓”来了，GPT-5还有多

...生行列，在物理、生物和化学问题（GPQA）基准测试中的准确率也超过了人类博士生水平。据介绍，类似于人类在回答一个难题前可能会思考很长时间，o1在尝试解决问题时也会使用一连串的思考。通过强化学习，o1可以学会磨练...……更多

2024-09-13 15:28:00多远,推理,草莓,模型,模型,思维

李飞飞空间智能之后，上交、智源、北大提出空间大模型Spati

...深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多

2024-08-08 09:39:00空间,北大,模型,智能,深度,模型

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的可靠性。以下是两个案例：- Phi-2对金融数据情绪分析准确率，从34%提高到85%。- 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说，对于较小的初始精度（<50%），微调是一个巨大的障碍，需要用几...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

用AI自动设计智能体，数学提分25.9%，远超手工设计

...分数提高了 13.6/100（与基线比），在 MGSM 的数学任务中将准确率提高了 14.4%。此外，在跨域迁移后，它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比，本文算法表现出色，这...……更多

2024-08-24 09:36:00设计,手工,数学,智能,智能,元智

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...问题，是否会导致其在行业应用面临较大的挑战？比如对准确率要求比较高的教育、医疗、金融等行业？赵东岩：是的，所以在这些关键领域，模型的对齐效果非常关键。实践中，可以通过多次校验，对齐，RAG来改善大模型的幻...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

从AI搜索到语音陪练，腾讯元宝全面评测来了！大模型C端玩家谁

...辑推理类和谜语类题目来比较腾讯元宝和GPT-4o回答问题的准确率和速度。记者观察到，尽管元宝和GPT-4o的正确率相同，正确率都是75%，但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案，使用数学公式清晰...……更多

2024-05-31 18:07:00腾讯,陪练,元宝,语音,模型,评测

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

...于 Python、C++、J等多种语言。在HumanEval基准测试中，它的准确率为53% ，接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日，Mistral联合创始人兼CEO Arthur Mensch在X上表示，引发众多猜测的“miqu-1-70b”是……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

东大发布深度推理法律垂域大模型

...现了从“知道”到“懂得”的性能飞跃，在法律要件分析准确率、法律推理可解释性等关键指标上实现全面提升。 ……更多

2025-03-19 08:25:00东大,推理,深度,模型,法律,法律

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

海信星海大模型接入DeepSeek

...景做试点应用。以数据自动化标注为例，DeepSeek R1（32B）准确率相较其他同参数模型准率提升3%，准确率达到99.67%，从过去半自动化标注全面过渡到全自动化标注，人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多

2025-02-13 16:06:00海信,星海,接入,模型,海信,模型

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列

...等，这样一来在各种具体下游任务下，实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K，可以更好的捕获远端调控信息，实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力，由此...……更多

2024-11-07 09:50:00模型,重构,生命科学,序列,生命,基础

潮声丨全国首上线的这个AI神器，如何让浙江新生儿赢在起点

...跳声，与数据库中的海量数据进行比对，“它让基层筛查准确率提升60%、复杂先心病诊断准确率提升至95.3%。”舒强说。CHANGE是怎么诞生的？CHANGE大模型并非一蹴而就，它的背后，是浙江近30年新生儿救护经验的积累，以及救护...……更多

2025-03-11 08:46:00潮声,神器,浙江,新生儿,新生,起点

对标OpenAI o1！Kimi发布新一代推理模型：中考高考

...息，日前，国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型，采用全新强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升解决数学难题的能力。据...……更多

2024-11-18 08:22:00推理,新一代,模型,高考,模型,基准

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...消失。结果还表明，随着数据集大小的增加，模型的最终准确率会提高（在模型大小之间保持一致）。同样，作者观察到架构大小增加的总体趋势是无论数据集大小如何，整体性能都会提高。通过下表 2 可以得出以下几点：动作...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

360智脑7b参数模型采用3.4万亿tokens训练

...本能力的一种方法）中，360Zhinao-7B-Chat-360K达到98%以上的准确率。360仿照SuperCLUE-200K测评基准构造了中文大海捞针测试，同样做到了98%以上的准确率。除模型权重外，该模型的微调训练代码，推理代码等全套工具集也被一并开源，...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

Scaling Law瓶颈，Cursor编程为什么这么强？新

...者，该项目负责开发用于 AI 编程的 StarCoder 系列大型语言模型。论文标题：Planning In Natural Language Improves LLM Search For Code Generation 论文地址：https://arxiv……更多

2024-09-12 09:47:00瓶颈,武器,秘密,编程,研究,模型

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力