准确率,实测,模型,能力,规划,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

OpenAI o1 模型 PlanBench 规划能力实测：

...。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA 3.1 405B（准确率为 62.6%）。在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而……更多

2024-09-26 09:50:00准确率,实测,模型,能力,规划,模型

洞察者融合DeepSeek大模型，打造航天测控智能化基石

...，辅助工程师快速诊断和解决航天器故障，提高故障诊断准确率。借助DeepSeek强大的知识推理功能，星图测控在航天测控数据分析、智能定轨、任务规划、故障诊断、决策辅助等多个关键环节实现智能化升级，这不仅将提升服务...……更多

2025-02-25 14:16:00测控,基石,洞察,航天,模型,智能

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

...的推理过程。如上图中的红色实线所示，模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票（Majority Voting），模型思维链长度增加展现出了更高的效率。最惊艳的是，发布即上线：所有用户均...……更多

2024-11-22 09:50:00推理,性能,再次,重点,模型,推理

o1规划能力首测！已超越语言模型范畴，preview终于赢m

...。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前，OpenAI自己人也发了一张图，显示preview论性能比不过满血版，论经济性又不如mini，处于一个十分尴尬的地位。作者在推文中表示...……更多

2024-09-29 09:51:00范畴,模型,能力,语言,规划,模型

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

近日，OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力，将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发，直接cue Llama 3.1 405B的那种：Perplexity CEO Aravind Srinivas也开麦了：开源追赶闭源的趋势很明显，未来闭源模型只..……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...本可下降多达50%。目前，零一万物Infra能力实现故障预测准确率超过90%，故障提前发现率达到99.9%，不需要人工参与的故障自愈率超95%。零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队，建设了高效、自动、可评...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求：OmniSearch能够有效地结合图像和文本进行检索，其在需要额外视觉知识的复杂问题上的表现远超现有模型，准确率提高了35%以上。 ...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确

...AI 原生 App “支小宝” 采用这套框架，在政务问答场景的准确率提升到了 91%，医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露，KAG 框架会进一步向社区开放，并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多

2024-09-13 13:33:00知识,准确率,推理,蚂蚁,框架,模型

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...推理能力：在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

携手鼎捷老板电器以AI大模型赋能企业管理决策

...验收标准：1、无人工干预下，连续3个月全国M+1平均预测准确率达成76%，连续3个月全国M+0平均准确率达成82%；2、需求预测、补货计划、供应计划模块客户需求功能在线化，且达到正常使用条件。 “鼎捷雅典娜预测透镜”数智驱...……更多

2024-08-08 17:45:00模型,决策,老板,电器,企业管理,管理

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...消失。结果还表明，随着数据集大小的增加，模型的最终准确率会提高（在模型大小之间保持一致）。同样，作者观察到架构大小增加的总体趋势是无论数据集大小如何，整体性能都会提高。通过下表 2 可以得出以下几点：动作...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...。在 MATH 数据集上，Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra。Q * 算法论文地址：https://arxiv.org/abs/2406.14283可以看出，昆仑万维的技术已经达到了业界的领先水平，在竞争激烈的生成式 ……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

中国华电“华电智”大模型在宁发布

...度提升5%，气象与功率预测模型“秒算”未来天气，预测准确率提升5％以上，一体化调度模型使水能利用提高率从近10年均值5.8％提升至10.8%。相关成果已在乌江、北盘江流域进行试点，其中，乌江项目入选国务院国资委首批中...……更多

2025-11-05 08:18:00华电,中国,模型,华电,模型,智能

汇付天下AI应用丨LLM在投诉风险管控中的应用实践

...明确、有备选答案且可选项有限，追求可控、可解释、高准确率为目标的业务方案。开放式方案：通常应用于探索未知领域，无预设答案，无既定流程，目标也可以不用提前明确，需要进行发散思考，在反复试错、验证后最终...……更多

2025-05-14 09:45:00应用,实践,投诉,风险,天下,风险

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...推理问题。刚刚发布时，人类在HellaSwag上能达到超过95%的准确率，SOTA分数却始终难以超过48%。但这种情况并没有持续很久。各个维度的分数持续猛涨，2023年3月，GPT-4在HellaSwag上的各项得分就逼近，甚至超过了人类水平。 https://...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

中国AI专利最多的5个公司！华为第5，平安第3，腾讯第1

...些复杂的分析和千人千面的方案都是AI秒级生成的，解析准确率高达98%。AI赋能的效果已初步显现。平安家医业务中，患者对在线问诊的五星好评率达到98%，电子病历甲级率高达99.8%，用药合规准确率是100%。 NO.4 国家电网人工智...……更多

2024-07-18 09:46:00华为,腾讯,平安,中国,专利,公司

古早费曼论文手写公式也能转LaTeX，马斯克Grok功能上线

...有难度。而 Grok 可以把它们转化成如此工整的结果，而且准确率令人惊叹。图源：https://x.com/luismbat/status/1850925670408544355这个帖子吸引了众多研究人员的关注，整个帖子的浏览量已经突破 100 万。还有人晒出了自己用 Grok 识别出的...……更多

2024-10-30 09:54:00马斯,马斯克,费曼,公式,功能,论文

兴业银行首创“种植流模型”，覆盖银行贷款全生命周期

...项目面积大、位置偏远、银行网点和人员不足、人工观察准确率不高等客观情况，银行在贷前资产价值评估或者贷后定期风险监管环节存在痛点，进而导致介入力度受限。而空天数据，尤其是卫星遥感数据具有地理覆盖面广、客...……更多

2024-04-10 17:36:00银行,周期,模型,生命,数据,空天

春节流量给支付宝留下了什么？

...是能做的。”陈亮认为，当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能，不仅难以保持高准确率，而且维护困难，导致项目难以持续，大模型技术的引入给LUI提供了更多的可能。基于大模...……更多

2024-02-16 12:00:00流量,支付,五福,支付,模型,蚂蚁

实力蝉联！中能拾贝再获IDC工业大模型权威认证，持续领跑能源

...，集成海量行业语料与专业知识，显著提升专业内容理解准确率与应用可用性。拾贝缘起&拾贝聚能：?专业模型构建框架与大模型推理平台，提供数据预处理、模型训练、管理、云边协同等全生命周期管理能力。拾贝智源：?...……更多

2025-07-11 22:07:00赛道,模型,实力,能源,电力,认证

加快打造大模型产业聚集区青岛市崂山区四个AI大模型通过中央

...标优化、工业信息生成、工业问答等多个应用场景，推理准确率达到了96%以上，意图识别准确率达到85%以上，赋能企业生产流程优化与供应链智能管理，为青岛建设“世界工业互联网之都”注入核心动能。作为国家人工智能创新...……更多

2025-04-03 16:06:00崂山区,崂山,模型,青岛市,聚集区,青岛

AI大模型赋能交通：化身“数字运维专家”，融入车管电子书

...大模型技术的电子书对于库内知识的召回率达100%，回答准确率达95%，敏感词拦截率超99.9%，可以帮助群众在车管业务知识库中找到最优业务指引。该系统自2023年11月面向全体市民开放上线以来，电子书总浏览量超1千万，推出车...……更多

2024-07-17 16:36:00电子书,模型,数字,交通,专家,电子

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练