准确率,实测,模型,能力,规划,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

OpenAI o1 模型 PlanBench 规划能力实测：

...。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA 3.1 405B（准确率为 62.6%）。在更具挑战性的“Mystery Blocksworld”加密版本中，传统模型几乎全部失败，而……更多

2024-09-26 09:50:00准确率,实测,模型,能力,规划,模型

洞察者融合DeepSeek大模型，打造航天测控智能化基石

...，辅助工程师快速诊断和解决航天器故障，提高故障诊断准确率。借助DeepSeek强大的知识推理功能，星图测控在航天测控数据分析、智能定轨、任务规划、故障诊断、决策辅助等多个关键环节实现智能化升级，这不仅将提升服务...……更多

2025-02-25 14:16:00测控,基石,洞察,航天,模型,智能

"AI家教"上线？搜狐科技实测好未来MathGPT：小学数学

...四题MathGPT均能够准确将公式与数学符号转化为文字。在准确率上，四题答案均正确，并且解题过程完整，包含了分析题干、详解题目，也提炼出了题目所考核的知识点，但其中两题的分析过程语言出现了英文。但在解方程时，...……更多

2023-08-28 15:17:00实测,搜狐,家教,数学,小学,考试

国内第一款AI搜索来了！首发实测：0广告、自动总结成文

...ievalAugmentedGeneration），用外部数据提高大模型回答问题的准确率、减少幻觉。比直接用提示词提供上下文支持的数据量更多、质量更高，又比重新训练或微调大模型的成本低。△来自fiddler.ai 一个经典用法是接入企业本地数据作...……更多

2023-08-25 10:42:00实测,广告,搜索,搜索,模型,天工

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

...的推理过程。如上图中的红色实线所示，模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票（Majority Voting），模型思维链长度增加展现出了更高的效率。最惊艳的是，发布即上线：所有用户均...……更多

2024-11-22 09:50:00推理,性能,再次,重点,模型,推理

o1规划能力首测！已超越语言模型范畴，preview终于赢m

...。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前，OpenAI自己人也发了一张图，显示preview论性能比不过满血版，论经济性又不如mini，处于一个十分尴尬的地位。作者在推文中表示...……更多

2024-09-29 09:51:00范畴,模型,能力,语言,规划,模型

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

近日，OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力，将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发，直接cue Llama 3.1 405B的那种：Perplexity CEO Aravind Srinivas也开麦了：开源追赶闭源的趋势很明显，未来闭源模型只..……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

武汉基础设施数据“一图可查”

...的全过程。经过4次强降雨的实测对比，数据模型的推演准确率在75%以上，能为城市防洪防内涝安全提供有效指导。武汉还采用数字孪生的理念，全过程串联规划设计、审批管理、建设实施和城市运营等各阶段。汉口滨江国际商...……更多

2023-08-19 00:57:00武汉,基础设施,设施,基础,数据,城市

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

零一万物大模型Yi-34B夺得全球开源评测“双料冠军”，已在

...本可下降多达50%。目前，零一万物Infra能力实现故障预测准确率超过90%，故障提前发现率达到99.9%，不需要人工参与的故障自愈率超95%。零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队，建设了高效、自动、可评...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求：OmniSearch能够有效地结合图像和文本进行检索，其在需要额外视觉知识的复杂问题上的表现远超现有模型，准确率提高了35%以上。 ...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

文心一言发布百度市值蒸发200亿，外界称缺乏亮点，应用前景难

...出来高时效的信息和内容，从而大幅度提升事实性问题的准确率。此外，李彦宏表示文心一言能够连续三次内容创作生成，这是基于庞大数据规模而发生的“智能涌现”。据介绍，文心一言大模型的训练数据包括万亿级网页数据...……更多

2023-03-17 10:00:00文心,市值,蒸发,外界,前景,亮点

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确

...AI 原生 App “支小宝” 采用这套框架，在政务问答场景的准确率提升到了 91%，医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露，KAG 框架会进一步向社区开放，并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多

2024-09-13 13:33:00知识,准确率,推理,蚂蚁,框架,模型

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...推理能力：在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

携手鼎捷老板电器以AI大模型赋能企业管理决策

...验收标准：1、无人工干预下，连续3个月全国M+1平均预测准确率达成76%，连续3个月全国M+0平均准确率达成82%；2、需求预测、补货计划、供应计划模块客户需求功能在线化，且达到正常使用条件。 “鼎捷雅典娜预测透镜”数智驱...……更多

2024-08-08 17:45:00模型,决策,老板,电器,企业管理,管理

蚂蚁大模型生了“双胞胎”

...备高精度的意图理解，个性化的沟通风格，金融意图识别准确率达到95%，金融事件分析推理能力不逊于真人行业专家，能够进行多回合的高质量对话。至于支小助，是金融行业从业者的好助手，包含“服务专家版”“投研专家版...……更多

2023-09-09 08:08:00双胞,双胞胎,蚂蚁,模型,金融,小宝

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...消失。结果还表明，随着数据集大小的增加，模型的最终准确率会提高（在模型大小之间保持一致）。同样，作者观察到架构大小增加的总体趋势是无论数据集大小如何，整体性能都会提高。通过下表 2 可以得出以下几点：动作...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...。在 MATH 数据集上，Q * 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率，超越了 Gemini Ultra。Q * 算法论文地址：https://arxiv.org/abs/2406.14283可以看出，昆仑万维的技术已经达到了业界的领先水平，在竞争激烈的生成式 ……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

CVPR最佳论文：大模型成就端到端自动驾驶｜焦点分析

...是预测和规划效果远超之前最好方案。其中，多目标跟踪准确率超越SOTA 20%，车道线预测准确率提升30%，预测运动位移和规划的误差则分别降低了38%和28%。在晴天直行场景中，UniAD 可以感知左前方等待的黑色车辆，预测其未来轨...……更多

2023-06-25 08:52:00模型,驾驶,成就,焦点,分析,论文

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

...据集ImageNet上，该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外，唯一准确率超过90.0%的模型，值得一提的是，谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确...……更多

2023-03-15 13:30:00商汤,模态,书生,模型,任务,社区

汇付天下AI应用丨LLM在投诉风险管控中的应用实践

...明确、有备选答案且可选项有限，追求可控、可解释、高准确率为目标的业务方案。开放式方案：通常应用于探索未知领域，无预设答案，无既定流程，目标也可以不用提前明确，需要进行发散思考，在反复试错、验证后最终...……更多

2025-05-14 09:45:00应用,实践,投诉,风险,天下,风险

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...推理问题。刚刚发布时，人类在HellaSwag上能达到超过95%的准确率，SOTA分数却始终难以超过48%。但这种情况并没有持续很久。各个维度的分数持续猛涨，2023年3月，GPT-4在HellaSwag上的各项得分就逼近，甚至超过了人类水平。 https://...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

效率提升数十倍！保险业逐浪大模型，新一轮“装备竞赛”开启？

...全线上销售机器人”项目中完成应用探索，信息抽取任务准确率提升15%，意图识别和智能问答准确率均有明显提升。除了险企，AI大模型浪潮下亦有外部科技公司加快在保险领域的大模型布局。蚂蚁的大模型产品近日露出真容，...……更多

2023-09-11 20:56:00一轮,保险业,竞赛,模型,效率,模型

新华网举行“生成式人工智能内容安全与模型安全检测平台”(AI

...流音频合成算法。AIGC-Safe平台内容安全功能检测速度快、准确率高、易于部署，有效降低产业安全技术投入成本，提高安全保护效率，可广泛应用于虚假新闻、AI换脸诈骗、活体攻击、版权内容保护和学术诚信等多种检测场景，...……更多

2023-07-12 17:43:00安全,安全检测,新华网,新华,人工智能,发布会

中国AI专利最多的5个公司！华为第5，平安第3，腾讯第1

...些复杂的分析和千人千面的方案都是AI秒级生成的，解析准确率高达98%。AI赋能的效果已初步显现。平安家医业务中，患者对在线问诊的五星好评率达到98%，电子病历甲级率高达99.8%，用药合规准确率是100%。 NO.4 国家电网人工智...……更多

2024-07-18 09:46:00华为,腾讯,平安,中国,专利,公司

古早费曼论文手写公式也能转LaTeX，马斯克Grok功能上线

...有难度。而 Grok 可以把它们转化成如此工整的结果，而且准确率令人惊叹。图源：https://x.com/luismbat/status/1850925670408544355这个帖子吸引了众多研究人员的关注，整个帖子的浏览量已经突破 100 万。还有人晒出了自己用 Grok 识别出的...……更多

2024-10-30 09:54:00马斯,马斯克,费曼,公式,功能,论文

兴业银行首创“种植流模型”，覆盖银行贷款全生命周期

...项目面积大、位置偏远、银行网点和人员不足、人工观察准确率不高等客观情况，银行在贷前资产价值评估或者贷后定期风险监管环节存在痛点，进而导致介入力度受限。而空天数据，尤其是卫星遥感数据具有地理覆盖面广、客...……更多

2024-04-10 17:36:00银行,周期,模型,生命,数据,空天