知识,准确率,推理,蚂蚁,框架,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...AI 原生 App “支小宝” 采用这套框架，在政务问答场景的准确率提升到了 91%，医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露，KAG 框架会进一步向社区开放，并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多

2024-09-13 13:33:00知识,准确率,推理,蚂蚁,框架,模型

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

...具备获得 IMO 金牌的数学素养，但在具体场景下利用特定知识和工具完成复杂任务（例如使用搜索引擎、处理私有文档等）的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...平台。值得一提的是，蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜（81.67分）以及执行效率榜上（77分）上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。据介绍，Agentar-SQL智能体基于蚂蚁数...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

未来医院变形记：生成式AI将病历书写从8小时缩短至25分钟

...海市一医院联合蚂蚁做了九大类30+个细分意图，意图识别准确率在90%以上，上海市一医院称，接下来准确率有望提高到95%。那么，AI陪诊师的实际应用究竟如何？钛媒体App也进行了现场体验：打开支付宝，平台若定位到上海市一...……更多

2024-07-09 09:30:00变形记,病历,生成,小时,医院,医院

蚂蚁金融大模型正式发布未来金融平台业务将全线接入

...备高精度的意图理解，个性化的沟通风格：金融意图识别准确率达到95%，金融事件分析推理能力不逊于真人行业专家，能够进行多回合的高质量对话。智能业务助手“支小助”的1.0版本，则包含了“服务专家版”“投研专家版”...……更多

2023-09-08 20:34:00金融,全线,接入,蚂蚁,模型,业务

蚂蚁大模型生了“双胞胎”

...备高精度的意图理解，个性化的沟通风格，金融意图识别准确率达到95%，金融事件分析推理能力不逊于真人行业专家，能够进行多回合的高质量对话。至于支小助，是金融行业从业者的好助手，包含“服务专家版”“投研专家版...……更多

2023-09-09 08:08:00双胞,双胞胎,蚂蚁,模型,金融,小宝

蚂蚁井贤栋：通过专业智能体的深度连接，AI会像互联网一样带来

...用大模型落地严谨产业，面临着三个“能力短板”：领域知识相对缺乏、复杂决策难以胜任，以及对话交互不等于有效协同。井贤栋介绍，为了破解这些难题，蚂蚁选择了构建专业智能体生态的路径，“从我们的实践来看，专业...……更多

2024-07-04 18:07:00代际,蚂蚁,深度,升级,互联网,智能

2024WAIC热议大模型助力产业新趋势，可信应用成焦点

...型实现千亿级别参数的视觉语言识别，报告、药物等识别准确率高达 90%，中英文医疗水平测试超越 GPT-4，在 PromptCBLUE 中实现 A 榜第一，B榜第二。另外，百灵医疗可信一体机的算力支持实现国产化的训推一体，交付周期降低90%；...……更多

2024-07-10 10:26:00可信,模型,趋势,产业,焦点,应用

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-

...-Reasoner在所有测试指标上仍然略胜一筹。在因果关系分类准确率（CRA）和因果图准确率（CGA）上，TS-Reasoner分别实现了相对较高的成功率，进一步证明了其在复杂因果推理任务中的潜力。此外，本文对错误类型进行了详细分析，...……更多

2024-10-29 09:55:00推理,时间序列,序列,框架,难题,突破

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求：OmniSearch能够有效地结合图像和文本进行检索，其在需要额外视觉知识的复杂问题上的表现远超现有模型，准确率提高了35%以上。 ...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

...突破，最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月，OpenAI 发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

大模型面临四大关键缺陷，“知识方程”能否通向强人工智能

...无几。因为在进行深度推理时，即便大模型每一步的预测准确率都高达95%，但是当推理到20步时，最终的准确率将会是0.95的20次方，即不到36%，这是一个无法令人满意的结果。第三，大模型的形式语义理解能力有待提升。虽然...……更多

2023-08-23 11:03:00人工智能,方程,缺陷,人工,模型,关键

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关

...步验证成效，可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。发布会上，科大讯飞还宣布将在今年上半年正式发布基于讯飞星火X1的医疗大模型升级版，确保其深层次诊断推理效果和质控能力业界领先。02 讯飞星火4.0 ...……更多

2025-01-15 15:07:00讯飞,华为,难关,模型,训练,全国

混合架构赋予AI人类推理能力

...与没有“动作域获取”影响的情况下执行相同任务相比，准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：本次评估中设定k = 1且n = 5，c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜：与奥运会使用的...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

谷歌大模型推理范式，主要分为两个阶段

...ncy，而且准确性更高。如果想要达到和自发现步骤同样的准确率，需要的推理计算量则是其40倍。研究团队本项研究由南加州大学和谷歌DeepMind联合推出。第一作者是PeiZhou，他现在正在南加州大学的NLP小组攻读博士。两位通讯作...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

...据集之间，模型存在显著的性能波动，以及与原始 GSM8K 准确率相当的性能下降。这种差异表明，大型语言模型所采用的推理过程可能不是形式化的，因此容易受到某些变化的影响。一个可能的解释是这些模型主要专注于分布内...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相

...OpenAI于8月推出的SWE-bench Verified代码生成评估基准中，o3的准确率为71.7%，比o1高出了22.8个百分点。o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分，只缺了一道题，并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)...……更多

2024-12-21 17:02:00下一代,推理,模型,直播,模型,推理

AI 的“心智理论”难题：Meta ExploreToM 探

...测试效果GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%，凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。在 ExploreToM 数据上进行微调后，模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点，证明……更多

2024-12-21 09:27:00之路,心智,难题,突破,理论,模型

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...法在推理过程中的性能。y 轴表示 MATH500 数据集上的测试准确率，而 x 轴显示生成预算（每个问题的平均标记数），反映了每个问题的计算消耗或标记使用情况。该图表明，随着生成预算的增加，最佳 N 选择和束搜索方法的性能...……更多

2024-10-15 09:56:00框架,团队,联合,模型,过程,步骤

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...6呈现了，新论文所提出的方法，在4个案例中实现了最高准确率。总之，作者提出一个LLM提取元认知知识框架，其形式是根据解决问题所需的概念，对数学数据集中的问题进行分类的技能。目前，新框架依赖于GPT-4等高级模型的...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...ini 1.5 Pro、InternVL-1.5、LLaVA-1.6等。在UDK-VQA数据集上的回答准确率，则配备了SearchLVLMs的SOTA LVLMs超过了自带互联网检索增强的GPT-4o模型35%。开源框架SearchLVLMsSearchLVLMs框架主要由三部分组成：查询生成……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...，Omne 在最复杂、要求最高的 3 级问题上达到了 26.53% 的准确率。这证明了其通过利用强大的基础模型（尤其是具有强大推理和逻辑能力的模型）解决现实问题的潜力。未来计划该团队并不打算止步于此，他们已经制定了未来研...……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

中国电信开源星辰语义大模型，开放1t清洗数据集

...、民生诉求接待等场景，其业务覆盖率达到95%，多轮理解准确率达到90%。早在2023年11月，中国电信就在2023数字科技生态大会上发布了千亿参数“星辰语义大模型”，并公布了后续的开源开放的时间表。IT之家发现，本次TeleChat-7B...……更多

2024-01-14 09:52:00中国电信,语义,中国,星辰,清洗,模型

云鼎科技：基于DeepSeek，打造垂域矿山大模型

...山能知识助手中，经测试，安全生产知识场景中对话问答准确率达96%以上。NLP 应用智能体，打通应用落地“最后一公里”只有垂域矿山大模型还不够，真正深入核心业务环节还需要链接应用，基于这个需求，云鼎科技打造了NLP...……更多

2025-02-26 22:55:00矿山,模型,科技,模型,应用,数据

DeepSeek/o3的弱点找到了！三心二意明明对了又改错

...所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。在MATH500-Hard和GPQA Diamond数据集上，性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时，其UT得分也更高，表明错...……更多

2025-02-04 19:41:00弱点,模型,推理,答案,思路,准确率

微软华人团队发布全新基准AGIEval，专为人类考试而生

...和数学竞赛中的成绩超过了人类平均水平，SAT数学考试的准确率达到了95%，中国高考英语考试的准确率达到了92.5%，表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练，文中对模型能力(理...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...推理能力：在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理