知识,准确率,推理,蚂蚁,框架,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

对话北大赵东岩：为啥DeepSeek幻觉率这么高？用户如何避

...问题，是否会导致其在行业应用面临较大的挑战？比如对准确率要求比较高的教育、医疗、金融等行业？赵东岩：是的，所以在这些关键领域，模型的对齐效果非常关键。实践中，可以通过多次校验，对齐，RAG来改善大模型的幻...……更多

2025-03-05 15:54:00东岩,幻觉,北大,对话,用户,模型

科学家提出大模型分子交互学习框架，已在400多万分子对中验证

...次序给出分子的关键生化性质，从而提升分子交互的预测准确率。图 | 预训练阶段的提示词和预期回复的设计（来源：arXiv）期间，预训练阶段的数据来自 Drugbank 和 PubChem，它们都是包含分子-性质对的权威生化数据库。此外，为...……更多

2024-03-07 10:44:00分子,科学家,框架,模型,验证,科学

“人工智能+政务场景”，大模型应用遍地开花

...I语音客服承担超70%的市民咨询接待任务；AI文字客服问答准确率超90%；通过接入12393医保服务热线，助力浙江省医保咨询“一号受理”，打造省市县高度配合的一体化服务体系。北京市首个政务大模型服务平台“亦智”也已在经...……更多

2025-01-15 23:03:00人工智能,政务,人工,模型,场景,智能

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

海信星海大模型接入DeepSeek

...景做试点应用。以数据自动化标注为例，DeepSeek R1（32B）准确率相较其他同参数模型准率提升3%，准确率达到99.67%，从过去半自动化标注全面过渡到全自动化标注，人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多

2025-02-13 16:06:00海信,星海,接入,模型,海信,模型

蚂蚁数科能源电力时序大模型EnergyTS发布预测精度超谷

...场景测评显示，该垂类模型在行业评测集上的发电量预测准确率超越谷歌（TimesFM-V2.0）、亚马逊（Chronos-Large）等行业主流的通用时序模型。图说：蚂蚁数科EnergyTS能源电力时序大模型Benchmark评分值得注意的是，此次EnergyTS的发布...……更多

2025-03-26 22:31:00亚马,亚马逊,时序,精度,蚂蚁,模型

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...概念，提高了大语言模型（LLM，large language models）在复杂推理任务上的性能，例如算术推理、常识推理和符号推理等。图 | 金明宇（来源：金明宇）CoT 的原理是通过提供推理过程的示例，来教会模型处理推理，详细说明导致最...……更多

2024-03-15 10:41:00罗格,罗格斯,推理,模型,团队,概念

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

讯飞星火X1全面升级领跑教育、医疗、司法行业应用

...性和准确性。代码能力上，星火X1不仅提高了代码生成的准确率，对生成代码逻辑理解也进一步提升，能够应对更复杂的编程需求，思考问题的多种可能性，帮助开发者快速实现功能。在语言理解方面，模型输出内容、格式更加...……更多

2025-04-22 16:50:00讯飞,星火,行业应用,司法,升级,医疗

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...模型中，LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳，准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%，并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

文档处理效能飙升！浩鲸科技“文档大模型”核心技术揭秘！

...多路径召回的文本内容，进行重排序，进一步提升回答的准确率。其中，“界面识别模型” 强化了对用户手册中最常见软件界面的支持，主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多

2024-09-26 13:36:00文档,效能,模型,核心,处理,技术

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...绩直接惨不忍睹，表现最好的Command R（simple）只有22.47%的准确率。——要知道，这考试瞎蒙也能得25分（四选一）。当然，这也说明人家不是瞎蒙的，确实动脑子了。视觉上的长上下文另一篇研究来自UCSB，考察的是视觉大模型...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

2025年十大GEO优化公司推荐：企业AI化转型的核心引擎

...持。某教育企业通过该技术，在AI教育问答场景中的答案准确率提升70%，用户满意度提高40%。动态策略调整引擎：基于实时数据反馈和机器学习算法，能够快速调整AI优化策略，以适应不断变化的市场环境和用户行为。某零售品...……更多

2025-11-04 15:05:00核心,引擎,推荐,公司,企业,技术

阿里推出AI数据科学家，全流程自动化，科研小白也能用

...”。步骤2：规范化计算。如果指标是“越大越好”（如准确率、F1分数、AUC），NPS等于原始值；如果指标是“越小越好”（如损失值），则需要将原始值映射到接近1的较高NPS值。规范化后的性能得分范围通常是0到1，其中1表示...……更多

2024-08-08 09:40:00小白,阿里,科学家,流程,自动化,科研

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列

...等，这样一来在各种具体下游任务下，实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K，可以更好的捕获远端调控信息，实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力，由此...……更多

2024-11-07 09:50:00模型,重构,生命科学,序列,生命,基础

阿里云重磅升级全栈AI体系，一文看懂云栖大会技术发布

...、就餐区、货架商品等超过400种细粒度物体的精准识别，准确率超95%，其任务处理时间从原来的3小时优化至5分钟内。同时，阿里云Agent Infra重要组件的无影AgentBay迎来重大升级。无影AgentBay是阿里云为Agent量身打造的“超级大脑...……更多

2025-09-24 13:30:00一文,阿里,重磅,体系,大会,升级

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...中，深度研究所使用的模型在专家级问题上达到了26.6%的准确率，刷新之前的18.2%的纪录。相比之下，DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

表格增强生成TAG登场：解锁AI自然语言与数据库的完美结合

...来总结评论。实验及结果表 1 显示了每种方法的精确匹配准确率和执行时间。如表所示，在选定的 BIRD （一个数据集，用于测试 LMs 的文本到 sql 的能力）查询类型中，研究者发现手写 TAG（hand-written TAG）基线始终能达到 40% 或更...……更多

2024-09-10 13:38:00自然语言,表格,生成,自然,语言,数据库

国产chatgpt何时能出？百度站出来了最快3月评分全球第一

...爆全球，这种对话式AI人工智能凭借过人的智商、超高的准确率震撼了世人，而对国内用户来说，中国这么多研究AI技术的公司，什么时候有对标ChatGPT的产品？在这件事上，百度站出来了，最快3月份发布国产版ChatGPT。据了解，...……更多

2023-02-07 22:57:00时能,评分,国产,全球,语义,全球

百度文心大模型4.0技术进展

...确知识，最后把这些找到的知识组装进Prompt送入大模型，准确率好，效率也高；另一方面，对大模型的输出进行反思，从生成结果中拆解出知识点，然后再利用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，进而对有...……更多

2023-10-18 04:20:00文心,进展,模型,技术,模型,文心

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...验评估方面，HourVideo采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下，每个MCQ应独立评估，但这种...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

谷歌最新自然语言推理算法

...能让GPT-3的推理性能大幅提升，比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%但诸如CoT和SelectionInference等方法都是以前向（forwarddirection）的方式从公理（axioms）中搜索证明过程（proof）以推导出最终结论（c……更多

2023-01-09 21:57:00自然语言,算法,推理,自然,语言,目标

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...T-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

看病就用支付宝：支付宝推出“AI健康管家”，让AI长出“手和

...使得蚂蚁医疗大模型在医疗问答、报告解读、辅助诊疗等准确率达90%以上。经临床专家验证，证明了该大模型在实际医疗应用中的专业性和可靠性。目前，相关数据集与技术均已开源开放，其背后研发团队也在CVPR、KDD、ACL、ECCV...……更多

2024-09-09 13:37:00长出,支付,管家,健康,支付,医疗

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

... DCLM-7B具体表现如何呢？结果显示，它在MMLU基准上5-shot准确率达64%，可与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美；并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，而所需计算量仅为后者的1/6。与其他同等大..……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程