• 我的订阅
  • 头条热搜
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...具备获得 IMO 金牌的数学素养,但在具体场景下利用特定知识和工具完成复杂任务(例如使用搜索引擎、处理私有文档等)的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论...……更多
未来医院变形记:生成式AI将病历书写从8小时缩短至25分钟
...海市一医院联合蚂蚁做了九大类30+个细分意图,意图识别准确率在90%以上,上海市一医院称,接下来准确率有望提高到95%。那么,AI陪诊师的实际应用究竟如何?钛媒体App也进行了现场体验:打开支付宝,平台若定位到上海市一...……更多
蚂蚁井贤栋:通过专业智能体的深度连接,AI会像互联网一样带来服务的代际升级
...用大模型落地严谨产业,面临着三个“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。井贤栋介绍,为了破解这些难题,蚂蚁选择了构建专业智能体生态的路径,“从我们的实践来看,专业...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...-Reasoner在所有测试指标上仍然略胜一筹。在因果关系分类准确率(CRA)和因果图准确率(CGA)上,TS-Reasoner分别实现了相对较高的成功率,进一步证明了其在复杂因果推理任务中的潜力。此外,本文对错误类型进行了详细分析,...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。 ...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...突破,最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月,OpenAI 发布o1的预览版o1 preview时称,o1是第一个具备真正通用推理能力的大模型,它的核心能力推理...……更多
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...步验证成效,可使得专科辅助诊断和复杂病历内涵质控的准确率均达90%。发布会上,科大讯飞还宣布将在今年上半年正式发布基于讯飞星火X1的医疗大模型升级版,确保其深层次诊断推理效果和质控能力业界领先。02 讯飞星火4.0 ...……更多
...与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下: 本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜:与奥运会使用的...……更多
谷歌大模型推理范式,主要分为两个阶段
...ncy,而且准确性更高。如果想要达到和自发现步骤同样的准确率,需要的推理计算量则是其40倍。研究团队本项研究由南加州大学和谷歌DeepMind联合推出。第一作者是PeiZhou,他现在正在南加州大学的NLP小组攻读博士。两位通讯作...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...据集之间,模型存在显著的性能波动,以及与原始 GSM8K 准确率相当的性能下降。这种差异表明,大型语言模型所采用的推理过程可能不是形式化的,因此容易受到某些变化的影响。一个可能的解释是这些模型主要专注于分布内...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分,只缺了一道题,并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)...……更多
AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
...测试效果GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%,凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。在 ExploreToM 数据上进行微调后,模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点,证明……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...法在推理过程中的性能。y 轴表示 MATH500 数据集上的测试准确率,而 x 轴显示生成预算(每个问题的平均标记数),反映了每个问题的计算消耗或标记使用情况。该图表明,随着生成预算的增加,最佳 N 选择和束搜索方法的性能...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...6呈现了,新论文所提出的方法,在4个案例中实现了最高准确率。总之,作者提出一个LLM提取元认知知识框架,其形式是根据解决问题所需的概念,对数学数据集中的问题进行分类的技能。目前,新框架依赖于GPT-4等高级模型的...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...ini 1.5 Pro、InternVL-1.5、LLaVA-1.6等。在UDK-VQA数据集上的回答准确率,则配备了SearchLVLMs的SOTA LVLMs超过了自带互联网检索增强的GPT-4o模型35%。开源框架SearchLVLMsSearchLVLMs框架主要由三部分组成:查询生成……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...,Omne 在最复杂、要求最高的 3 级问题上达到了 26.53% 的准确率。这证明了其通过利用强大的基础模型(尤其是具有强大推理和逻辑能力的模型)解决现实问题的潜力。未来计划该团队并不打算止步于此,他们已经制定了未来研...……更多
...、民生诉求接待等场景,其业务覆盖率达到95%,多轮理解准确率达到90%。早在2023年11月,中国电信就在2023数字科技生态大会上发布了千亿参数“星辰语义大模型”,并公布了后续的开源开放的时间表。IT之家发现,本次TeleChat-7B...……更多
云鼎科技:基于DeepSeek,打造垂域矿山大模型
...山能知识助手中,经测试,安全生产知识场景中对话问答准确率达96%以上。NLP 应用智能体,打通应用落地“最后一公里”只有垂域矿山大模型还不够,真正深入核心业务环节还需要链接应用,基于这个需求,云鼎科技打造了NLP...……更多
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
...所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。在MATH500-Hard和GPQA Diamond数据集上,性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时,其UT得分也更高,表明错...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
汇付天下AI应用丨LLM在投诉风险管控中的应用实践
...明确、有备选答案且可选项有限,追求可控、可解释、高准确率为目标的业务方案。 开放式方案:通常应用于探索未知领域,无预设答案,无既定流程,目标也可以不用提前明确,需要进行发散思考,在反复试错、验证后最终...……更多
开年“王炸”!智能体再升级,科大讯飞打造办公新范式
...时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。帮助企业及其员工在每一次交流中,都能快速挖掘到宝贵的信息价值。 星火投标 专业...……更多
...文档知识库检索方法,提高了专业模型在下游任务的推理准确率,得到了评委老师的认可。我们有种‘初生牛犊不怕虎’的心态,学校也特别注重培养学生的创新精神、创新能力,日常在社团我们也有很多真实项目做演练,这些...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发...……更多
超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务
...%)。在 Objects365 上进行了简单的有监督预训练后,D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和性能都远超其他方法……更多
...现了从“知道”到“懂得”的性能飞跃,在法律要件分析准确率、法律推理可解释性等关键指标上实现全面提升。 ……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...问题,是否会导致其在行业应用面临较大的挑战?比如对准确率要求比较高的教育、医疗、金融等行业?赵东岩:是的,所以在这些关键领域,模型的对齐效果非常关键。实践中,可以通过多次校验,对齐,RAG来改善大模型的幻...……更多
更多关于科技的资讯:
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00
从线上学习到山水修行:简知文旅×简橙教育共同打造银发文旅的深度与温度
近日,长江三峡见证了一场别开生面的银发游学盛事。"三峡简橙号·年度盛典"游学项目在历时七天的精彩行程后圆满落下帷幕。该项目由简知科技旗下两大知名品牌"简知文旅"与"简橙教育"联合策划执行
2025-09-30 08:17:00
聊城智汇 链接全球丨锚定国际市场,力得汽车科技加速布局海外
齐鲁晚报·齐鲁壹点 国晓宁 崔宇晴走进山东力得汽车科技股份有限公司的生产车间,机器轰鸣声不绝于耳,一条条先进的生产线正有序运转
2025-09-30 09:20:00
国庆黄金周变身“家电焕新周”,三联家电门店人气爆棚
随着国庆与中秋双节同庆的长假来临,消费市场迎来了一年之中最炙手可热的“黄金销售季”。与以往不同的是,这个假期在旅游、探亲等传统主题之外
2025-09-30 09:22:00
壹点观察 | 蔚来城商业广场十一开业,德州商业格局再迎新变化
在商业竞争日益激烈的今天,一座全新的商业综合体——蔚来城商业广场,即将于十一正式开门迎客。它的到来,为德州商业市场增添了新的变化
2025-09-30 09:24:00
鲁网9月29日讯(记者 杨勇)秋分时节,聊城市莘县升鑫金属制品有限公司的生产车间内,员工工作紧张有序,各种机器设备高效运转
2025-09-30 10:04:00
Aritco与Dezeen联合举办设计论坛 共探\
苏州2024年9月16日 -- 近日,瑞典家用电梯品牌Aritco瑞特科与全球知名设计媒体Dezeen设志在苏州联合举办了一场主题为"摒弃风格
2025-09-30 10:18:00
小微企业在传统银行承兑汇票(简称“银承”)业务办理中常常面临诸多难题。企业需要多次往返银行网点,提交大量纸质材料,流程烦琐
2025-09-30 10:45:00
中国数据研究中心:中之杰荣膺月饼行业智造先锋奖榜首
9月28日,中国数据研究中心正式发布《2025中国月饼行业白皮书》及“2025中国月饼行业智造先锋奖”十强品牌榜单,吉林中之杰食品科技发展有限公司凭借其位于长春的智能新厂
2025-09-30 11:15:00
鲁网9月30日讯近日,省科技厅公布了2025年度科技型中小企业创新能力提升工程(先投后股类)项目名单,全市共4家企业入选
2025-09-30 11:16:00
浪潮海晏荣获2025年“数据要素×”大赛山东分赛决赛三等奖
近日,由国家数据局、山东省人民政府联合指导,山东省大数据局等21家单位联合主办的2025年“数据要素×”大赛山东分赛决赛获奖名单正式公布
2025-09-30 11:21:00
据人民日报报道,近期国家网信办指导多地网信部门,对微博、快手、小红书、今日头条等多家平台进行约谈,责令限期整改热搜热榜存在的问题
2025-09-30 12:33:00
朱琳:品牌要让Z世代体验“设计师”般的快感
齐鲁晚报·齐鲁壹点 记者 牟静萍 实习生 葛同同 当下,Z世代正在以其独特的消费观念、多元的兴趣取向和对精神体验的重视
2025-09-30 12:46:00
大皖新闻讯 算力作为数字经济时代的核心生产力,已成为城市竞争的关键赛道。“十四五”期间,芜湖紧抓“东数西算”国家战略机遇
2025-09-30 13:57:00