• 我的订阅
  • 头条热搜
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...AI 原生 App “支小宝” 采用这套框架,在政务问答场景的准确率提升到了 91%,医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露,KAG 框架会进一步向社区开放,并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支..……更多
未来医院变形记:生成式AI将病历书写从8小时缩短至25分钟
...海市一医院联合蚂蚁做了九大类30+个细分意图,意图识别准确率在90%以上,上海市一医院称,接下来准确率有望提高到95%。那么,AI陪诊师的实际应用究竟如何?钛媒体App也进行了现场体验:打开支付宝,平台若定位到上海市一...……更多
蚂蚁井贤栋:通过专业智能体的深度连接,AI会像互联网一样带来服务的代际升级
...用大模型落地严谨产业,面临着三个“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。井贤栋介绍,为了破解这些难题,蚂蚁选择了构建专业智能体生态的路径,“从我们的实践来看,专业...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...-Reasoner在所有测试指标上仍然略胜一筹。在因果关系分类准确率(CRA)和因果图准确率(CGA)上,TS-Reasoner分别实现了相对较高的成功率,进一步证明了其在复杂因果推理任务中的潜力。此外,本文对错误类型进行了详细分析,...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...型实现千亿级别参数的视觉语言识别,报告、药物等识别准确率高达 90%,中英文医疗水平测试超越 GPT-4,在 PromptCBLUE 中实现 A 榜第一,B榜第二。另外,百灵医疗可信一体机的算力支持实现国产化的训推一体,交付周期降低90%;...……更多
...与没有“动作域获取”影响的情况下执行相同任务相比,准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下: 本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜:与奥运会使用的...……更多
谷歌大模型推理范式,主要分为两个阶段
...ncy,而且准确性更高。如果想要达到和自发现步骤同样的准确率,需要的推理计算量则是其40倍。研究团队本项研究由南加州大学和谷歌DeepMind联合推出。第一作者是PeiZhou,他现在正在南加州大学的NLP小组攻读博士。两位通讯作...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...据集之间,模型存在显著的性能波动,以及与原始 GSM8K 准确率相当的性能下降。这种差异表明,大型语言模型所采用的推理过程可能不是形式化的,因此容易受到某些变化的影响。一个可能的解释是这些模型主要专注于分布内...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...6呈现了,新论文所提出的方法,在4个案例中实现了最高准确率。总之,作者提出一个LLM提取元认知知识框架,其形式是根据解决问题所需的概念,对数学数据集中的问题进行分类的技能。目前,新框架依赖于GPT-4等高级模型的...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...法在推理过程中的性能。y 轴表示 MATH500 数据集上的测试准确率,而 x 轴显示生成预算(每个问题的平均标记数),反映了每个问题的计算消耗或标记使用情况。该图表明,随着生成预算的增加,最佳 N 选择和束搜索方法的性能...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...ini 1.5 Pro、InternVL-1.5、LLaVA-1.6等。在UDK-VQA数据集上的回答准确率,则配备了SearchLVLMs的SOTA LVLMs超过了自带互联网检索增强的GPT-4o模型35%。开源框架SearchLVLMsSearchLVLMs框架主要由三部分组成:查询生成……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...,Omne 在最复杂、要求最高的 3 级问题上达到了 26.53% 的准确率。这证明了其通过利用强大的基础模型(尤其是具有强大推理和逻辑能力的模型)解决现实问题的潜力。未来计划该团队并不打算止步于此,他们已经制定了未来研...……更多
...、民生诉求接待等场景,其业务覆盖率达到95%,多轮理解准确率达到90%。早在2023年11月,中国电信就在2023数字科技生态大会上发布了千亿参数“星辰语义大模型”,并公布了后续的开源开放的时间表。IT之家发现,本次TeleChat-7B...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
...文档知识库检索方法,提高了专业模型在下游任务的推理准确率,得到了评委老师的认可。我们有种‘初生牛犊不怕虎’的心态,学校也特别注重培养学生的创新精神、创新能力,日常在社团我们也有很多真实项目做演练,这些...……更多
超越YOLOv10/11、RT-DETRv2/3!D-FINE重新定义边界框回归任务
...%)。在 Objects365 上进行了简单的有监督预训练后,D-FINE 的准确率达到了 59.3% AP。在 paperwithcode 网站的 Real-Time Object Detection on MS COCO benchmark 上,D-FINE 的速度和性能都远超其他方法……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...架NCNN的改造,打造了一款具备低延迟、低资源消耗和高准确率、高安全性的的移动端轻量级语音识别方案。它适配不同口音、语速和环境噪声,可应用在语音直播、多人聊天等场景。例如,多人聊天场景中,我们帮助客户开发...……更多
科学家提出大模型分子交互学习框架,已在400多万分子对中验证
...次序给出分子的关键生化性质,从而提升分子交互的预测准确率。图 | 预训练阶段的提示词和预期回复的设计(来源:arXiv)期间,预训练阶段的数据来自 Drugbank 和 PubChem,它们都是包含分子-性质对的权威生化数据库。此外,为...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...多路径召回的文本内容,进行重排序,进一步提升回答的准确率。 其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)。 当然,这也说明人家不是瞎蒙的,确实动脑子了。视觉上的长上下文另一篇研究来自UCSB,考察的是视觉大模型...……更多
阿里推出AI数据科学家,全流程自动化,科研小白也能用
...”。步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。规范化后的性能得分范围通常是0到1,其中1表示...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...等,这样一来在各种具体下游任务下,实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力,由此...……更多
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
...来总结评论。实验及结果表 1 显示了每种方法的精确匹配准确率和执行时间。如表所示,在选定的 BIRD (一个数据集,用于测试 LMs 的文本到 sql 的能力)查询类型中,研究者发现手写 TAG(hand-written TAG)基线始终能达到 40% 或更...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...T-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多
更多关于科技的资讯:
“实地”感受月球!嫦娥五号月球样品今日向公众开放
快科技12月28日消息,2020年12月,嫦娥五号成功从月球带回月壤样品,我国成为世界上第三个成功带回月球样品的国家,实现了我国及人类探月史上里程碑式的跨越
2024-12-28 09:39:00
奉节脐橙的流量范本③ | 下一个“100万单”在哪里?
2024年12月18日,知名头部主播董宇辉通过“与辉同行”奉节脐橙溯源专场直播,用短短2小时“爆卖”奉节脐橙60万单、约300万斤
2024-12-28 09:45:00
完胜百万保时捷卡宴:极氪7X成功登顶“中国最具挑战大雪道”
快科技12月28日消息,电动化的迅猛发展,带来了真正意义上的科技平权,让20多万的车也能获得超越百万级的享受。近日,极氪使用一台7X成功登顶了“中国最具挑战雪道”——新疆天山艾文大道
2024-12-28 10:09:00
男子22万买车投保29万故意开进湖里 终被诈骗罪调查:网友直呼行为愚蠢
快科技12月28日消息,据国内媒体报道称,近日一男子将自己22万买的车故意开进湖里引发围观,这到底是什么神操作?报道中提到
2024-12-28 10:09:00
北京玉渊潭公园生态巡护机器人上岗
本文转自:人民网2024年12月27日,在北京海淀区的玉渊潭公园内,一台生态巡护机器人正在执行生态监测任务。据悉,自今年4月以来
2024-12-28 10:29:00
小米汽车正式亮相一周年:交付量破13万 提前完成全年目标
快科技12月28日消息,去年的今天,小米SU7正式亮相。如今一周年过去,小米汽车官宣:SU7全年交付量已超13万,提前完成全年所有目标
2024-12-28 10:39:00
本文转自:人民网人民网记者 杨曦提到自动化的工厂,也许你脑中会浮现这样的场景:无人叉车在立体仓库中穿梭自如、机械手臂在流水线旁上下挥舞
2024-12-28 10:40:00
沐光前行丨深圳科华荣获2024年度充电行业质量金奖!
在政策和市场的双轮驱动下,2024年我国新能源汽车年度产量首次突破1000万大关。与此同时,第四季度末我国充电基础设施累计数量也达到了1200+万台
2024-12-28 10:45:00
掌动智能入选广州市产教评技能生态区“样板工程”建设项目单位
近期,广州市人力资源和社会保障局发布了《关于广州市产教评技能生态区“样板工程”建设项目单位的公示》的公告。广州掌动智能科技有限公司(以下简称“掌动智能”)与广州小鹏汽车科技有限公司
2024-12-28 10:45:00
智界R7车主调研报告出炉:“华为”成金字招牌
快科技12月28日消息,由华为和奇瑞共同打造的智界品牌第二款车型R7已经上市,该车销量非常相当好,当前已经交付超过2万辆
2024-12-28 11:09:00
我国自研600公斤推力级涡扇发动机成功点火:助力1.5-4吨级高端无人机
快科技12月28日消息,据国内媒体报道称,中国航发自主研制的600公斤推力级高端涡扇发动机在天府轻动成功点火。报道中提到
2024-12-28 11:09:00
怕冷的人VS抗冻的人:哪个更健康
随着气温逐渐下降,有人裹着厚厚的羽绒服仍旧冷得发抖,有人却穿着单衣在寒风中悠然自得。这不禁让人好奇:为什么有人这么抗冻
2024-12-28 12:09:00
让人失望!松下、川崎重工40多年就开始造假 就是故意篡改测试数据
快科技12月28日消息,日本不少老牌企业公然造假,让日本制造彻底颜面扫地。据国外媒体报道称,日本知名企业松下公司表示,其部分商用空调产品有关空调性能的数据造假
2024-12-28 12:09:00
第九次荣获“五星钻石奖”!为什么是青岛银行?
齐鲁晚报·齐鲁壹点 王会广2024年12月18日,本年度全球服务领域最高荣誉——第十八届“五星钻石奖”(Five Star Diamond Brand)在香港举行的“世界经理人峰会”上揭晓
2024-12-28 12:11:00
吉林大学胡封晔团队:十年科研磨一剑,智感技术铸辉煌
在当今科技飞速发展的时代,智能感知与交互技术成为众多领域实现突破的关键所在。吉林大学胡封晔教授带领的科研团队,凭借其在“智能感知与交互系统关键技术及应用”成果上的卓越成就
2024-12-28 12:13:00