• 我的订阅
  • 头条热搜
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都...……更多
... Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生物分子相互作用的结构,其准确率比之前的专用工具显著提升。AlphaFold3能预测含有蛋白质数据银行(Protein Data Bank)内几乎所有分子类型的复合物...……更多
...科研人员一遍又一遍地认识到大模型的能量。从分析结果准确率低、需人工二次确认到分析准确率提高至95%,从每月分析600余篇到每周3000+篇医药相关信息文档,在海若大模型的加持下,齐鲁制药实现了效率和质量的双重飞跃...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...ini 1.5 Pro、InternVL-1.5、LLaVA-1.6等。在UDK-VQA数据集上的回答准确率,则配备了SearchLVLMs的SOTA LVLMs超过了自带互联网检索增强的GPT-4o模型35%。开源框架SearchLVLMsSearchLVLMs框架主要由三部分组成:查询生成……更多
...的缺陷隐患样本极少,传统小模型难以识别;且平均识别准确率低于80%,无法做到智能辅助、精确分析。南方电网广西电网公司机巡与不停电作业中心有关负责人介绍,以往依靠小模型对线路巡检图像查缺,可能会把铁塔上的树...……更多
...内部、外部和前瞻性数据集中,测试了该模型,结果显示准确率达98%。团队还进行了一项前瞻交叉试验,以进一步评估AI模型的性能和辅助能力。结果显示,该模型的准确率相较于专家内镜医师、资深内镜医师与新手内镜医师均...……更多
为AI加速而生 英特尔第五代至强CPU带来AI新表现
...用,也被第四代至强® 可扩展处理器赋予了新的“灵魂”,准确率飙升、响应延迟更低。同样,就在不久之前,借助第四代至强®️ 可扩展处理器在NLP上的优化,专攻医疗行业的大语言模型也成功以较低成本在医疗机构部署落地。在AI...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下: 本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜:与奥运会使用的...……更多
京东2024年四季度收入增长13.4%,产业场景成为AI应用沃土
...经营问题、执行快捷操作,利用多智能体协同技术,决策准确率超过90%。在医疗健康场景,2025年以来,依托“京医千询”医疗大模型技术底座,京东健康发布了基于线上全域场景的大模型全系产品“AI京医”,以及业内第一个面...……更多
机器学习助力预测全球变暖趋势:30秒完成22天大气模拟
...依次向前推进系统。图片来自谷歌研究NeuralGCM的气候模拟准确率与最好的机器学习和物理方法相当。该模型对1-15天预报的准确率能媲美欧洲中期天气预报中心(ECMWF,最好的传统物理天气模型之一)的预测结果。对于最多提前10...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型,小竹财税AI将不断提升其逻辑推理和上下文理解能力,以更好地满足用户的需求,努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多
云鼎科技:基于DeepSeek,打造垂域矿山大模型
...山能知识助手中,经测试,安全生产知识场景中对话问答准确率达96%以上。NLP 应用智能体,打通应用落地“最后一公里”只有垂域矿山大模型还不够,真正深入核心业务环节还需要链接应用,基于这个需求,云鼎科技打造了NLP...……更多
酷开超级智能体获国内首张AI硬件智能体应用成熟度证书
...障内容检索效率与速度。在用户交互感知层面,情感识别准确率达95%,并能动态调整交互策略;情景记忆实现“永久存储+关键信息零丢失”,复杂场景下仍保持高准确率;执行能力覆盖多模态操作,任务成功率与响应速度均达...……更多
...性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的多种可能性,帮助开发者快速实现功能。在语言理解方面,模型输出内容、格式更加...……更多
...政审计、投资审计等专项分析子系统,实现审计疑点识别准确率提升40%以上。场景创新激发应用活力。建立“场景实验室”工作机制,各业务科室结合经济责任审计、专项资金审计等不同监督场景开展沙盘推演。重点探索私有化...……更多
“奇点”临近,产业应用与人工智能怎样“共同进化”
...、机动车、非机动车等复杂道路环境时,会出现交互识别准确率下降等问题。”省智能网联汽车产业创新联盟理事长、江苏智行未来汽车研究院院长华国栋举例说,比如,如何将10米以内的目标障碍物识别误差控制在5厘米以内,...……更多
​海信重磅发布“云信·通途交通大模型”: 以AI之力,解锁智能交通无限可能
...报数据,系统通过“大小模型协同+RAG检索”技术,实现准确率超98%的舆情精准定位,并能够超前预警潜在舆情风险;在自动化指挥调度环节,系统基于众多城市交通保障经验与专家经验,融合实时路况与三级预测体系,能够实...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
...GPT-4o和Gemini-1.5-pro表现最佳,分别达到了56.1%和55.2%的平均准确率。在所有细分领域中,GPT-4o在摩擦和加速度方面表现优越。相比之下,Gemini-1.5-pro在理解与重力、弹性、反射、吸收与透射、颜色和刚性相关的物理常识方面表现更...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种...……更多
常见电子邮件分类算法的性能分析
...贝叶斯算法学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图1可看出,随着训练量(Train examp...……更多
浙里有AI,电信服务更有爱
...,提升工单处理效率,并搭建自学习训练流程,稳步提升准确率,工单结案时长也由原来的4-5分钟压缩至1-2分钟。话后—智能分析短板,提升服务能效面向后台支撑人员,如质检人员,为快速提升质检效率与质量,上线了服务质...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...T-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多
【数字教育绘荆楚】全球首套!武科大破解焦炉砌筑“卡脖子”难题
...度学习算法与高精度传感技术,实现耐火砖98%以上的识别准确率与±1mm的砌筑精度。其“一键砌筑”远程操控功能,更将工业物联网与数字孪生技术深度结合,让复杂工艺全流程智能化控制成为现实。 从虚拟建模到实体操作依...……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...点。实验结果显示,耦合方法使模型性能大幅提升,理解准确率提高 19.48%,生成准确率提高 26.07%,且数据效率更高。在语言方面,耦合系统的有效词汇增加,与人类语言更相似,词汇漂移减少。 杰出论文再来看看杰出论文的...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 C...……更多
首个职教行业大模型发布,粉笔AI老师助力高效学习
...过不断的数据标注和算法优化,目前粉笔大模型意图识别准确率可以达到 98% 以上,可以显著改善幻觉问题。「基于粉笔独有的数据、教研的长期积累和对于用户的深度洞察,我们得出判断,垂域模型一定可以在公考领域实现比...……更多
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
...所有测试的类o1模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。在MATH500-Hard和GPQA Diamond数据集上,性能更优的DeepSeek-R1-671B模型在取得更高准确率的同时,其UT得分也更高,表明错...……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...问题,是否会导致其在行业应用面临较大的挑战?比如对准确率要求比较高的教育、医疗、金融等行业?赵东岩:是的,所以在这些关键领域,模型的对齐效果非常关键。实践中,可以通过多次校验,对齐,RAG来改善大模型的幻...……更多
...污染成因分析等场景,其24小时空气质量指数(AQI)预报准确率高达94.4%,较传统方法准确率提升超30%,PM2.5与臭氧预报准确率分别达86.3%、79.2%,预报准确率稳居同类监测系统前列。如何大幅提升环境空气预报的精度与准度,系...……更多
更多关于科技的资讯:
巨头入局,珠海面向全球打造中国RISC-V生态之城
日前,一则重磅消息惊动全球半导体产业圈。当地时间12月10日晚,全球半导体巨头高通公司宣布完成对 Ventana Micro Systems的收购
2025-12-14 15:35:00
近日,上城区发布第四批“人工智能+”机会场景清单,25个场景聚焦产业升级、金融服务、智慧教育、智能医疗等重点领域。据悉
2025-12-13 08:06:00
“甩一甩”就能测温的水银体温计,即将在2026年1月1日全面禁产的政策下退出历史舞台。这则消息引发的全网热议,恰是怀旧情感与环保理性
2025-12-13 08:16:00
厦门网讯(厦门日报记者 应洁)昨日,“新质设计——红点产品设计大奖·中国获奖作品精选展”在红点厦门设计博物馆开展,来自70多家中国企业的百余件“红点奖”获奖作品呈现出国际一流设计的“中国力量”
2025-12-13 08:39:00
第六届中国人工智能大赛配套论坛在厦成功举办
厦门网讯(厦门日报记者 翁华鸿 通讯员 张晶晶 王艳红)12日,第六届中国人工智能大赛配套论坛在厦门成功举办。论坛以“融新汇智
2025-12-13 08:39:00
中新经纬12月13日电 据“网信中国”微信号13日消息,2025年12月2日,中央网信办提出并归口的《数据安全技术 电子产品信息清除技术要求》强制性国家标准由国家市场监督管理总局
2025-12-13 10:42:00
中国科大利用磁力系统实现宽带磁声混合频率梳
大皖新闻讯 12月13日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在磁力系统研究中取得新进展。该团队董春华教授研究组通过磁振子与高频声子相互作用
2025-12-13 14:35:00
京东宠物百千万爆品计划启动:联合pidan打造确定性产品 单款猫砂月销1500万
猫砂是猫用品购买频率最高的产品,其潜力被外界看好。不过,因行业门槛低,这两年入局者多、竞争加剧,猫砂利润像纸一样薄,最低仅1%
2025-12-13 14:56:00
2025年“福满榕城 奋勇争先”短视频征集展播——《项目审批专班:“五项机制”激活发展新效能》。
2025-12-13 15:03:00
沁珠宝的2025年:文化赋能,匠心质造,新中式珠宝坚定前行
2025年,是新中式珠宝赛道蓬勃发展的一年,也是沁珠宝以文化为帆、品质为桨,实现跨越式发展的关键之年。在刚刚过去的2025年11月
2025-12-13 16:41:00
鲸鸿动能系列营销案例正式入库复旦管院案例中心,开启产学融合新路径
2025年12月10日,由复旦大学管理学院与鲸鸿动能联合举办的“技术驱动的商业创新:从生态支撑到全球竞逐”主题的案例课堂暨鲸鸿动能案例入库仪式
2025-12-13 16:42:00
硬核突破!全球领先脑肿瘤放疗设备将在廊坊临空实现“中国制造、全球交付”
河北新闻网讯(刘英、刘岩)12月6日,百洋医药高端制造产业化基地在临空经济区(廊坊)高端智能制造港正式启用投产,将承担全球领先脑肿瘤精准放疗设备ZAP-X火星舟放射外科机器人的生产供应任务
2025-12-13 17:52:00
开栏语 深圳,一座将创新刻入基因的城市。无数海归人才,正是这基因中最活跃的段落。作为改革开放的窗口与先锋,她以澎湃的活力与无限的机遇
2025-12-14 11:22:00
日前,第七届浙江国际智慧交通产业博览会在杭州盛大开幕。开幕式上,多项重磅政策与创新成果集中亮相,省交通运输厅、省科技厅共同发布《交通科技创新合作协议》
2025-12-14 11:39:00