• 我的订阅
  • 头条热搜
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但...……更多
策略产品经理必读系列第七讲:机器学习分类任务基础评估指标AUC、召回率、准确率
...你有帮助。前言:网上已经有很多文章介绍AUC、召回率和准确率等指标了,但更多只是从计算公式来讲解,并没有结合工作中实际的业务场景。一上来就介绍指标计算,并没有给到读者一个对于机器学习任务离线效果评估指标体...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...和数学竞赛中的成绩超过了人类平均水平,SAT数学考试的准确率达到了95%,中国高考英语考试的准确率达到了92.5%,表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练,文中对模型能力(理...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
...行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。这挑战了AI开发中的一个惯有想法:更大的模型必然能带来更好的结果。教会AI在使用外部工具和依赖内部知识之间进行判断——就...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
...GPT-4o和Gemini-1.5-pro表现最佳,分别达到了56.1%和55.2%的平均准确率。在所有细分领域中,GPT-4o在摩擦和加速度方面表现优越。相比之下,Gemini-1.5-pro在理解与重力、弹性、反射、吸收与透射、颜色和刚性相关的物理常识方面表现更...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...T-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
...中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下,...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下: 本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜:与奥运会使用的...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...突破,最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月,OpenAI 发布o1的预览版o1 preview时称,o1是第一个具备真正通用推理能力的大模型,它的核心能力推理...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。 ……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...提升测试结果显示,经过CodeDPO优化后,代码模型的生成准确率和效率,都获得了一定提升。★代码准确性实验研究团队在HumanEval(+),MBPP(+)和DS-1000三个数据集上进行了广泛实验,涵盖8种主流代码生成模型,包含Base模型和SF...……更多
平安保险核保依托AI自主学习,扩展多维立体评估
...数据融合进核保预测模型中,不断修正核保结论,训练核保准确率。这种基于数据的分析和修正过程,使得平安保险核保系统能够准确地评估风险,提高核保的效率和准确性。面对保险行业核保场景新一轮的挑战,平安保险始终与时俱...……更多
常见电子邮件分类算法的性能分析
...贝叶斯算法学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图1可看出,随着训练量(Train examp...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...估了模型的性能,结果显示相比现有方法,RecDiff在推荐准确率方面取得了显著提升。未来,RecDiff团队计划将RecDiff拓展到更多推荐场景中,并结合多模态信息,进一步探索该模型的潜力和应用价值。论文:http://github.com/HKUDS/RecDif...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...e given problem about geometric shapes.」可以看到,性能并不好,准确率只有 36%,应该有很大的改进空间。不过,在使用 APE 之前,让我们先尝试下一种提示技术:思路链(CoT)推理;这种技术虽然对原始提示词修改不多,但事实证明却...……更多
...模型预测的有效性,确保模型能准确反映市场动态。采用准确率、召回率等评估指标,对模型性能进行量化衡量,是这个阶段的关键操作。金融领域对预测准确性的要求极高,因此,模型要持续优化和更新以适应市场变化。(二)...……更多
...反馈,不断优化数据模型和算法,提高风险识别和预警的准确率。同时,根据实际业务需求和市场变化,持续改进数据管理流程和方法,提升金融风险数据资产的管理水平。信息化在金融风险数据资产建设方面发挥着重要作用。...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正...……更多
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...论文的几个重要结论:总体结果:LLMs在BrainBench上的平均准确率为81.4%,而人类专家的平均准确率63.4%。LLMs的表现显著优于人类专家子领域表现:在神经科学的几个重要的子领域:行为/认知、细胞/分子、系统/回路、神经疾病的...……更多
chatgpt教你写ai包教包会,准确度最高达99.7%
...25岁小哥,让ChatGPT帮他创建了个地理位置识别程序,最终准确率最高达99.7%。而且各种细节步骤全在,一边干活还一边教你学习。这一波,被ChatGPT感动到了。更贴心的是,在每次答疑解惑完,ChatGPT都会说上一句:如果你有任何...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
...问题,OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法,准确率提升了近88%。 多模态知识需求:OmniSearch能够有效地结合图像和文本进行检索,其在需要额外视觉知识的复杂问题上的表现远超现有模型,准确率提高了35%以上。 ...……更多
AI 面试:蓝海还是“难海”?
...主研发的 AIGC HR 行业大模型和多模态算法,人机对比实验准确率超 92%,在国际处于技术领先水平,但却在融资和业务拓展中遭遇重重困难。在 AI 招聘的蓝海市场中,作为一家创业期的 AI 招聘公司,近屿智能如何向客户证明 AI ...……更多
...键步骤。统计学方法提供了各种性能指标,如均方误差、准确率、召回率和F1分数等,用于衡量模型的性能。这些指标允许我们量化模型的预测能力,并对不同模型进行比较。通过统计学方法,我们可以确定哪种模型在特定任务...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。 相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为...……更多
更多关于科技的资讯:
日亏700万 日产汽车叫停本田合并
确定了,日产和本田一拍两散。从确认合体,到官宣“闪离”,只过去短短52天。这场合并,原本就被不少业内人士不看好,现实却也如他们预料那般
2025-02-16 14:53:00
直降4.3万!别克GL8陆上公务舱限时优惠:18.99万元起
快科技2月16日消息,上汽通用别克品牌宣布,别克GL8陆上公务舱限时优惠价为18.99万元起,相比官方指导价全系降低4
2025-02-16 14:53:00
节后多地机票节后低至一两折 上海飞三亚仅需199元
快科技2月16日消息,春节假期之后,多地机票价格明显回落,尤其是一些旅游城市机票回调幅度更大,适合错峰旅游。据报道,2月7日起至3月底
2025-02-16 14:53:00
中国电影的海外困境 藏在百亿《哪吒2》中
2023年,光线传媒董事长王长田预测《哪吒2》票房可能超70亿被群嘲时,谁也没有想到,他还是太保守了。2月13日晚,《哪吒2》票房冲破100亿元
2025-02-16 15:23:00
画面离谱!韩国多名空姐打开应急舱门还站机翼穿制服自拍 航司官方回应
快科技2月16日消息,据韩国JTBC电视台独家报道,近日,韩国廉价航空易斯达航空(Eastar Jet)多名空姐在清州机场站在机翼上身穿制服拍照
2025-02-16 15:23:00
男子利用15分钟内免停车费钻漏洞:逃费71次 少掏2500元停车费
快科技2月16日消息,不少停车场都有免费停车15分钟的政策,但有些司机却动起了歪心思,利用15分钟免费的规则钻停车场漏洞
2025-02-16 15:23:00
单张不到1毛钱!维达金盏花湿厕纸大促:35元到手6包
维达金盏花湿厕纸60片*6包(360片)日常售价52.9元,今日天猫百亿补贴直降至34.9元好价。单包折合5.82元、单张仅需0
2025-02-16 15:23:00
果粉再等等!新版AI Siri可能要到iOS 18.5了
快科技2月16日消息,据媒体报道,由于遇到“工程问题和软件错误”,苹果的新版AI Siri上线时间可能会推迟。此前有消息称
2025-02-16 15:53:00
旗舰机性能对决!三星S25 Ultra罕见碾压iPhone 16 Pro Max
快科技2月16日消息,在手机性能上,苹果iPhone凭借其A系列芯片一直占据优势地位,不过这一局面似乎正在发生变化,据YouTube频道PhoneBuff的最新测试结果显示
2025-02-16 15:53:00
零跑公布智驾计划:一季度实现城快/高架NAP全国覆盖
快科技2月16日消息,日前,零跑汽车公布了其智驾计划,宣布将在2025年一季度实现城快及高架NAP功能的全国覆盖。此外
2025-02-16 15:53:00
比芝麻还小!广州发现全球新物种“海珠微瓢虫”
快科技2月16日消息,据报道,广州海珠国家湿地公园举行的广东省“世界湿地日”暨红树林保护宣传活动上,正式发布了全球新物种——“海珠微瓢虫”
2025-02-16 15:53:00
北美首日票房超2200万 《哪吒2》距全球票房前10仅差不到3亿!即将超越《狮子王》
快科技2月16日消息,据灯塔专业版全球影史票房榜实时数据,《哪吒之魔童闹海》总票房(含点映、预售及海外票房)已超117
2025-02-16 15:53:00
HKC推出新款24.5寸电竞显示器:2K 300Hz屏首发1799元
快科技2月16日消息,HKC推出了一款2K 300Hz电竞显示器:ANT253PQ,首发1799元。新款主显示器的屏幕为一块24
2025-02-16 16:23:00
特斯拉Model Y发布OTA升级:激活车内毫米波雷达
快科技2月16日消息,特斯拉在北美地区发布了2025.2.6软件更新。此次更新主要针对2022年款及后续的Model Y车型
2025-02-16 16:23:00
日产业绩承压:计划削减中国50万辆产能
快科技2月16日消息,日产汽车为恢复业绩,公布了详细的结构改革计划,该计划包括在全球范围内削减产能。其中中国市场产能将减少50万辆
2025-02-16 16:53:00