• 我的订阅
  • 头条热搜
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...过基于规则的匹配进行评估,研究团队对非编程任务使用准确率,并对编程任务使用公正的pass@k指标,定义如下: 本次评估中设定k = 1且n = 5,c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜:与奥运会使用的...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。 ……更多
平安保险核保依托AI自主学习,扩展多维立体评估
...数据融合进核保预测模型中,不断修正核保结论,训练核保准确率。这种基于数据的分析和修正过程,使得平安保险核保系统能够准确地评估风险,提高核保的效率和准确性。面对保险行业核保场景新一轮的挑战,平安保险始终与时俱...……更多
常见电子邮件分类算法的性能分析
...贝叶斯算法学习曲线,红色线代表测试集(学习过程中)的准确率(Score),绿色线代表该模型在测试集上的准确率,线两侧的半透明带的宽度代表方差(方差越小,模型稳定性越好,泛化性能越好)。从图1可看出,随着训练量(Train examp...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...估了模型的性能,结果显示相比现有方法,RecDiff在推荐准确率方面取得了显著提升。未来,RecDiff团队计划将RecDiff拓展到更多推荐场景中,并结合多模态信息,进一步探索该模型的潜力和应用价值。论文:http://github.com/HKUDS/RecDif...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...e given problem about geometric shapes.」可以看到,性能并不好,准确率只有 36%,应该有很大的改进空间。不过,在使用 APE 之前,让我们先尝试下一种提示技术:思路链(CoT)推理;这种技术虽然对原始提示词修改不多,但事实证明却...……更多
...模型预测的有效性,确保模型能准确反映市场动态。采用准确率、召回率等评估指标,对模型性能进行量化衡量,是这个阶段的关键操作。金融领域对预测准确性的要求极高,因此,模型要持续优化和更新以适应市场变化。(二)...……更多
...反馈,不断优化数据模型和算法,提高风险识别和预警的准确率。同时,根据实际业务需求和市场变化,持续改进数据管理流程和方法,提升金融风险数据资产的管理水平。信息化在金融风险数据资产建设方面发挥着重要作用。...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正...……更多
AI 面试:蓝海还是“难海”?
...主研发的 AIGC HR 行业大模型和多模态算法,人机对比实验准确率超 92%,在国际处于技术领先水平,但却在融资和业务拓展中遭遇重重困难。在 AI 招聘的蓝海市场中,作为一家创业期的 AI 招聘公司,近屿智能如何向客户证明 AI ...……更多
...键步骤。统计学方法提供了各种性能指标,如均方误差、准确率、召回率和F1分数等,用于衡量模型的性能。这些指标允许我们量化模型的预测能力,并对不同模型进行比较。通过统计学方法,我们可以确定哪种模型在特定任务...……更多
GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开
...的批评意见更长时,也更容易出现幻觉。这有点类似于「准确率」和「召回率」之间的权衡。FSBS能够激励CriticGPT在产生更长、更全面的批评时,减少「无中生有」或者「鸡蛋里挑骨头」的发生率。之后进行的消融实验也证明了FS...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...一组新的 101 个 LitQA2 问题。PaperQA2 在原始 147 个问题上的准确率与后一组 101 个问题的准确率没有显著差异,这表明在第一阶段的优化已经很好地推广到了新的 LitQA2 问题(下表 2)。 PaperQA2 性能分析研究者尝试改变 PaperQA2 的参...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...是希望actor能生成更好的响应,但训练效率依赖于judge的准确率。因此,meta-judge作为训练judge的角色,可以同时提升模型作为actor和judge的性能。这三种角色组成的迭代训练模式如图1所示,在第t个步骤中,先收集模型M_t对提示x的...……更多
谷歌推出搜索增强事实评估器
...答中“满口跑火车”,甚至“造谣”。图源Pixabay防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktechpost报道,谷歌DeepMind和斯坦福大学似乎找到了某种变通办法。研究人员推出了一种基于大语言模型...……更多
...。经过测试,大模型能在一两秒内快速检索百万级数据,准确率高达95%。刘宏斌表示,CARES Copilot 1.0目前已在香港多家医院的不同科室进行了实地测试和优化,验证了其作为手术智能辅助工具的基础功能和关键技术。下一步,研...……更多
开启精准医疗的“钥匙”
...目已落地丽水,通过AI辅助当地医生提高多种癌症的筛查准确率和效率。AI技术在临床医学上的应用正在提速,这让生物医疗领域的未来有了更多想象空间,也让从前不可及的前沿医学成果快速实现转化,让普通百姓受益。“罗...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)。 当然,这也说明人家不是瞎蒙的,确实动脑子了。视觉上的长上下文另一篇研究来自UCSB,考察的是视觉大模型...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...的新标准。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的经验,在很大一部分代码上训练了 Mistral Large 2。Mistral Large 2 的表现远远优于上……更多
用AI自动设计智能体,数学提分25.9%,远超手工设计
...分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比,本文算法表现出色,这...……更多
...口;在转化环节,全程负责模型研发,动态评估线索推送准确率,迭代式推进模型完善。三是线索集中管理。构建数字办统一推送数字监督线索、业务部门实际开展个案监督或部署专项监督的良性互动机制。确定专人管理线索制...……更多
以人工智能助力涉外法治建设
...面的多维度评估体系是必要的。这不仅涉及一般技术中的准确率、查全率等指标,还需深入考量系统在跨语言法律推理中的一致性表现,及其在面临罕见案例或新兴法律问题时的灵活适应能力。在部署与应用阶段,涉外法律大模...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...)两部分作为上下文信息,模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字(TEI)的作为上下文信息,并不包含图像(VI),模型能还原出的遮住文字的准确率。 结果表明:绝大多数模型目前都不能胜...……更多
中新健康 | 广东专家研发AI模型 先心病诊断准确率超八成
...行。记者从会上获悉,广东专家研发AI模型,先心病诊断准确率超80%。广东省人民医院心血管内科主任荆志成介绍,在人工智能运用领域上,医院根据先心病CT影像特点,对多个算法模型进行了个体化适配和优化,并基于4000余例...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...效率提升了25%。在智能办公领域,大模型目前的意图识别准确率已达到97%。奇富科技则透露,通过AIGC的强大赋能,在电销系统中,语义分析和线索挖掘帮助提升电销线索识别准确率高达98%,同时将转化率提高超过5%。在智能营销...……更多
更多关于科技的资讯:
华为用户必看!换电池优惠50元、官方维修8.8折 错过等明年
快科技12月29日消息,距离2024年结束仅剩3天,华为服务回馈礼遇活动也将于12月31日正式收官,华为手机、平板等设备用户
2024-12-29 07:39:00
蔚来同步维权最新进展:多个账号被蔚来固定证据 已在多地法院起诉
快科技12月29日消息,蔚来汽车法务部日前发布消息称,和大家分享下公司近期依法维护自身权益的举措:“Super Wade”
2024-12-29 07:39:00
玉林迈入高铁时代 至南宁行程缩短至48分钟
快科技12月29日消息,近日,据官方获悉,南宁至珠海高铁南宁至玉林段(南玉段)将于12月30日开通运营,这标志着广西玉林迈入高铁时代
2024-12-29 08:09:00
SUV高速撞上隧道 发动机都被撞飞!司机:空调太暖 睡着了
快科技12月29日消息,公安部交通管理局今日分享了一起高速上疲劳驾车导致事故的案例。据介绍,12月18日凌晨4时许,浙江温丽高速向阳山隧道内
2024-12-29 08:09:00
京东何晓冬:AI大模型助力新质生产力 推动实体经济发展
本文转自:人民网京东集团副总裁、京东探索研究院院长何晓冬。人民网记者 翁奇羽摄人民网北京12月28日电 (记者王绍绍)在今日由人民网举办的“2024人民财经论坛”上
2024-12-29 08:22:00
女子半夜和男友吵架刷机票抢到3元票 平台:出票成功就能用
快科技12月29日消息,据报道,多位网友日前爆料称,自己抢到了海南航空明年1月4日从成都飞往北京的机票,票价3元,外加70元的机建燃油费
2024-12-29 08:39:00
量子AI+生物医药融合创新峰会在无锡滨湖举办
本文转自:人民网-江苏频道峰会现场。活动主办方供图。12月27日,量子AI+生物医药融合创新峰会在无锡滨湖区举办,峰会由图灵量子
2024-12-29 08:42:00
中国笔记本电脑最新销量出炉:联想销量销额双第一 AI PC立功
快科技12月29日消息,根据洛图科技发布的最新报告,2024年11月,中国大陆笔记本电脑线上公开零售市场的销量130万台
2024-12-29 09:09:00
韩国一客机发生坠落:机上载有181人 已有数十人死亡
快科技12月29日消息,据新华社报道,韩联社29日报道称,韩国务安机场飞机发生坠落,机上载有175名乘客,6名乘务人员
2024-12-29 09:09:00
“哪吒”航行器上天入海 创意奇思“落地生花”一批大学生创新创业成果亮相科交会,看似“不可能”的想法变成现实□南京日报/紫金山新闻记者 何洁“哪吒”不闹海了
2024-12-29 09:15:00
见“微”知著 敢为天下先
赵柏闻,1992年生,北京人。2004年起就读于人大附中,2008年进入中国农业科学院实习。2014年创立北京量化健康科技有限公司
2024-12-29 09:35:00
韩国载181人客机降落时撞击起火:全程被拍下 现场惨烈
12月29日消息,综合央视等报道,当地时间今日上午9时左右,一架韩国济州航空客机在韩国南部全罗南道务安国际机场降落过程中冲出跑道
2024-12-29 09:39:00
无人快递车撞上问界M9!车主:无人车跟碰瓷一样 减速后又加速撞了上了
快科技12月29日消息,据报道,杭州问界M9车主沈先生,在驾车出车位时,被后方驶来的一辆无人快递车撞上,交警判定沈先生主责
2024-12-29 10:09:00
AI教父辛顿发声:30年内AI致人类灭亡几率达10%-20%
快科技12月29日消息,2024年诺贝尔物理学奖得主、素有“AI教父”之称的辛顿(Geoffrey Hinton)表示
2024-12-29 10:09:00
2025年央视春晚主创团队官宣:于蕾任总导演
快科技12月29日消息,距离2025年除夕还有30天,中央广播电视总台《2025年春节联欢晚会》正在紧锣密鼓筹备中。今日
2024-12-29 10:09:00