准确率,模型,评估,评估,模型,数据头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

策略产品经理必读系列第七讲：机器学习分类任务基础评估指标AU

...你有帮助。前言：网上已经有很多文章介绍AUC、召回率和准确率等指标了，但更多只是从计算公式来讲解，并没有结合工作中实际的业务场景。一上来就介绍指标计算，并没有给到读者一个对于机器学习任务离线效果评估指标体...……更多

2023-05-06 13:00:00评估指标,准确率,评估,机器,指标,策略

微软华人团队发布全新基准AGIEval，专为人类考试而生

...和数学竞赛中的成绩超过了人类平均水平，SAT数学考试的准确率达到了95%，中国高考英语考试的准确率达到了92.5%，表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练，文中对模型能力(理...……更多

2023-05-13 21:28:00微软,基准,专为,团队,人类,全新

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...验评估方面，HourVideo采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下，每个MCQ应独立评估，但这种...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料（MMedC）构建在构建数据集方面，研究团队收集了一份多语言医疗语料库...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

...行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。这挑战了AI开发中的一个惯有想法：更大的模型必然能带来更好的结果。教会AI在使用外部工具和依赖内部知识之间进行判断——就...……更多

2024-12-03 13:34:00正确率,清华,模型,全新,科学,方法

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

...GPT-4o和Gemini-1.5-pro表现最佳，分别达到了56.1%和55.2%的平均准确率。在所有细分领域中，GPT-4o在摩擦和加速度方面表现优越。相比之下，Gemini-1.5-pro在理解与重力、弹性、反射、吸收与透射、颜色和刚性相关的物理常识方面表现更...……更多

2024-12-07 09:53:00准确率,百分点,百分,模型,物理,视频

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...T-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

...中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%；在非拉丁文字语言上，所有模型的表现显著弱于英语。在大语言模型（LLMs）不断发展的背景下，如何评估这些模型在多轮对话和多语言环境下的指...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：本次评估中设定k = 1且n = 5，c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜：与奥运会使用的...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

...突破，最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月，OpenAI 发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据，以及在榜单上的最新评测的结果。 ……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...提升测试结果显示，经过CodeDPO优化后，代码模型的生成准确率和效率，都获得了一定提升。★代码准确性实验研究团队在HumanEval（+），MBPP（+）和DS-1000三个数据集上进行了广泛实验，涵盖8种主流代码生成模型，包含Base模型和SF...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

平安保险核保依托AI自主学习，扩展多维立体评估

...数据融合进核保预测模型中,不断修正核保结论,训练核保准确率。这种基于数据的分析和修正过程,使得平安保险核保系统能够准确地评估风险,提高核保的效率和准确性。面对保险行业核保场景新一轮的挑战,平安保险始终与时俱...……更多

2023-11-07 19:58:00平安保险,多维,平安,立体,评估,学习

常见电子邮件分类算法的性能分析

...贝叶斯算法学习曲线，红色线代表测试集(学习过程中)的准确率(Score)，绿色线代表该模型在测试集上的准确率，线两侧的半透明带的宽度代表方差(方差越小，模型稳定性越好，泛化性能越好)。从图1可看出，随着训练量(Train examp...……更多

2024-08-26 09:59:00性能分析,算法,电子邮件,性能,常见,邮件

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练