准确率,模型,评估,评估,模型,数据头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...验评估方面，HourVideo采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下，每个MCQ应独立评估，但这种...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料（MMedC）构建在构建数据集方面，研究团队收集了一份多语言医疗语料库...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

...行业巨头如GPT-4——便在测试数据集上实现了28.18%的答案准确率提升和13.89%的工具使用精度提高。这挑战了AI开发中的一个惯有想法：更大的模型必然能带来更好的结果。教会AI在使用外部工具和依赖内部知识之间进行判断——就...……更多

2024-12-03 13:34:00正确率,清华,模型,全新,科学,方法

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

...GPT-4o和Gemini-1.5-pro表现最佳，分别达到了56.1%和55.2%的平均准确率。在所有细分领域中，GPT-4o在摩擦和加速度方面表现优越。相比之下，Gemini-1.5-pro在理解与重力、弹性、反射、吸收与透射、颜色和刚性相关的物理常识方面表现更...……更多

2024-12-07 09:53:00准确率,百分点,百分,模型,物理,视频

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...T-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

...中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%；在非拉丁文字语言上，所有模型的表现显著弱于英语。在大语言模型（LLMs）不断发展的背景下，如何评估这些模型在多轮对话和多语言环境下的指...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...过基于规则的匹配进行评估，研究团队对非编程任务使用准确率，并对编程任务使用公正的pass@k指标，定义如下：本次评估中设定k = 1且n = 5，c表示通过所有测试用例的正确样本数量。奥林匹克竞技场奖牌榜：与奥运会使用的...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

...突破，最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月，OpenAI 发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据，以及在榜单上的最新评测的结果。 ……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...提升测试结果显示，经过CodeDPO优化后，代码模型的生成准确率和效率，都获得了一定提升。★代码准确性实验研究团队在HumanEval（+），MBPP（+）和DS-1000三个数据集上进行了广泛实验，涵盖8种主流代码生成模型，包含Base模型和SF...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

平安保险核保依托AI自主学习，扩展多维立体评估

...数据融合进核保预测模型中,不断修正核保结论,训练核保准确率。这种基于数据的分析和修正过程,使得平安保险核保系统能够准确地评估风险,提高核保的效率和准确性。面对保险行业核保场景新一轮的挑战,平安保险始终与时俱...……更多

2023-11-07 19:58:00平安保险,多维,平安,立体,评估,学习

常见电子邮件分类算法的性能分析

...贝叶斯算法学习曲线，红色线代表测试集(学习过程中)的准确率(Score)，绿色线代表该模型在测试集上的准确率，线两侧的半透明带的宽度代表方差(方差越小，模型稳定性越好，泛化性能越好)。从图1可看出，随着训练量(Train examp...……更多

2024-08-26 09:59:00性能分析,算法,电子邮件,性能,常见,邮件

支持1024帧、准确率近100％，英伟达「LongVILA」

...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率，相当于 274k 个 token 的上下文长度。此外， MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点，与环形序列并行（ring sequence parallel……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...估了模型的性能，结果显示相比现有方法，RecDiff在推荐准确率方面取得了显著提升。未来，RecDiff团队计划将RecDiff拓展到更多推荐场景中，并结合多模态信息，进一步探索该模型的潜力和应用价值。论文：http://github.com/HKUDS/RecDif...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

还在人工炼丹？自动提示工程指南来了，还带从头实现

...e given problem about geometric shapes.」可以看到，性能并不好，准确率只有 36%，应该有很大的改进空间。不过，在使用 APE 之前，让我们先尝试下一种提示技术：思路链（CoT）推理；这种技术虽然对原始提示词修改不多，但事实证明却...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

大数据驱动下的金融创新：采集技术优势与应用分析

...模型预测的有效性，确保模型能准确反映市场动态。采用准确率、召回率等评估指标，对模型性能进行量化衡量，是这个阶段的关键操作。金融领域对预测准确性的要求极高，因此，模型要持续优化和更新以适应市场变化。(二)...……更多

2024-04-13 05:53:00优势,驱动,金融,应用,分析,数据

探析信息化在金融风险管理中的应用

...反馈，不断优化数据模型和算法，提高风险识别和预警的准确率。同时，根据实际业务需求和市场变化，持续改进数据管理流程和方法，提升金融风险数据资产的管理水平。信息化在金融风险数据资产建设方面发挥着重要作用。...……更多

2024-01-22 11:43:00风险管理,信息化,风险,金融,应用,管理

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...论文的几个重要结论：总体结果：LLMs在BrainBench上的平均准确率为81.4%，而人类专家的平均准确率63.4%。LLMs的表现显著优于人类专家子领域表现：在神经科学的几个重要的子领域：行为/认知、细胞/分子、系统/回路、神经疾病的...……更多

2024-12-02 09:51:00结论,神经,科研,人类,水平,专家

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...问题，OmniSearch的表现显著优于GPT-4V结合启发式mRAG方法，准确率提升了近88%。多模态知识需求：OmniSearch能够有效地结合图像和文本进行检索，其在需要额外视觉知识的复杂问题上的表现远超现有模型，准确率提高了35%以上。 ...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

AI 面试：蓝海还是“难海”？

...主研发的 AIGC HR 行业大模型和多模态算法，人机对比实验准确率超 92%，在国际处于技术领先水平，但却在融资和业务拓展中遭遇重重困难。在 AI 招聘的蓝海市场中，作为一家创业期的 AI 招聘公司，近屿智能如何向客户证明 AI ...……更多

2023-10-31 21:02:00还是,公司,算法,招聘,智能,候选人

统计学方法在人工智能中的应用与优化策略研究

...键步骤。统计学方法提供了各种性能指标，如均方误差、准确率、召回率和F1分数等，用于衡量模型的性能。这些指标允许我们量化模型的预测能力，并对不同模型进行比较。通过统计学方法，我们可以确定哪种模型在特定任务...……更多

2024-01-27 03:05:00人工智能,统计学,人工,策略,统计,智能

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级

...的批评意见更长时，也更容易出现幻觉。这有点类似于「准确率」和「召回率」之间的权衡。FSBS能够激励CriticGPT在产生更长、更全面的批评时，减少「无中生有」或者「鸡蛋里挑骨头」的发生率。之后进行的消融实验也证明了FS...……更多

2024-07-01 09:23:00力作,批评,团队,模型,人类,训练

AI诊断抑郁症，准确率高达97.53%的秘诀何在？

...结合语音和大脑活动数据后，这个模型在诊断抑郁症时的准确率高达97.53%，比其他方法都要好得多。“这是因为语音里有很多我们现在还无法从大脑里直接得到的信息。”Maskeliūnas解释道。参与这项发明的KTU博士生Musyyab Yousufi说...……更多

2024-11-23 14:12:00准确率,抑郁症,秘诀,高达,数据,抑郁症

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...一组新的 101 个 LitQA2 问题。PaperQA2 在原始 147 个问题上的准确率与后一组 101 个问题的准确率没有显著差异，这表明在第一阶段的优化已经很好地推广到了新的 LitQA2 问题（下表 2）。 PaperQA2 性能分析研究者尝试改变 PaperQA2 的参...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力