我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌 AI 推出 CardBench 评估框架

类别：科技发布时间：2024-09-04 09:48:00 来源：IT之家

IT之家 9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。

CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。

项目背景

基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结果数量，直接影响查询优化器对执行计划的选择。

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说，准确的卡入度估计至关重要。

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划，从而大大降低性能，有时甚至会降低几个数量级。

现代数据库系统中广泛使用的基数估计技术，依赖于启发式（Heuristic）方法和简化模型，例如假设数据统一和列独立。

这些方法虽然计算效率高，但往往需要准确预测基数，在涉及多个表和过滤器的复杂查询中表现尤为明显。

最新的数据驱动方法试图在不执行查询的情况下，对表内和表间的数据分布进行建模，从而减少了一些开销，但在数据发生变化时仍需要重新训练。

尽管取得了这些进步，但由于缺乏全面的基准，因此很难对不同的模型进行比较，也很难评估它们在不同数据集上的通用性。

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置：

基于实例的模型，即在单个数据集上进行训练；零点模型，即在多个数据集上进行预训练，然后在一个未见数据集上进行测试；微调模型，即进行预训练，然后使用目标数据集的少量数据进行微调。

该基准测试提供两组训练数据：一组用于具有多个筛选条件谓词的单个表查询，另一组用于涉及两个表的二进制联接查询。

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询，适用于其中一个较小的数据集，从而确保为模型评估提供强大且具有挑战性的环境。

例如，微调图神经网络（GNN）模型在二进制连接查询中的 q-error 中位数为 1.32，第 95 百分位数为 120，明显优于零点模型。结果表明，即使是 500 次查询，对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。

总之，CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准，系统地评估和比较不同的 CE 模型，从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型，为训练新模型成本过高的实际应用提供了切实可行的解决方案。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-04 11:45:08

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于框架,评估,数据,模型,基准,查询的资讯：

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

...讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响

2024-11-01 09:29:00

田渊栋团队新作祭出Agent-as-a-Judge！AI智能

...？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估

2024-10-28 09:52:00

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...有的数据、数据混合方法、配方、代码、基础设施和评估框架！模型：https://huggingface.co/allenai 技术报告

2024-11-26 09:44:00

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...oTA」的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。为解决以上问题，来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval

2024-08-22 09:50:00

2223 万、电力（大模型）大单

...标工作。标包2：基于大模型的电力设备诊断与综合预测框架研究咨询服务。现有设备诊断存在依靠人工经验、多源多模态数据利用不充分、诊断准确度无法保证等技术难题。为解决上述问题，构建

2025-01-04 00:41:00

多样任务真实数据，大模型在线购物基准Shopping MML

...学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的能力与潜力。一直以来，想要完整建模在线购物相当复杂，主要痛点是：多任务性：在线

2024-11-21 09:45:00

让AI管理大型代码库，开发者福音 | 阿里/新加坡国立/西安

...中发挥了关键作⽤。真实应⽤场景⽰例基于ModelScope-Agent框架，CodexGraph的实际应⽤价值在多个场景中得到了体现

2024-08-12 09:49:00

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...异。目前OmniSearch在魔搭社区还有demo可玩。动态检索规划框架，打破传统mRAG局限传统mRAG方法遵循固定的检索流程

2024-12-05 09:45:00

科学家建立新评价基准，助力评估大模型数据分析能力

...到处理模糊问题、私有代码库集成等多种模式，可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务，还设计了多选题任务，要求模型在代码执行后对结果进行理解、归纳和推

2024-04-07 10:50:00

更多关于科技的资讯：

半价特斯拉Model 3国产平替选手！比亚迪秦L EV上市：

2025-03-24 00:01:00

中国冰川快速退缩！7000条小冰川已完全消失

2025-03-24 00:01:00

PC鸿蒙到底行不行！我们问了几位开发者的真实感受

2025-03-24 00:31:00

“饿瘦和运动瘦的区别”引热议！网友发愁减肥专家如是说

2025-03-24 00:31:00

为啥动物那么多乱伦：近亲繁殖没影响吗

2025-03-24 00:31:00

五大场景改变你我！或许这才是真正的Windows 11

2025-03-24 01:01:00

不再发布周销量榜：对所有人都是好事包括理想

2025-03-24 01:01:00

雇农机就像“滴滴打车”一样便捷

2025-03-24 04:53:00

消费者购买以旧换新家电近9000万台

2025-03-24 05:53:00

“AI+消费”如何打开新空间（评论员观察）

2025-03-24 06:32:00

在“聪明”的工厂，造高端的汽轮机（经济新方位·探访智能工厂）

2025-03-24 06:34:00

高端装备智能化生产取得新进展（经济新方位·探访智能工厂）

2025-03-24 06:40:00

头条订阅服务

谷歌 AI 推出 CardBench 评估框架