框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...，也考虑到了如何在实现中进行快速匹配。实验实验设置评估数据集为了全面评估模型的性能，我们精心选择了来自UltraDomain的四个具有不同特征的数据集。首先，Agriculture数据集专注于农业实践领域，包含了12篇文档，总token数...……更多

2024-10-15 09:57:00更快,模型,经济,系统,检索,数据

Bengio团队提出多模态新基准，直指Claude 3.5和

...言问题生成自由形式的回答。由于没有唯一的标准答案，评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询，而不涉及图像中嵌入的文本内容与整体图像上下文之间的复杂关系。在一些文字在图...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

安全强化学习方法、理论与应用综述，慕工大、同济等深度解析

...明显的不同，特别是在约束马尔科夫决策过程（CMDP）的框架下，许多理论分析是基于优化算法和约束策略展开的。以下是一些关键的理论分析点：强化学习与安全强化学习的区别传统强化学习的目标是找到能够最大化累积奖励...……更多

2024-10-09 09:51:00同济,学习方法,深度,理论,方法,应用

AI卷翻科研！DeepMind 36页报告：全球实验室被「A

...白质在执行功能中的细节未能被可靠地注释。经过可靠性评估验证的AI模型也可以作为新的合成科学数据的来源。例如，AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构以及蛋白质数据库中的实验结构上进行...……更多

2024-11-27 18:23:00科学家,实验室,科研,指数,实验,科学

【数智化人物展】白鲸开源CEO郭炜：大模型助力企业大数据治理

...能：大模型的出现完全颠覆了以前数据治理智能化的技术框架架构，下图是过去传统的数据治理技术架构：将企业的业务定义、行业理解，企业业务口径定义，企业内部数据库的结构，甚至数据画像都通过灌入大模型最终实现...……更多

2023-10-25 17:26:00智化,白鲸,模型,升级,人物,数据

奥林匹克竞赛里选最聪明的AI：Claude-3.5-Sonn

...牌，从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序，如果金牌数量相同，则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型，使...……更多

2024-06-25 09:45:00奥林,奥林匹克,竞赛,模型,推理,能力

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来了，来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CV...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

...治理委员会副组长单位以及大模型安全风险防范能力系列评估规范“核心参编单位”，同时作为中国网络空间安全协会人工智能安全治理专业委员会首批成员单位，参与大模型语料库和安全评测。 ……更多

2024-04-10 20:16:00信通,基准,中国,模型,测试,报告

世界第一！阿里云图计算引擎登顶权威榜单每秒处理超8万次请求

...问和高吞吐查询等能力；在查询层，通过自研的GOpt优化框架，利用高阶统计信息提高基数估计准确性，可有效减少查询中间结果并提升执行效率，该研究成果已被数据库顶会 SIGMOD 2025收录。资料显示，LDBC是图数据与图计算领域...……更多

2025-05-20 12:19:00云图,阿里,权威,引擎,处理,世界

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...Mind首席科学家杰夫·迪恩（Jeff Dean）写道，“对机器学习框架（JAX、PyTorch、TensorFlow）和编排工具的强大支持使我们能够在v5p上更高效地扩展。通过第二代SparseCores，我们还看到嵌入密集型工作负载的性能有了显着提高。TPU对于...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

... LLM 中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对，即所谓的 LLM-Modulo 系统。o1 尝试以不同的方式为底层 LLM 补充类似 System 2 的能力。据了解，o1 是将底层 LLM（很可能是经过修改的 GPT-4o）结合到 R...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

谷歌新模型能识别人类情绪了！但不少人开始担心

...预防事故等领域。谷歌表示，PaliGemma 2已进行广泛测试，评估了该模型在人群偏见方面的表现，并声称该模型在“毒性和粗俗程度”方面优于行业基准。然而，谷歌并未公开其所使用的完整测试基准，也未明确披露具体的测试...……更多

2024-12-07 09:49:00模型,情绪,情感,技术,面部,模型

多模态竞技场对标90B Llama 3.2！Pixtral

...l还贡献了一个开源基准测试MM-MT-Bench，用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是：模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出，后面还会对称地拼接投影层和各种解码器...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

泰康人寿蝉联“保险业投资金牛奖”

...规定的前提下，建立了一套基于资产负债管理的资产配置框架体系，采用成熟稳健的资产配置策略，稳健规范开展资金运用，确保资金运作安全，并充分发挥在品种领域的投资能力，长期以来取得优异的投资业绩，为向客户提供...……更多

2023-11-14 14:58:00泰康,金牛,保险业,人寿,投资,资产

广州公布4项基准地价成果

...设用地，按照商服、住宅（或宅基地）、工业等用途分别评估，并由政府确定的，于某一估价期日法定最高使用年期（或某一设定年期、无年期限制）土地权利的区域平均价格。农用地基准地价是指，在不改变农用地用途的前提...……更多

2023-12-28 04:25:00地价,广州,基准,成果,地价,基准

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

...提出了 ByteCheckpoint。这是一个 PyTorch 原生，兼容多个训练框架，支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统，相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的...……更多

2024-08-09 09:37:00万卡,训练,豆包,脆皮,大为,模型

LLM取代的第一个编程语言竟是SQL？网友吵翻天

...过了人类 SQL 程序员（准确率为 92%）的平均水平，大多数数据库产品已经提供了一个 chatbox 接口来查询数据」。Bindu Reddy 口中的 Chatbox 是一个开源的桌面端程序，Prompt 的调试与管理工具，支持 OpenAI 模型、Claude、Google Gemini ……更多

2024-08-28 09:43:00编程语言,编程,语言,网友,数据,模型

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...质」的，比如MMLU、PubMedQA和MedMCQA，主要以问答的形式来评估模型的核心知识检索和推理能力，然而，这些基准都不适合评估模型前瞻的能力，辅助科研需要整合嘈杂但相互关联的发现，比人类专家更擅长预测新结果。最近，伦...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

马斯克承诺开源版大模型来了！Grok-1：3140亿参数迄

...学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估：在这些基准测试中，Grok-1 显示出了强劲的性能，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练...……更多

2024-03-18 11:51:00马斯,马斯克,权重,架构,模型,参数

Sora等生成式AI消耗大量能源和水！美议员首提法案应对能源

...的标准，并为人工智能开发者和运营商创建一个自愿报告框架。该法案能否通过仍不确定。业内人士也指出，美国首个此类法案，将会强调生成式人工智能技术的环境影响，但要彻底解决这些问题还有很长的路要走。生成式AI驱...……更多

2024-02-23 13:04:00能源,法案,议员,消耗,生成,危机

从“智能涌现”到“超人类”，通往AGI巅峰的终极设想

...总结历史上的定义，并在此基础上提出了他们对AGI的定义框架[12]。从理论到实践：定义AGI的六大原则从这些过去定义AGI的尝试中，研究人员发现了一些共同特征，并从中提取出定义AGI所必须满足的六大原则：1.注重能力，而非过...……更多

2023-12-01 09:21:00巅峰,终极,人类,智能,人类,系统

精准狙击Llama 3.1？Mistral AI开源Larg

...途，必须提前获取 Mistral AI 商业许可证。性能表现在多项评估指标上，Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上，预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestra……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

$多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中

...完成，论文共同一作Wei Fan、Haoran Li。团队提出了一个新框架，基于情境完整性理论来调整大语言模型使其符合隐私法律，提高其在不同情境下检测隐私风险的能力。Formality is Favored: Unraveling the Learning Preferences of Lar……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

加州大学团队开发异构编程新模型，开辟提升处理器性能新路径

...（Hung-Wei Tseng）领导的研究团队，提出了一种以新的软件框架提高现有计算机处理速度的方法，为我们提供了一种新的性能提升思路。图丨曾宏伟（来源：加州大学河滨分校）为了处理不同类型的数据，现代计算机大都集成了多...……更多

2024-03-04 10:23:00加州,路径,处理器,模型,团队,性能

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

... 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始，LazyLLM 会逐渐对 token 进行剪枝，从而逐渐减少得到最终模型所使用的计算数量。请注意，LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集...……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

360集团携手中国信通院共促人工智能安全发展

...产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦理等方面的表现。该体系将覆盖合法合规、隐私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集，为行业提供...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团