框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌 AI 推出 CardBench 评估框架

...要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优...……更多

2024-09-04 09:48:00框架,评估,数据,模型,基准,查询

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...oTA」的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。为解决以上问题，来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

让AI管理大型代码库，开发者福音 | 阿里/新加坡国立/西安

...中发挥了关键作⽤。真实应⽤场景⽰例基于ModelScope-Agent框架，CodexGraph的实际应⽤价值在多个场景中得到了体现，如：代码聊天助⼿（Code Chat）代码调试⼯具（Code Debugger）单元测试⽣成器（Code Unit tester）代码⽣成器（……更多

2024-08-12 09:49:00西安交大,新加坡,阿里,西安,开发者,福音

科学家建立新评价基准，助力评估大模型数据分析能力

...到处理模糊问题、私有代码库集成等多种模式，可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务，还设计了多选题任务，要求模型在代码执行后对结果进行理解、归纳和推理，提供有价值的观点。尽管...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

全球AI安全评估测试有了新基准

...应用方面安全测试领域的空白，为业界提供了统一的测试框架和明确的测试方法，有助于提高人工智能系统安全性，促进技术负责任发展，增强公众信任。记者了解到，此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...h基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

openai发布多语言大规模多任务语言理解

...需要帮助来保持准确性和连贯性。MMMLU数据集提供了一个框架，用于测试传统上在NLP研究中代表性不足的语言模型，从而弥补了这一差距。MMMLU数据集意义MMMLU的发布解决了人工智能界的几个相关挑战。它提供了一种更具多样性和...……更多

2024-09-24 22:07:00多语,大规,大规模,任务,语言,语言

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...任务。下图展示了具身智能体的典型架构。具身智能体框架在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人—— 具身智能在物理世界中的硬件方案；（2）具身仿真平台—— 高效且安全地训练...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...hub.io/代码仓库：https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解，不仅可以显著增强用户对医疗大语言模型的信任，还能促进更高质量的医疗服务体验，确保医疗服务的全球化和个性化。 ……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言，研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准，是因为团队发现：由机器学习 (ML) 模型从较大的数据集中自动...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...分。提升图像理解与文本定位任务首先，研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现，虽然 SigLIP 模型的少样本线性分类性能较差，但当在 PaLI-3 中使用时，SigLIP 模型在"简单"任务（如字幕和问答）...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...包括三个阶段：研究思路生成、实验实现和实验执行。该框架在多项机器学习任务中有效促进了研究进展。源代码链接：https://github.com/du-nlp-lab/MLR-Copilot 论文链接：https://arxiv.org/pdf/2408.14033 Demo 链接……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

还在人工炼丹？自动提示工程指南来了，还带从头实现

...作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要？要为给定任务找……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...掘它们的能力。具体来讲，研究者提出了一种基于 LLM 的框架 GenSim，它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是，生成的任务表现出了极大的多样性，促进了机器人策略的任务级泛化。此外从概...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...世界场景中的性能。他们专门开发了一个新的高质量人类评估集，该评估集包含 1800 个提示，涵盖 12 种关键用例（征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

...DCLM-7BDCLM-7B同样采用了decoder-only的架构，使用PyTorch和OpenLM框架进行预训练。总共4T token的DCLM-baseline数据集来自于总量240T的DCLM，DCLM-7B模型又进一步过滤出其中的2.5T用于训练。上下文长度为2048，小于Mis……更多

2024-07-22 09:41:00血战,强势,模型,苹果,模型,数据

马斯克 xAI 推出 Grok-1.5 大语言模型

...k-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI还优化了检查点、数据加载和训练作业重新启动，以最大限度地减少发生故障时...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...与普通蒸馏相比，这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中，并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段，MLP 层保持冻结状态，Mamba 层...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好和兴趣，从而生成个性化、贴合用户需求的推荐内容。具体而言，该框架采用隐空间扩散机制，有效清除用户表示中的噪声，无论是...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...能？”RoboMamba 方法2. RoboMamba 模型结构图 3. Robomamba 整体框架。RoboMamba 通过视觉编码器和投影层将图像投影到 Mamba 的语言嵌入空间，然后与文本 tokens 连接，并输入到 Mamba 模型中。为了预测末端执行器的位置和方向，我们引入简.……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...AI技术报告中。48页超长论文中，覆盖了苹果LLM的设计与评估，包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果