框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌 AI 推出 CardBench 评估框架

...要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优...……更多

2024-09-04 09:48:00框架,评估,数据,模型,基准,查询

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...oTA」的时代，简单易用、标准透明、可复现的多模态评估框架变得越来越重要，而这并非易事。为解决以上问题，来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

让AI管理大型代码库，开发者福音 | 阿里/新加坡国立/西安

...中发挥了关键作⽤。真实应⽤场景⽰例基于ModelScope-Agent框架，CodexGraph的实际应⽤价值在多个场景中得到了体现，如：代码聊天助⼿（Code Chat）代码调试⼯具（Code Debugger）单元测试⽣成器（Code Unit tester）代码⽣成器（……更多

2024-08-12 09:49:00西安交大,新加坡,阿里,西安,开发者,福音

科学家建立新评价基准，助力评估大模型数据分析能力

...到处理模糊问题、私有代码库集成等多种模式，可以全面评估模型的交互式数据分析能力。这一基准不仅包括代码生成任务，还设计了多选题任务，要求模型在代码执行后对结果进行理解、归纳和推理，提供有价值的观点。尽管...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

全球AI安全评估测试有了新基准

...应用方面安全测试领域的空白，为业界提供了统一的测试框架和明确的测试方法，有助于提高人工智能系统安全性，促进技术负责任发展，增强公众信任。记者了解到，此次发布的两项国际标准是大模型及生成式人工智能应用方...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...成、输出数据生成和质量优化。输入数据生成在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务， SELF-GUIDE 框架使用一个相对简单的提示模板。而...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...任务。下图展示了具身智能体的典型架构。具身智能体框架在本综述中，我们对具身智能的当前进展进行了全面概述，包括：（1）具身机器人—— 具身智能在物理世界中的硬件方案；（2）具身仿真平台—— 高效且安全地训练...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...hub.io/代码仓库：https://github.com/thu-ml/MMTrustEvalMultiTrust基准框架从已有的大模型评估工作中，MultiTrust提炼出了五个可信评价维度——事实性（Truthfulness）、安全性（Safety）、鲁棒性（Robustness）、公……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智能体任务执行之前将其细化为可操作的目标。将该模型嵌入 XAgent 框架后，...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言，研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准，是因为团队发现：由机器学习 (ML) 模型从较大的数据集中自动...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...分。提升图像理解与文本定位任务首先，研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现，虽然 SigLIP 模型的少样本线性分类性能较差，但当在 PaLI-3 中使用时，SigLIP 模型在\"简单\"任务（如字幕和问答...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...掘它们的能力。具体来讲，研究者提出了一种基于 LLM 的框架 GenSim，它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是，生成的任务表现出了极大的多样性，促进了机器人策略的任务级泛化。此外从概...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...世界场景中的性能。他们专门开发了一个新的高质量人类评估集，该评估集包含 1800 个提示，涵盖 12 种关键用例（征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

...DCLM-7BDCLM-7B同样采用了decoder-only的架构，使用PyTorch和OpenLM框架进行预训练。总共4T token的DCLM-baseline数据集来自于总量240T的DCLM，DCLM-7B模型又进一步过滤出其中的2.5T用于训练。上下文长度为2048，小于Mis……更多

2024-07-22 09:41:00血战,强势,模型,苹果,模型,数据

马斯克 xAI 推出 Grok-1.5 大语言模型

...k-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI还优化了检查点、数据加载和训练作业重新启动，以最大限度地减少发生故障时...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好和兴趣，从而生成个性化、贴合用户需求的推荐内容。具体而言，该框架采用隐空间扩散机制，有效清除用户表示中的噪声，无论是...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...与普通蒸馏相比，这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中，并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段，MLP 层保持冻结状态，Mamba 层...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...能？”RoboMamba 方法2. RoboMamba 模型结构图 3. Robomamba 整体框架。RoboMamba 通过视觉编码器和投影层将图像投影到 Mamba 的语言嵌入空间，然后与文本 tokens 连接，并输入到 Mamba 模型中。为了预测末端执行器的位置和方向，我们引入简.……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...AI技术报告中。48页超长论文中，覆盖了苹果LLM的设计与评估，包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

OpenCity大模型预测交通路况，零样本下表现出色，来自港

...未来一小时内的交通状况。然而，它们在泛化到更长时间框架，如未来几小时或几天的能力明显有限。这种限制主要是由于模型在有效处理实际城市场景中较长时间范围内发生的时间分布变化方面的泛化能力较差。随着预测时...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

DolphinDB携手九鞅科技，助力固收投研效能飞跃

...复杂分析，以及高吞吐、低延时、开发便捷的流数据分析框架，是计算能力最强的数据库系统之一。DolphinDB的付费客户遍及中国大陆及港台地区、欧洲、美国、澳大利亚等地，客户领域包括金融、能源、智能制造、电信、化工、...……更多

2024-08-21 11:46:00效能,飞跃,科技,组合,分析,数据

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...们可以根据已有数据进行推断。AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes，它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops，但这是在服务器模式下运行的……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能