框架,评估,数据,模型,基准,查询头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

...效率。类生成：给定一个包含类级和方法级信息的代码框架，要求LLM生成类及其方法。数据科学编程：给定数据科学任务的描述和部分代码片段，要求LLM完成代码片段以通过相应的测试。文件级代码编辑：提供文件内容后，要...……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解，不仅可以显著增强用户对医疗大语言模型的信任，还能促进更高质量的医疗服务体验，确保医疗服务的全球化和个性化。 ……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

NeurIPS 2024 | FaceChain团队新作，开

...同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势，如图 1 与图 2 所示，并得到了以下三个新颖观测结论：（i）随着数据量的增大，输入空间的拓扑结构变得越来越复杂（ii）随着数据量的增...……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...、StarCoder和ProofPile2 MMLU得分接近Llama 3 8B 使用PyTorch和OpenLM框架进行训练具体而言，研究团队先是提出了一个语言模型数据比较新基准——DCLM。之所以提出这一基准，是因为团队发现：由机器学习 (ML) 模型从较大的数据集中自动...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...分。提升图像理解与文本定位任务首先，研究人员在 PaLI 框架内进行了对不同的 ViT 模型的有控制的比较。结果发现，虽然 SigLIP 模型的少样本线性分类性能较差，但当在 PaLI-3 中使用时，SigLIP 模型在"简单"任务（如字幕和问答）...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

连发两款模型“补课”，百度AI成色如何？

...长文处理能力和多轮交互表现。这和DeepSeek-V3在Transformer框架之上，通过MLA（多头潜在注意力）降低算力成本，有着异曲同工之处。作为多模态大模型，文心4.5还采用了多模态异构专家扩展技术，这是一种将多模态数据处理与混...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。安全准备...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

自动化机器学习研究MLR-Copilot：利用大型语言模型进

...包括三个阶段：研究思路生成、实验实现和实验执行。该框架在多项机器学习任务中有效促进了研究进展。源代码链接：https://github.com/du-nlp-lab/MLR-Copilot 论文链接：https://arxiv.org/pdf/2408.14033 Demo 链接……更多

2024-09-26 13:35:00研究,模型,自动化,机器,语言,学习

还在人工炼丹？自动提示工程指南来了，还带从头实现

...作原理，从而更好地利用能帮助我们使用那些实现 APE 的框架。本教程的代码已经发布在 GitHub。地址：https://github.com/marshmellow77/automated-prompt-engineering-from-scratch APE 为什么很重要？要为给定任务找……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

两大AI模型性能提升登上国际榜单

...了AI与长期记忆方面的论文，其自研的OMNE大模型多智能体框架登上GAIA基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖，举办和支持包括“AI+精神健康”在内的各种高水...……更多

2025-01-16 11:45:00模型,性能,国际,模型,多维度,伯克利分校

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...对 AI 自我进化的重要性，并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne，其在 GAIA 基准上取得了第一名的成绩。论文标题：Long Term Memory : The Foundation of AI Self-Evolution 论文地址：https://arxiv.o……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...是9.4%。这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题，涵盖从语言学到火箭科学、从古典学到生态学...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

谷歌版贾维斯即将问世，最强Gemini 2.0加持！AI自主

...了紧接着Claude「计算机使用」发布之后，微软就开源了AI框架OmniParser。假设你想要去布赖斯峡谷国家公园，不知是否需要订票入园，这时OmniParser可以带你查询。它会解析屏幕后，自动点击「permits」按钮，然后再截屏找到「布...……更多

2024-10-28 09:51:00贾维斯,贾维,时代,电脑,模型,图标

语言、机器人破壁，MIT等用GPT-4生成模拟任务，并迁移到

...掘它们的能力。具体来讲，研究者提出了一种基于 LLM 的框架 GenSim，它为设计和验证任务资产安排、任务进展提供了一种自动化机制。更重要的是，生成的任务表现出了极大的多样性，促进了机器人策略的任务级泛化。此外从概...……更多

2023-10-17 16:58:00机器人,生成,机器,任务,语言,世界

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...世界场景中的性能。他们专门开发了一个新的高质量人类评估集，该评估集包含 1800 个提示，涵盖 12 种关键用例（征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...的研究结果。团队使用Eleuther Al Language Model EvaluationHaress框架，让LLM在两个版本的摘要之间进行选择，通过困惑度（perplexity）来衡量其偏好。困惑度越低，表示模型越喜欢该摘要。对人类专家行为的评估也是在相同测试用例上进...……更多

2024-12-02 09:51:00结论,神经,科研,人类,水平,专家

隆重开幕丨第十届中国软件估算大会暨2025软件行业基准数据发

...轨迹、战略价值与技术实践。探讨了现代软件工厂的基本框架和智能化技术对软件新质生产力的促进意义。中国科学院软件研究所副总工程师王青联盟首席专家王海青对《2025年中国软件行业基准数据》进行详细解读。介绍了行...……更多

2025-11-01 16:16:00软件,第十届,基准,中国,发布会,大会

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

...DCLM-7BDCLM-7B同样采用了decoder-only的架构，使用PyTorch和OpenLM框架进行预训练。总共4T token的DCLM-baseline数据集来自于总量240T的DCLM，DCLM-7B模型又进一步过滤出其中的2.5T用于训练。上下文长度为2048，小于Mis……更多

2024-07-22 09:41:00血战,强势,模型,苹果,模型,数据

马斯克 xAI 推出 Grok-1.5 大语言模型

...k-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI还优化了检查点、数据加载和训练作业重新启动，以最大限度地减少发生故障时...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...与普通蒸馏相比，这种方法可以获得更好的困惑度和下游评估结果。该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中，并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段，MLP 层保持冻结状态，Mamba 层...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

...代码大模型，不小心给曝光了！在字节开源的代码大模型评估基准FullStack Bench里面，出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版，还并没有上线。它在多种编程语言上的性能表现如下，可以看到在闭源模型中...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

...了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好和兴趣，从而生成个性化、贴合用户需求的推荐内容。具体而言，该框架采用隐空间扩散机制，有效清除用户表示中的噪声，无论是...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

首个自主机器学习AI工程师，刚问世就秒了o1，Kaggle

...新方法以及精细优化。这回落在 NEO 后面的，是搭配 AIDE 框架的 o1-preview 了。 NEO 在 50 场 Kaggle 比赛中进行了测试，并在其中 26% 的比赛中获得了奖牌，这一表现远远优于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基准测试中的 16……更多

2024-11-19 09:48:00机器,大师,工程师,工程,学习,学习

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...能？”RoboMamba 方法2. RoboMamba 模型结构图 3. Robomamba 整体框架。RoboMamba 通过视觉编码器和投影层将图像投影到 Mamba 的语言嵌入空间，然后与文本 tokens 连接，并输入到 Mamba 模型中。为了预测末端执行器的位置和方向，我们引入简.……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

昆仑万维SkyReels团队正式发布并开源SkyReels-

...发布并开源SkyReels-V2——首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Di……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...AI技术报告中。48页超长论文中，覆盖了苹果LLM的设计与评估，包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果