立新,数据分析,基准,科学家,模型,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

科学家建立新评价基准，助力评估大模型数据分析能力

在大数据时代，自动数据分析已经成为跨技术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型，它们已经能够理解自然语言查询，并能生成相应的代码或分析，让自动数据分析变得更加接近现实。例如，Devin 的成功，...……更多

2024-04-07 10:50:00立新,数据分析,基准,科学家,模型,评估

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

下载次数破39万！CMU、Meta联合发布VQAScore文

...Pengchuan Zhang是Meta AI（原Facebook AI研究院）的人工智能研究科学家，曾在微软研究院担任高级研究科学家。他的研究领域主要集中在深度学习、计算机视觉和多模态模型等方向，曾发表多项具有深远影响力的成果，例如AttnGAN、OSCAR...……更多

2024-11-07 09:53:00文生,次数,联合,方案,模型,文生

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...），还在技术报告中公布了详细的后训练方法。Ai2 研究科学家 Nathan Lambert（论文一作）的推文这份 70 多页的技术报告可以说诚意满满，非常值得详细阅读： Tülu 3 发布后，社区反响热烈，甚至有用户表示测试后发现其表现比 GP...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题，可谓是绞尽脑汁。目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法。就连英伟达科学家Jim Fan曾发文表示，合成数据...……更多

2024-08-20 13:44:00微软,力作,秘诀,生成,团队,性能

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...飞也曾短暂进入工业界，出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立，这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品，包括AutoML、Contact Center AI、Dialogflow...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...的提示进行匿名回答，并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中，o1-preview 的受欢迎程度远远高于 GPT-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。...……更多

2024-09-13 16:42:00推理,模型,极限,突破,学习,模型

智能体首达Kaggle Grandmaster,华为结构化推

...个例子，在 Kaggle 数据科学竞赛中（如图 1 所示），数据科学家需要遵循一个结构化的工作流程：收集、清理、预处理和标准化数据，创建数据加载器以实现高效管理，生成关键评估指标，以及开发自定义模型。然后，这些见解...……更多

2024-11-09 09:53:00华为,结构化,推理,思维,结构,智能

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家，依托鹏城云脑、中国算力网等自主可控 AI 基础设施，致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台，赋能工业互联网、...……更多

2024-07-29 09:39:00中大,文献,调研,深度,实验室,实验

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...变人类与科学文献互动的方式。最近一段时间，有关 AI 科学家的研究越来越多。大语言模型（LLM）有望帮助科学家检索、综合和总结文献，提升人们的工作效率，但在研究工作中使用仍然有很多限制。对于科研来说，事实性至...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

首个自主机器学习AI工程师，刚问世就秒了o1，Kaggle

...工程师简化了上述所有复杂环节。它的目标不是取代数据科学家或工程师，而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中，人们仅用几个小时就能完成一周的工作。听起来有点像今年 3 月在 AI 社区爆火的首...……更多

2024-11-19 09:48:00机器,大师,工程师,工程,学习,学习

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...证明，模型的自我提升可以摆脱对人类监督的依赖。 Meta科学家Yann LeCun也转发了这篇研究，并亲自下场玩起了双关梗——Meta提出的Meta-Judge，FAIR能否实现fair？研究不重要，重要的是Meta FAIR这一波曝光率拉满了。元奖励（Meta-Rewar...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。在12个自动评分器评估基准中的8个基准上，FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练：引入了一种计算更为高效的方法，使用创新...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...现。OpenAI发布的一项匿名人类偏好评估显示，o1-preview在数据分析、编码和数学等推理密集型类别中，比GPT-4o更受欢迎，但在某些自然语言任务中，o1-preview并不是首选。这表明它并不适合所有用例，GPT-4o在文本生成方面仍保持优...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

史上最严中文真实性评估：OpenAI o1第1豆包第2，其它

新的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，具有“中文、多样性、高质量、静态、易于评估”五...……更多

2024-11-22 09:51:00豆包,中文,真实性,评估,模型,中文

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...元导读】最近，Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路，并透露了后续Llama 4的更新方向。刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文，但依旧激起了广大网友强...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...一款名为 MMed-Llama 3 的全新基座模型，以 8B 的尺寸在多项基准测试中超越了现有的开源模型，更加适合通过医学指令微调，适配到各种医学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

Sam Altman或筹数十亿美元自造AI芯片，DeepMi

...Anna Veronika Dorogush，她毕业于莫斯科国立大学，曾在Yandex数据分析学院学习了数据分析，并在Google和Microsoft担任过软件工程师，此后她在Yandex担任机器学习系统负责人。6.FlutterFlow获得由Google Ventures领投的2550万美元……更多

2024-01-29 09:20:00首席,科学家,芯片,创业,科学,模型

全球AI安全评估测试有了新基准

...代表，蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会议发言中说。他进一步解释，可通过制定行业标准与指南，为开发和部署生成式人工智能系统的开发者和机构提供清晰指导；投入研发并开放保障生成式...……更多

2024-04-25 04:00:00基准,评估,测试,安全,全球,人工智能

$什么影响大模型安全？NeurIPS\\\'24新研究提出大模型越狱攻击新基准$

什么影响大模型安全？NeurIPS\'24新研究提出大模型越

全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学（Guangzhou）USAIL研究团队，从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多

2024-11-01 09:29:00模型,基准,攻击,影响,安全,研究

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准