• 我的订阅
  • 头条热搜
科学家建立新评价基准,助力评估大模型数据分析能力
在大数据时代,自动数据分析已经成为跨技术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主要集中在深度学习、计算机视觉和多模态模型等方向,曾发表多项具有深远影响力的成果,例如AttnGAN、OSCAR...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。就连英伟达科学家Jim Fan曾发文表示,合成数据...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...飞也曾短暂进入工业界,出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...变人类与科学文献互动的方式。最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
...工程师简化了上述所有复杂环节。它的目标不是取代数据科学家或工程师,而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中,人们仅用几个小时就能完成一周的工作。听起来有点像今年 3 月在 AI 社区爆火的首...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...证明,模型的自我提升可以摆脱对人类监督的依赖。 Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——Meta提出的Meta-Judge,FAIR能否实现fair?研究不重要,重要的是Meta FAIR这一波曝光率拉满了。元奖励(Meta-Rewar...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。OpenAI发布的一项匿名人类偏好评估显示,o1-preview在数据分析、编码和数学等推理密集型类别中,比GPT-4o更受欢迎,但在某些自然语言任务中,o1-preview并不是首选。这表明它并不适合所有用例,GPT-4o在文本生成方面仍保持优...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...元导读】最近,Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,并透露了后续Llama 4的更新方向。刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...Anna Veronika Dorogush,她毕业于莫斯科国立大学,曾在Yandex数据分析学院学习了数据分析,并在Google和Microsoft担任过软件工程师,此后她在Yandex担任机器学习系统负责人。6.FlutterFlow获得由Google Ventures领投的2550万美元……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...离 7 月 23 日 Llama 3.1 发布才刚刚过去 2 个月。Meta 首席 AI 科学家 Yann LeCun 也欢快地表达了自己的喜悦:「乖宝宝羊驼!」Meta 也借此机会重申了他们一贯的主张:「通过开源人工智能,我们才能确保这些创新能够反映和造福于其...……更多
全球AI安全评估测试有了新基准
...代表,蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会议发言中说。他进一步解释,可通过制定行业标准与指南,为开发和部署生成式人工智能系统的开发者和机构提供清晰指导;投入研发并开放保障生成式...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...新技能,而不需要额外的微调。强学习能力、信息检索与数据分析能力使得在知识海洋中“海底捞针”由想象映照进了现实。根据官方发布的测试报告,当给定卡拉曼语(一种全球使用人数不足 200 人的语言)的语法手册时(500...……更多
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
...会学、社会政策、公共卫生、传播学)的77名社会和行为科学家设计,并测试了许多不同类型的实验治疗的效果(例如框架效应、显着性)主题、启动社会身份对一系列结果(如政治、文化和宗教态度、对少数群体的偏见、幸福...……更多
什么是AGI?人工智能的未来
...种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑的系统。因此,【人工智能】的重点从系统内在智能,转移到利用外部环境中的智能,需要程序员...……更多
...模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。 ……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...先的大模型。结果发现,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用也值得我们期待。但与此...……更多
更多关于科技的资讯:
刚卖车就反悔 女子强行吃住在车里长达90个小时!“尿泡车”结局来了
快科技12月24日消息,据媒体综合报道,近日,颇为戏剧性的卖车纠纷终于迎来了“大结局”,买卖双方解除了此前的卖车约定。据报道
2024-12-24 20:05:00
59岁女子腰痛一周体内长“生姜”:家族9人无一幸免
12月24日消息,据媒体报道,近日,59岁的肖女士左侧腰腹部突发疼痛,疼痛持续了整整一周。经检查发现,肖女士不仅患有左输尿管下段结石并左肾积水
2024-12-24 20:05:00
规模化定制鞋履终于来袭,STARAY AI 或将改写鞋业未来
2024年11月全球3D打印消费品领航品牌的星世线STARAY在官方平台宣布了一则消息:即将推出全球首家3D打印一体鞋规模定制化服务
2024-12-24 20:14:00
跨越速运获2024物流与供应链“人工智能+”挑战赛特等奖
在12月18日至19日,由中国物流与采购联合会智慧物流分会主办的2024物流与供应链领域“人工智能+”应用场景挑战赛总决赛上
2024-12-24 20:15:00
阳江三只猫科技携手云浮云城,共筑乡村振兴新篇章
近日,一场旨在推动乡村振兴和城乡区域协调发展的公益活动在云浮市云城街道引起市民广泛关注。此次活动的发起企业为阳江三只猫科技有限公司
2024-12-24 20:30:00
格力磁悬浮再度夺魁!已覆盖近200条地铁线
快科技12月24日消息,继今年5月中标重庆轨道交通24号线一期冷源项目后,格力再次中标重庆轨道交通17号线一期冷源项目
2024-12-24 20:35:00
986g极致轻薄!联想ThinkPad X1 Carbon Aura AI 2025图赏
快科技12月24日消息,近日联想推出了ThinkPad X1 Carbon Aura AI 2025,售价15999元
2024-12-24 20:35:00
不能“一心多用”谜题破解了!新研究发现人脑决策速度惊人的慢
快科技12月24日消息,在传统认知中,人类大脑是宇宙中最复杂的“精密机器”,但为何大多数人都很难一心多用呢?最近一项新研究发现
2024-12-24 20:35:00
周鸿祎:人类命运已被改变 AI某些方面已超越99%人类
快科技12月24日消息,360公司创始人周鸿祎今日分享了他对AI的最新见解。他提醒公众,在过去的十二天里,人类及全球的命运或许已悄然发生了变化
2024-12-24 20:35:00
大众网记者 张婷婷 吴杰 济南报道40年的时光,海尔从一个籍籍无名的小厂,蜕变成全球知名的跨国企业;从专注产品质量的追赶者
2024-12-24 20:43:00
全国首飞!中国电信SIM卡上天了
快科技12月24日消息,顺丰集团与中国电信集团联合推出了全国首个电信号卡无人机配送服务。近日,顺丰丰翼无人机在深圳成功完成中国电信号卡首飞
2024-12-24 21:05:00
网友抓拍陈震驾车违法后续:本人被传唤至交通大队 扣分、罚款
快科技12月24日消息,据报道,12月18日,知名汽车博主@陈震同学 在西五环主路园博园桥驾车行驶时,存在看手机的违法行为
2024-12-24 21:05:00
平安保险空客如何以技术之名,传递保险为民之暖?
曾经,人们为了办理保险业务,常常需要在保险公司的柜台前排队等候,耗时又费力。但随着科技的不断发展,保险服务的便捷性成为人们关注的焦点
2024-12-24 21:12:00
在中国式现代化浪潮下,平安保险投诉如何守护保险未来?
当下,中国式现代化的巨轮滚滚向前,各行各业都在这一宏伟进程中探寻着自身的转型与发展之路,保险这一被誉为“社会稳定器和保护伞”的行业
2024-12-24 21:13:00
2025年央视春晚四大分会场公布:重庆、武汉、拉萨、无锡
快科技12月24日消息,央视春晚刚刚公布了2025年央视春晚四大分会场:重庆、武汉、拉萨、无锡。官方表示,作为春节申遗成功后的首届总台春晚
2024-12-24 21:35:00