• 我的订阅
  • 头条热搜
科学家建立新评价基准,助力评估大模型数据分析能力
在大数据时代,自动数据分析已经成为跨技术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主要集中在深度学习、计算机视觉和多模态模型等方向,曾发表多项具有深远影响力的成果,例如AttnGAN、OSCAR...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...),还在技术报告中公布了详细的后训练方法。Ai2 研究科学家 Nathan Lambert(论文一作)的推文这份 70 多页的技术报告可以说诚意满满,非常值得详细阅读: Tülu 3 发布后,社区反响热烈,甚至有用户表示测试后发现其表现比 GP...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。就连英伟达科学家Jim Fan曾发文表示,合成数据...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...飞也曾短暂进入工业界,出任谷歌副总裁即谷歌云AI首席科学家。她一手推动了谷歌AI中国中心正式成立,这是Google在亚洲设立的第一个AI研究中心。并带领谷歌云推出了一系列有影响力的产品,包括AutoML、Contact Center AI、Dialogflow...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...变人类与科学文献互动的方式。最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至...……更多
​首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱
...工程师简化了上述所有复杂环节。它的目标不是取代数据科学家或工程师,而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中,人们仅用几个小时就能完成一周的工作。听起来有点像今年 3 月在 AI 社区爆火的首...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...证明,模型的自我提升可以摆脱对人类监督的依赖。 Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——Meta提出的Meta-Judge,FAIR能否实现fair?研究不重要,重要的是Meta FAIR这一波曝光率拉满了。元奖励(Meta-Rewar...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。OpenAI发布的一项匿名人类偏好评估显示,o1-preview在数据分析、编码和数学等推理密集型类别中,比GPT-4o更受欢迎,但在某些自然语言任务中,o1-preview并不是首选。这表明它并不适合所有用例,GPT-4o在文本生成方面仍保持优...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...元导读】最近,Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,并透露了后续Llama 4的更新方向。刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...Anna Veronika Dorogush,她毕业于莫斯科国立大学,曾在Yandex数据分析学院学习了数据分析,并在Google和Microsoft担任过软件工程师,此后她在Yandex担任机器学习系统负责人。6.FlutterFlow获得由Google Ventures领投的2550万美元……更多
全球AI安全评估测试有了新基准
...代表,蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会议发言中说。他进一步解释,可通过制定行业标准与指南,为开发和部署生成式人工智能系统的开发者和机构提供清晰指导;投入研发并开放保障生成式...……更多
什么影响大模型安全?NeurIPS\\\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...离 7 月 23 日 Llama 3.1 发布才刚刚过去 2 个月。Meta 首席 AI 科学家 Yann LeCun 也欢快地表达了自己的喜悦:「乖宝宝羊驼!」Meta 也借此机会重申了他们一贯的主张:「通过开源人工智能,我们才能确保这些创新能够反映和造福于其...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...新技能,而不需要额外的微调。强学习能力、信息检索与数据分析能力使得在知识海洋中“海底捞针”由想象映照进了现实。根据官方发布的测试报告,当给定卡拉曼语(一种全球使用人数不足 200 人的语言)的语法手册时(500...……更多
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
...会学、社会政策、公共卫生、传播学)的77名社会和行为科学家设计,并测试了许多不同类型的实验治疗的效果(例如框架效应、显着性)主题、启动社会身份对一系列结果(如政治、文化和宗教态度、对少数群体的偏见、幸福...……更多
什么是AGI?人工智能的未来
...种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑的系统。因此,【人工智能】的重点从系统内在智能,转移到利用外部环境中的智能,需要程序员...……更多
...模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。 ……更多
更多关于科技的资讯:
打工人花9.9万就能拥有一个机械太奶?
作者:橘总、嘴嘴首先向在大年初一还愿意点开文章的各位朋友,诚挚问一声“过年好”。朋友们,昨晚看春晚了吗?听说昨晚的春晚破了新纪录
2025-02-01 23:38:00
新春家电以旧换新选购指南(下篇):洗碗机首次进入国补名单;洗地机打起价格战
新春家电行情持续,消费者如何用好家电购新补贴? 2025年家电购新补贴延续,对于家电圈而言可谓喜闻乐见。一方面,消费者能够用更优惠的价格添置高品质的新家电
2025-01-31 22:04:00
澳大利亚科学院Branka Vucetic加入欧洲经济研究院
欢迎澳大利亚科学院院士、澳大利亚工程院院士、IEEE会士、中国政府友谊奖获得者、悉尼大学教授、悉尼大学电气与信息工程学院物联网与电信中心主任BrankaVucetic院士加入欧洲经济研究院
2025-02-01 01:09:00
本文转自:人民日报汇聚产业链条上各类高端产品——机器人搭载新算法(新春走基层)本报记者  刘诗瑶《人民日报》(2025年02月01日第 02 版)抬起手臂
2025-02-01 05:45:00
一个让小米和极氪法务都发文的汽车博主,终于……
8月份小米极氪对撞那个视频,我估计极氪当时都无语了,怎么自己吃着火锅唱着歌,这热油就扣到自己头上。以至于抽象到最终结果是
2025-02-01 16:43:00
新春走基层丨新春换新记:消费热潮“燃”起来
2025年“以旧换新”政策加力扩围,新增手机、平板、智能手表(手环)三类数码产品购新补贴。不用交旧手机,就可享受最高补贴500元
2025-02-01 22:02:00
红树林AI艺术万人展于春节启幕,探讨AI时代下的多元表达
大众网记者 潘超 青岛报道1月29日,三亚湾红树林度假世界迎来了一场隆重的艺术盛典——首届红树林AI艺术万人展暨今日未来馆AI艺术特展开幕式暨颁奖典礼举行
2025-02-01 16:01:00
长虹家纺签约奥运冠军,品质与荣耀同辉
长虹集团旗下长虹家纺荣幸地迎来了奥运冠军作为品牌代言人!这是一个令人骄傲的时刻,也是长虹家纺品牌发展历程中的重要一步。奥运冠军代表着拼搏
2025-02-01 10:03:00
信家家居集团董事长谭健民先生推动家居装饰环保理念的深度剖析
谭健民,作为信家家居集团的董事长,不仅是一位杰出的企业家,更是一位对家居装饰环保理念有着深刻理解和积极推动的行业领袖。在他的引领下
2025-01-31 20:40:00
新春家电以旧换新选购指南(上篇):空调、洗衣机均价下降;电视、油烟机涨价
新春家电行情持续,消费者如何用好家电购新补贴? 2025年家电购新补贴延续,对于家电消费市场而言可谓喜闻乐见。一方面,消费者能够用更优惠的价格添置高品质的新家电
2025-01-31 22:04:00
乙巳新春,杭州钱江新城商圈年味萦绕。31日中午11时,杭州万象城六楼“醉玖兰亭”餐厅响起了排队叫号声。餐厅品牌市场部负责人胡秋云和同事们忙得脚不着地
2025-02-01 08:52:00
华为重磅新品曝光!比三折叠手机还更科幻...
近日,华为终端BG CEO余承东在直播中主动爆料,透露了一款即将发布的重磅新品。这款神秘的产品将打破常规,足以引发全国人民的抢购热潮
2025-01-31 20:09:00
余承东晒智界R7硕大后备箱:从家乡回深圳带了两大箱子鸡蛋
快科技1月31日消息,大年初三,余承东已经从安徽老家返程回深圳,这次他开上了智界R7,想要测试一下这款汽车的能耗。路上
2025-01-31 20:09:00
春节档电影相关互撕引战频发 600余个账号被禁言
快科技1月31日消息,微博管理员发布社区公告称,站方发现,在春节档电影相关讨论中,有个别用户偏离理性讨论方向,发布拉踩引战
2025-01-31 20:09:00
智慧灯光秀为春晚舞台注入科技感
本文转自:人民网-重庆频道人民网重庆1月31日电 (记者胡虹)28日,万众期待的2025年央视蛇年春晚如期而至。在今年的春晚舞台上
2025-01-31 11:01:00