• 我的订阅
  • 头条热搜
科学家建立新评价基准,助力评估大模型数据分析能力
在大数据时代,自动数据分析已经成为跨技术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。就连英伟达科学家Jim Fan曾发文表示,合成数据...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...的提示进行匿名回答,并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中,o1-preview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...变人类与科学文献互动的方式。最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...证明,模型的自我提升可以摆脱对人类监督的依赖。 Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——Meta提出的Meta-Judge,FAIR能否实现fair?研究不重要,重要的是Meta FAIR这一波曝光率拉满了。元奖励(Meta-Rewar...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。- 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...元导读】最近,Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,并透露了后续Llama 4的更新方向。刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。OpenAI发布的一项匿名人类偏好评估显示,o1-preview在数据分析、编码和数学等推理密集型类别中,比GPT-4o更受欢迎,但在某些自然语言任务中,o1-preview并不是首选。这表明它并不适合所有用例,GPT-4o在文本生成方面仍保持优...……更多
全球AI安全评估测试有了新基准
...代表,蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会议发言中说。他进一步解释,可通过制定行业标准与指南,为开发和部署生成式人工智能系统的开发者和机构提供清晰指导;投入研发并开放保障生成式...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...Anna Veronika Dorogush,她毕业于莫斯科国立大学,曾在Yandex数据分析学院学习了数据分析,并在Google和Microsoft担任过软件工程师,此后她在Yandex担任机器学习系统负责人。6.FlutterFlow获得由Google Ventures领投的2550万美元……更多
GPT-4劲敌,谷歌进入高能+高产模式
...新技能,而不需要额外的微调。强学习能力、信息检索与数据分析能力使得在知识海洋中“海底捞针”由想象映照进了现实。根据官方发布的测试报告,当给定卡拉曼语(一种全球使用人数不足 200 人的语言)的语法手册时(500...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战...……更多
用「AI人」模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
...会学、社会政策、公共卫生、传播学)的77名社会和行为科学家设计,并测试了许多不同类型的实验治疗的效果(例如框架效应、显着性)主题、启动社会身份对一系列结果(如政治、文化和宗教态度、对少数群体的偏见、幸福...……更多
什么是AGI?人工智能的未来
...种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑的系统。因此,【人工智能】的重点从系统内在智能,转移到利用外部环境中的智能,需要程序员...……更多
...模型读懂地图;将打造地理科研协作大平台,以期让每个科学家和科研团队都可以拥有专属的地理大模型,能够与数百万科学家通过共享数据、模型、研究思路等方式协同工作。 ……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...先的大模型。结果发现,前者在涉及需要深厚专业知识和数据分析的任务,以及可信度和透明度等方面,比后者更具优势。总的来看,Claude 3 的诞生是 AI 领域发展的一个重要进展,由它带来的潜在应用也值得我们期待。但与此...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
深度剖析:谷歌、微软等AI巨头承诺的“自愿监管”做到了吗?
...评估并对数据集进行分析。谷歌 DeepMind 在推出可以帮助科学家的人工智能工具方面有着良好的记录,例如,AlphaFold 3 可以预测几乎所有生命分子的结构和相互作用。AlphaGeometry 解决几何问题的水平可以与优秀的高中生相媲美。Gra...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...汤科技官方微信公众号发布讣告,公司创始人、人工智能科学家、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效,于2023年12月15日23时45分去世。根据公开信息介绍,汤晓鸥出生于辽宁鞍山,...……更多
科学家研发AI睡眠模型,捕捉多导睡眠图数据特征,提升睡眠障碍
近日,澳门理工大学郭晶晶教授团队,提出一款名为 MSSC-BiMamba 的 AI 模型,能够捕捉多导睡眠图多模态数据特征,提升睡眠分期与睡眠障碍的诊断效率。图 | 郭晶晶(来源:郭晶晶)据介绍,考虑到多导睡眠监测的特点,该团...……更多
英伟达联手Zilliz发布全球首个GPU加速向量数据库
...公司阶跃星辰联合创办,前微软全球副总裁姜大昕任首席科学家。公司围绕金融信息服务、智能投顾、智能投研等场景,助力金融机构打造新质生产力。4、国家金融监督管理总局印发《银行保险机构数据安全管理办法》公开征...……更多
李飞飞最新报告:美去年AI领域私人投资是中国近9倍,中国仍是美最大竞争对手
...与现实世界相处。创建能够自主运行的人工智能系统,对科学家来说一直是挑战。新研究表明,人工智能自主运行性能正在不断提高,例如可以自主完成现实任务,包括在线购物和协助研究等。3.负责任的人工智能AI Index的最新...……更多
OpenAI官宣下一代更接近AGI模型开始训练!成立新委员会把控 AI 安全
...科学主管)、Matt Knight(安全主管)和 Jakub Pachocki(首席科学家)也将加入该委员会。此外,OpenAI 将聘请并咨询其他安全、安保和技术专家来支持这项工作,包括前网络安全官员、为 OpenAI 提供安全建议的 Rob Joyce 和 John Carlin。 ...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...s Conneau)突然宣布离职。而此前,OpenAI联合创始人、首席科学家伊尔亚·苏茨克韦(Ilya Sutskever),“超级对齐”团队负责人杨·莱克(Jan Leike),联合创始人约翰·舒尔曼(John Schulman),ChatGPT负责人Peter Deng等人都已先后离职….……更多
数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向
...务,从而提高工作效率和质量。数字员工利用现代技术和数据分析能力,融合AI、RPA、大数据分析、数字人及机器人等多重技术,通过自动化和智能化手段,为企业提供了一种新的劳动力和工作效率提升的工具。数字员工可以代...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
“牵手”氮元素,中非学者共赴可持续研究之旅
...持下,今年,浙江大学环境与资源学院教授谷保静与非洲科学家展开合作,试图回答这一极具挑战性的问题。小元素 搭桥梁氮元素是地球大气中含量丰富的元素。它使天空变蓝、土壤肥沃,是形成人体蛋白质的基础。然而,环...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...ind联合创始人谢恩·莱格(Shane Legg)将AGI的概念向计算机科学家们普及时[9],他将AGI定义为在认知任务上能取得类人表现的机器智能。但这一定义并未明确所指的任务类型和“类人”标准。除此之外,近期还有从学习任务或元认...……更多
更多关于科技的资讯:
增压好的热水器推荐:万和多款热水器待你选择
在城镇化加速与高层住宅普及的当下,老旧小区管道老化、高层建筑水压衰减等问题愈发突出,不少家庭正遭受 “细流澡”“忽冷忽热” 的沐浴困扰
2025-10-30 08:16:00
创新,是让世界重新认识中国制造
“创新”,这个词我们每天都在说。要让世界记住中国制造的创新,一定是要让人们能看得见、记得住、感受到。我给大家分享几个小故事
2025-10-30 08:35:00
河北日报讯(记者孙青)为激发青年创业活力,点燃青年创业梦想,日前,团石家庄市委正式启动“青年创业训练营——青年小店孵化计划”
2025-10-30 08:36:00
当故宫的红墙金瓦凝缩成书签的精致纹路,当敦煌的飞天壁画跃然咖啡杯的杯身,博物馆中的千年文明正通过文创产品打开新的传承通道
2025-10-30 08:44:00
校宝智慧校园发布招生智能化解决方案,为民办教育注入增长新动能
2025年10月29日,校宝智慧校园正式推出面向民办、国际化学校的招生智能化解决方案,包含流量获取、线索转化、组织建设与数据决策四大核心板块
2025-10-30 09:10:00
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话
近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人
2025-10-30 09:10:00
服务效能持续提升 中老年多元化保障需求凸显近日,中宏保险正式发布了《2025年第三季度中宏保险个险理赔服务报告》(以下简称"报告")
2025-10-30 09:10:00
AI+人工双核验:深瞳查重如何以精准核查守护科研诚信
在科研诚信日益重要的今天,图片查重已成为维护科研诚信的关键环节手段。作为国内首家推出图片查重服务的深瞳查重,深瞳查重始终将结果的准确性和可靠性放在首位
2025-10-30 09:10:00
德明利亮相安博会,推出面向智能安防的多维度存储解决方案
10月28日,深圳CPSE安博会在福田会展中心顺利开幕,展会聚焦AI与大数据的智能安防创新。德明利携工业级存储产品及多维矩阵方案亮相
2025-10-30 09:10:00
碧欧宝亮相2025德国品牌周,于外滩百年地标演绎德式健康美学
2025年10月23日,由德国工商总会主办的“Discover Germany 德国品牌周”在外滩百年地标老市府隆重启幕
2025-10-30 10:10:00
留学常用APP与交友软件推荐:学习、生活、社交一站式搞定
即将远赴海外求学,除了收拾行囊,在手机里提前装好实用的留学APP,也成了许多准留学生的必备功课。面对应用商店里海量的留学常用APP选择
2025-10-30 10:56:00
工商银行联合腾讯云发布《中国金融生成式AI多模态内容鉴伪与安全防御白皮书(2025)》
随着生成式人工智能浪潮全面兴起,金融行业在加速迈向“AI原生”时代的同时,也面临多模态深度伪造内容带来的新型安全挑战。利用生成式AI合成的语音
2025-10-30 12:08:00
片仔癀黄芩多肽洗护新品亮相漳州,以东方智慧开启舒缓新“净”界
10月23日,东方新国妆代表品牌——片仔癀化妆品,在品牌发源地漳州隆重举办黄芩多肽系列新品发布会。活动以“亮剑·向新而生”为主题
2025-10-30 12:11:00
灵芝孢子油三大品牌 2025年权威推荐与选购指南
灵芝孢子油作为养生市场的明星产品,其品质差异直接影响消费者体验。本文基于实测数据与行业深度调研,为您梳理灵芝孢子油三大品牌
2025-10-30 12:11:00
随着现代人久坐、运动损伤、年龄增长等因素影响,关节健康问题日益突出。据《中国骨关节炎临床流行病学调查报告》显示,中国40岁以上人群骨关节炎患病率高达46
2025-10-30 12:13:00