• 我的订阅
  • 头条热搜
openai推出mle-bench新基准
...机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...g up 显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息,多模态大语言模型(MLLMs)应运而生,赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指...……更多
限定120分钟科研挑战,o1和Claude表现超越人类
...并且都有权限使用所需的计算资源,如GPU。然后,AI通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。执行结束后,每个环境都有一个评分函数,用于衡量Agent或人类专家提交的解决方案的效...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...Visual Question Answering, VQA)任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...eview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。在需要更强大推理能力的领域,人们更青睐 o1-preview。安全思维链(CoT)推理为安全和对齐提供了新的思路。Open...……更多
什么是AGI?人工智能的未来
...应用在了各个领域,比如:机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数...……更多
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...T-4控制的多样性。研究依赖于思维链和零样本学习,允许自然语言直接转换为机器人动作。(来源:“量子位”微信公众号)《微软小模型击败大模型:27亿参数,手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2,它在...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...数十到数百个任务。如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多个方面,包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...过现在有了Gemini,一切就变得简单了起来。 首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:只需片刻时间,Gemini就能找到相关论文和非相关的论文。而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。最后……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...本的输出,每个都包含思考和回答部分。且思考过程采用自然语言形式,便于解释和利用预训练知识。然后系统会将这些输出中的回答部分(不含思考过程)提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...士生 Ruochen Li,指导作者为其博士生导师 Xinya Du,专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上,其问题生成工作入选最具影响力的 AC...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。 最初版本Grok-0仅拥有330亿参数,经过数次改良后的Grok-1拥有3140亿参数,是当时全球参数量最大的开源大语言模型。即便这些参数在给定token上的激活...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。另一点与大多数模型...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...这时就会起到负作用。作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在...……更多
一个弹窗整懵Claude,瞬间玩不转电脑了
...大学助理教授,今年的斯隆奖得主。她对具有社会意识的自然语言处理感兴趣。她的研究将语言学、社会科学与机器学习相结合,以解决少样本学习以及网络霸凌等社会问题。 她曾在2013年毕业于上海交通大学ACM班,并取得计算...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...的问题。特别是要反映人工智能问题中的神经网络运算、自然语言处理能力。4、评测程序包含必要的多机通信,因为是一个大的系统,由多机连起来的,需要有通信。最后,以清华大学为主的团队做了一个AIPerf来测试,于2020年1...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
摘要:评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 ...……更多
更多关于科技的资讯:
国内首个数字文娱新空间内容分发管理系统正式上线!
2025年11月20日,在上海市文化和旅游局指导下,由上海交大提供技术支持、上海市数字文娱新空间技术创新中心与遥在科技联合研发的国内首个“数字文娱新空间内容分发管理系统”
2025-11-24 19:35:00
智芯引领 生态共赢
11月18日,“智芯引领 生态共赢”国产化终端及服务器推介会在连云港市海州区成功举办。公安部第三研究所、连云港市及海州区相关政府部门
2025-11-24 16:50:00
深耕三国文化,灵犀互娱《三国志·战略版》实践中式美学的全球表达
2025年初,国务院办公厅印发《关于推动文化高质量发展的若干经济政策》,明确提出“加快培育具有国际竞争力的文化出口重点企业
2025-11-24 11:25:00
“肽”领全球!菏泽中食都庆通过白俄罗斯验厂审核,东欧市场再添新动能
鲁网11月24日讯日前,Richtek Ltd(大连睿骐生物科技)携白俄罗斯客户代表团莅临菏泽鲁西新区陈集镇中食都庆(山东)生物技术有限公司
2025-11-24 11:43:00
河北新闻网讯(翟磊)“四季度以来,企业订单稳定,月产能最大可达150万片。目前开通了5条智能化生产线,不仅产能得到了提升
2025-11-24 11:58:00
让真实被听见:猛玛助力百校学生记录当代中国
2025年,是《南风窗》“调研中国”项目的二十周年,一百支大学生团队深入全国各地开展田野调查。猛玛作为项目在全国高校的无线麦克风合作伙伴
2025-11-24 11:47:00
从福掌柜包装焕新,看“中国守味人”的文化赋能与商业远见
近年来,中国餐饮行业从规模扩张迈向高质量发展的新阶段,餐饮供应链的品牌化成为大势所趋。在此背景之下,中粮餐饮旗下产品品牌福掌柜率先启动全线产品包装焕新
2025-11-24 11:57:00
“好房子科技展”亮相首钢园 华为全屋智能担当“隐形力量”
“好房子科技展”在首钢园正式开放海外网11月21日电 由住房和城乡建设部科技与产业化发展中心联合20余家单位共建的“好房子科技展”近日在北京首钢园8号馆正式开放
2025-11-24 09:53:00
2025年北京市职工数据安全管理员职业技能决赛成功举办
2025年11月23日上午,由北京市总工会、北京市人力资源和社会保障局主办,北京网络空间安全协会、北京市总工会职工服务中心
2025-11-24 10:17:00
灵光突破200万下载:首破百万用4天,再破百万仅2天
11月24日消息,通用AI助手灵光在上线6天总下载量突破200万:在首次破百万下载用时4天刷新纪录后,再破百万的时间压缩到了2天
2025-11-24 10:24:00
国内寿险行业头部企业——中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)始终坚持以人民为中心的价值取向
2025-11-24 11:00:00
摘要:本文系统探究了人工智能技术在影视美术创作及戏剧影视美术设计专业教学中的应用模式、核心价值与发展前景。通过对Midjourney
2025-11-24 07:00:00
医保制度的完善与发展不仅直接影响人民的健康福祉,还关乎国家医疗资源的合理配置与利用效率。然而,随着医保覆盖范围不断扩大
2025-11-24 07:00:00
厦门三展联动 显现整合资源拉动消费的集聚效应
境外客商参观2025厦门国际咖啡产业博览会。●ISPO亚洲运动用品与时尚展涵盖多领域户外装备展示,并设有行业分享论坛、新潮运动体验区
2025-11-24 07:53:00
厦门网讯(厦门日报记者 林露虹)独居老人在家中不慎跌倒,所幸家中安装的毫米波雷达设备迅速识别异常并触发警报,避免一场悲剧的发生……这一幕出现在今年热播剧《蛮好的人生》中
2025-11-24 07:54:00