• 我的订阅
  • 头条热搜
openai推出mle-bench新基准
...机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...g up 显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息,多模态大语言模型(MLLMs)应运而生,赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指...……更多
限定120分钟科研挑战,o1和Claude表现超越人类
...并且都有权限使用所需的计算资源,如GPU。然后,AI通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。执行结束后,每个环境都有一个评分函数,用于衡量Agent或人类专家提交的解决方案的效...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...Visual Question Answering, VQA)任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...eview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。在需要更强大推理能力的领域,人们更青睐 o1-preview。安全思维链(CoT)推理为安全和对齐提供了新的思路。Open...……更多
什么是AGI?人工智能的未来
...应用在了各个领域,比如:机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数...……更多
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...T-4控制的多样性。研究依赖于思维链和零样本学习,允许自然语言直接转换为机器人动作。(来源:“量子位”微信公众号)《微软小模型击败大模型:27亿参数,手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2,它在...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...数十到数百个任务。如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多个方面,包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...过现在有了Gemini,一切就变得简单了起来。 首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:只需片刻时间,Gemini就能找到相关论文和非相关的论文。而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。最后……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...本的输出,每个都包含思考和回答部分。且思考过程采用自然语言形式,便于解释和利用预训练知识。然后系统会将这些输出中的回答部分(不含思考过程)提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...士生 Ruochen Li,指导作者为其博士生导师 Xinya Du,专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上,其问题生成工作入选最具影响力的 AC...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。 最初版本Grok-0仅拥有330亿参数,经过数次改良后的Grok-1拥有3140亿参数,是当时全球参数量最大的开源大语言模型。即便这些参数在给定token上的激活...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。另一点与大多数模型...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...这时就会起到负作用。作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在...……更多
一个弹窗整懵Claude,瞬间玩不转电脑了
...大学助理教授,今年的斯隆奖得主。她对具有社会意识的自然语言处理感兴趣。她的研究将语言学、社会科学与机器学习相结合,以解决少样本学习以及网络霸凌等社会问题。 她曾在2013年毕业于上海交通大学ACM班,并取得计算...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...的问题。特别是要反映人工智能问题中的神经网络运算、自然语言处理能力。4、评测程序包含必要的多机通信,因为是一个大的系统,由多机连起来的,需要有通信。最后,以清华大学为主的团队做了一个AIPerf来测试,于2020年1...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...定律」和作为补充的「机器人第零定律」,这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来,OpenAI 已经在向着这个方向努力了。论文标题:Rule Based Rewards for Language Model Safety 论文地址:https://arxiv.org/pdf/……更多
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00
河北日报讯(许君强、李晴宇)9月24日,2025河北国际工业设计周辛集分会场活动在辛集市工业设计创新中心启动。此次分会场以“跨界融合·创新设计”为主题
2025-10-10 15:23:00
中新经纬10月10日电 题:这届年轻人,为什么抢着把“国宝”贴冰箱上作者 周慎 中国科大先研院人工智能文旅融合研究院执行院长十一黄金周刚过
2025-10-10 15:45:00