• 我的订阅
  • 头条热搜
openai推出mle-bench新基准
...机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...g up 显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息,多模态大语言模型(MLLMs)应运而生,赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指...……更多
限定120分钟科研挑战,o1和Claude表现超越人类
...并且都有权限使用所需的计算资源,如GPU。然后,AI通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。执行结束后,每个环境都有一个评分函数,用于衡量Agent或人类专家提交的解决方案的效...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...Visual Question Answering, VQA)任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入...……更多
什么是AGI?人工智能的未来
...应用在了各个领域,比如:机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...eview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。在需要更强大推理能力的领域,人们更青睐 o1-preview。安全思维链(CoT)推理为安全和对齐提供了新的思路。Open...……更多
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...T-4控制的多样性。研究依赖于思维链和零样本学习,允许自然语言直接转换为机器人动作。(来源:“量子位”微信公众号)《微软小模型击败大模型:27亿参数,手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2,它在...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...数十到数百个任务。如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多个方面,包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...过现在有了Gemini,一切就变得简单了起来。 首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:只需片刻时间,Gemini就能找到相关论文和非相关的论文。而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。最后……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...本的输出,每个都包含思考和回答部分。且思考过程采用自然语言形式,便于解释和利用预训练知识。然后系统会将这些输出中的回答部分(不含思考过程)提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...士生 Ruochen Li,指导作者为其博士生导师 Xinya Du,专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上,其问题生成工作入选最具影响力的 AC...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。 最初版本Grok-0仅拥有330亿参数,经过数次改良后的Grok-1拥有3140亿参数,是当时全球参数量最大的开源大语言模型。即便这些参数在给定token上的激活...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。另一点与大多数模型...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...的问题。特别是要反映人工智能问题中的神经网络运算、自然语言处理能力。4、评测程序包含必要的多机通信,因为是一个大的系统,由多机连起来的,需要有通信。最后,以清华大学为主的团队做了一个AIPerf来测试,于2020年1...……更多
一个弹窗整懵Claude,瞬间玩不转电脑了
...大学助理教授,今年的斯隆奖得主。她对具有社会意识的自然语言处理感兴趣。她的研究将语言学、社会科学与机器学习相结合,以解决少样本学习以及网络霸凌等社会问题。 她曾在2013年毕业于上海交通大学ACM班,并取得计算...……更多
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...定律」和作为补充的「机器人第零定律」,这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来,OpenAI 已经在向着这个方向努力了。论文标题:Rule Based Rewards for Language Model Safety 论文地址:https://arxiv.org/pdf/……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。 Gemini是谷歌各个团队大规模合作的成果,包括谷歌研究院的研究者,这个模型从发布之初就定位为原生多模...……更多
更多关于科技的资讯:
海外媒体发稿:品牌出海的“流量密码”
出海浪潮中的品牌挑战在经济全球化的大背景下,品牌出海已然成为众多企业寻求突破与发展的重要战略选择。越来越多的中国品牌将目光投向海外
2025-03-11 23:37:00
谋划“十五五”数字化转型关键行动 广药集团与华为签署全面战略合作协议
2025年3月10日,广州医药集团有限公司(以下简称“广药集团”)与华为技术有限公司(以下简称“华为”)在华为东莞松山湖基地签署全面战略合作协议
2025-03-11 23:41:00
雷诺CEO:欧洲汽车业应向中国学习 避免彻底落后
快科技3月11日消息,据新华社报道,法国《法兰西西部报》近日发表题为《雷诺集团负责人卢卡·德·梅奥:“中国人教会了我们什么”》的文章
2025-03-11 23:49:00
经济大省挑大梁丨千方百计开拓市场 外贸企业抱团出海抢单忙
今天,韩国国际模具及相关产业展在首尔举行,黄岩十多家模具企业首次组团参展,不少企业都带来了各类汽车模具、精密电子模具等最新产品
2025-03-12 00:04:00
丰田、日产们终于想通了 开始搞国产车换壳了
在国内市场被暴揍了这么多年以后,合资的车企们好像终于想明白了。就在最近这一两个星期,咱们很熟悉的日系御三家:丰田、日产和本田纷纷在国内发布了自家的纯电动新车
2025-03-12 00:19:00
《白雪公主》真人电影新片段和海报:皇后送公主毒苹果
近日迪士尼真人电影《白雪公主》新片段,以及杜比和IMAX版等新海报发布,片段展示了白雪公主与皇后的谈话。海报则展示了皇后送白雪公主毒苹果的场景
2025-03-12 00:19:00
稚晖君和机器人 离不开自行车
2021 年 6 月,稚晖君在 B 站上发布了一条「自动驾驶自行车」的视频,一经推出迅速火爆,也让他后来成为人们口中的「华为天才少年」
2025-03-12 00:19:00
小米15 Ultra首销量翻倍!6000-8000价位第一 创历史新高
快科技3月12日消息,小米15 Ultra在3月3日正式首销,一周时间过去,有第三方机构的数据显示,该机首周销量对比前代直接翻倍
2025-03-12 00:19:00
这些平顶山就像天空之岛!是失落的世界 到处是食肉植物
在南美洲北部国家委内瑞拉雨林的深处,有一些神秘的山脉,这些山脉是完全平顶的,而周围由几乎完全垂直悬崖构成,整座山就像一块凸起的桌子一样
2025-03-12 00:19:00
中国首个商业中型可回收火箭!蓝箭航天星云一号整机试车圆满成功
快科技3月11日消息,2025年2月22日,深蓝航天自主研发的星云一号火箭配套二子级液氧煤油真空发动机“雷霆RV”进行了第二轮整机试车
2025-03-12 00:49:00
第20万台小米SU7将在本周下线 工厂订单已排到明年
有数据分析师表示,截止2025年3月9日,小米汽车已经累计交付19.1万辆汽车,预计第20万辆小米SU7将在本周下线,下周正式交付给用户
2025-03-12 00:49:00
有了“长毛猛犸鼠” 我们真的能“复活猛犸象”吗
美国生物技术公司 Colossal Biosciences 在 3 月 4 日宣布,他们创造出了一批“长毛猛犸鼠”,称这是复活猛犸象的第一步
2025-03-12 01:19:00
龙芯CPU打造纯国产税务系统:中国银联都用它!
快科技3月12日消息,龙芯中科介绍了基于龙芯CPU处理器的纯国产税务系统信创方案,既满足了信创改造需求,也实现了税务系统的智能化升级
2025-03-12 01:49:00
本文转自:人民日报海外版夜幕降临,华灯初上,城市中大大小小的台球厅开始热闹起来。明亮的灯光下,一张张台球桌整齐排列,球杆碰撞声
2025-03-12 03:49:00
本文转自:人民日报海外版厉新建 杨占东在“AI+旅游”的发展过程中,我们要更多思考如何建立人与AI良好协作的新模式,AI的“聪明才智”必不可少
2025-03-12 03:50:00