• 我的订阅
  • 头条热搜
openai推出mle-bench新基准
...机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。IT之家注:Kaggle是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle提供各种类型的比赛,包括数据预测...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...g up 显著推动了大语言模型(LLMs)研究的发展,展示了在自然语言处理(NLP)中推理和泛化能力的显著进步。为了理解多模态信息,多模态大语言模型(MLLMs)应运而生,赋予 LLMs 视觉指令跟随和场景理解的能力。受 MLLMs 在通用...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指...……更多
限定120分钟科研挑战,o1和Claude表现超越人类
...并且都有权限使用所需的计算资源,如GPU。然后,AI通过自然语言处理和编程能力来执行任务,而人类专家则通过编码和实验来完成任务。执行结束后,每个环境都有一个评分函数,用于衡量Agent或人类专家提交的解决方案的效...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...Visual Question Answering, VQA)任务要求模型根据输入的图像和自然语言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入...……更多
什么是AGI?人工智能的未来
...应用在了各个领域,比如:机器视觉(CV)、语音识别(ASR)、自然语言处理(NLP)。但将AI能力应用到各种场景细分的不利后果是:我们现在依然需要程序员或者数据分析师才能实现场景下特定的目标,而不是我们构建了类似智能人脑...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...eview 的受欢迎程度远远高于 GPT-4o。然而,o1-preview 在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。在需要更强大推理能力的领域,人们更青睐 o1-preview。安全思维链(CoT)推理为安全和对齐提供了新的思路。Open...……更多
Pika爆火,但AI视频还没到「GPT时刻」;首个GPT-4驱动的人形机器人;微软小模型击败大模型丨AI新零售早报
...T-4控制的多样性。研究依赖于思维链和零样本学习,允许自然语言直接转换为机器人动作。(来源:“量子位”微信公众号)《微软小模型击败大模型:27亿参数,手机就能跑》微软发布了一个仅有27亿参数的小型模型Phi-2,它在...……更多
CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升
...隆大学硕士生贾雪莹。虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数...……更多
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界
...数十到数百个任务。如何解决呢?近年来,大语言模型在自然语言处理及各类任务的代码生成方面不断取得重大进展。同样,LLM 已经应用于机器人的多个方面,包括用户界面、任务和运动规划、机器人日志总结、成本和奖励设...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...过现在有了Gemini,一切就变得简单了起来。 首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:只需片刻时间,Gemini就能找到相关论文和非相关的论文。而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说了,但是依旧算...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...igLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP 的 PaLI 在各种多模态基准测试中表现出卓越的性能,特别是在定位和文本理解方面。相关研究论文以“PaLI-3 Vision Language Models: Smaller, Fas.……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama 3 8B。最后……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。论文标题:Benchmarking Trustworthiness of ...……更多
开闭源模型「大乱斗」:看看哪个智能体最能窥见人类真实意图
...该工作首先引入了 Intention-in-Interaction(IN3)这一全新的基准测试,旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架,基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性,询问用户意图,并在启动下游智...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...或图像中物体检测及视觉定位。 三位一体,高效能打通自然语言、图像等多模态任务处理“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...本的输出,每个都包含思考和回答部分。且思考过程采用自然语言形式,便于解释和利用预训练知识。然后系统会将这些输出中的回答部分(不含思考过程)提供给一个评判模型来打分。评判模型可以是像ArmoRM这样直接对单个回...……更多
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
...士生 Ruochen Li,指导作者为其博士生导师 Xinya Du,专注于自然语言处理、深度学习和大语言模型的研究。Xinya Du 的工作发表在包括 ACL、EMNLP 和 ICLR 在内的顶级自然语言处理和机器学习会议上,其问题生成工作入选最具影响力的 AC...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。 最初版本Grok-0仅拥有330亿参数,经过数次改良后的Grok-1拥有3140亿参数,是当时全球参数量最大的开源大语言模型。即便这些参数在给定token上的激活...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。另一点与大多数模型...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...全的策略? 当前安全强化学习的应用进展如何? 有哪些基准测试可以用于评估安全强化学习的性能? 未来安全强化学习面临的挑战是什么?二、安全强化学习的研究方法研究者们提出了多种方法来处理安全强化学习的问题,可...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
...这时就会起到负作用。作者建议,明确指示模型在产生与自然语言交错的响应后,生成用于自我验证的测试来自对齐基本模型。具体来说,对于每个指令,基本模型对格式的多个输出(响应、测试)进行采样,然后过滤掉那些在...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域,包括带有文本和照片的文档、图表或屏幕截图上,GPT-4展示了与纯文本输入类似的功能。它还可以通过为纯文本语言模型开发的测试...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...的问题。特别是要反映人工智能问题中的神经网络运算、自然语言处理能力。4、评测程序包含必要的多机通信,因为是一个大的系统,由多机连起来的,需要有通信。最后,以清华大学为主的团队做了一个AIPerf来测试,于2020年1...……更多
更多关于科技的资讯:
近日,AI眼镜热潮再度来袭。AI眼镜是集成AI语音助手、蓝牙耳机、翻译、导航、墨镜、出行、聊天服务等功能的可穿戴设备。业内普遍猜测
2025-01-04 11:03:00
调查:87%中国人对日本印象不好 主要从抖音、微博获取日本信息
1月4日消息,你对日本的印象好吗,从实际调查情况来看,大多数都不是太好。日本民间非营利团体“言论NPO”与中国国际传播集团发布的调查报告显示
2025-01-04 11:15:00
洁面不紧绷:多芬第三代氨基酸洁面泡泡26元/瓶大促
多芬氨基酸洗面奶 160ml*2 瓶日常售价 104.9 元,今日下单赠旅行装 30g*2 支 + 官方立减 16 元
2025-01-04 11:15:00
宝莱坞诚不我欺!印度男子用舌头截停57次电风扇叶片创世界记录
1月4日消息,印度宝莱坞电影里,经常会出现一些身怀绝技的“神人”,刀枪不入对于他们而言都是小意思,实际上在现实生活中还有人玩的更花
2025-01-04 11:15:00
酒店行业低谷徘徊,存量酒店改造路在何方?
近年来,全球经济环境的不确定性以及旅游业的波动,给酒店行业带来了前所未有的挑战。加之消费者偏好的快速变化,酒店业正经历着一段艰难的低谷期
2025-01-04 11:24:00
在健康产业蓬勃发展的当下,善百年作为甘油二酯生产厂家脱颖而出,成为行业内的佼佼者,引领着甘油二酯产品的创新与发展潮流。善百年专注于甘油二酯的研发与生产
2025-01-04 11:36:00
九号远航家M3系列电摩发布:高端铅酸电池、6999元起
快科技1月4日消息,九号公司最新推出了远航家M3系列电动摩托车,售价6999元起。该车号称“高端铅酸电摩新标杆”,采用了“MAX级”制动配置
2025-01-04 11:45:00
提前泄密领克900:知名博主陈震同学公开致歉
快科技1月4日消息,昨晚领克全新旗舰SUV车型领克900正式发布,然而昨天上午,网络上就有该车的相关评测视频泄露偷跑。从视频内容可知
2025-01-04 11:45:00
提前泄密领克900 知名汽车博主陈震同学遭索赔500万:已收到律师函
快科技1月4日消息,昨晚就提前泄密公开致歉的汽车博主“陈震同学”发布最新消息,称已收到 “领克900我们违约发布事件”的律师函
2025-01-04 12:15:00
每日一图|高品质温州大黄鱼“游”进杭城
本文转自:人民网-浙江频道孙鹏
2025-01-04 12:16:00
热烈祝贺中昊科技跨境电商寄售平台正式上线
随着全球化人工智能、区块链、电商科技进程的不断推进,跨境电商已成为我国对外贸易的重要发展方向。近日,香港知名科技公司中昊科技有限公司正式推出的中昊科技跨境电商寄售平台(ZHTCEP)于2024年12月15日正式上线
2025-01-04 13:10:00
石头G30 Space/G30定档1月8日:行业首创五轴折叠仿生机械手
快科技1月4日消息,石头科技官宣将于1月8日召开发布会,推出两款新品:石头G30 Space、石头G30。其中,石头G30 Space是最新一代扫拖机器人
2025-01-04 13:15:00
AI大模型、具身智能机器人将集中亮相CES2025,搜狐科技观察团带你看展
全球规模最大、最具影响力的消费电子盛会——国际消费电子展(CES)即将再度来袭。创始于1967年的CES,由美国电子消费品制造商协会(CTA)主办
2025-01-04 13:30:00
韩国客机着火179人遇难 事故赔偿进度神速:每位遇难者获4000万元
快科技1月4日消息,据韩国媒体报道称,韩国客机事故,受害者赔偿额度约合人民币73亿元。据悉,失事飞机共投保约1.5257万亿韩元(约合人民币75
2025-01-04 12:45:00
一生难遇!原来2025是“完美平方年”
快科技1月4日消息,2025年已经拉开序幕,最近“2025是完美平方年”的话题引发热议。首先,2025是一个“完美平方数”
2025-01-04 12:45:00