• 我的订阅
  • 头条热搜
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域,并赋予更高可导航价值。 轨迹价值地图(Trajectory Value Map):赋予远离现有轨迹的区域更高的可导航价值。 通过对多源价值...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...一名的成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、具身智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间完成,导师为本文通讯作者赵波教授。此前,李飞飞老师提出了空间智能 (Spat...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...后他们基于此开发了智能体 Agent K v1.0,并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩,成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。 论文标题……更多
对话云天励飞董事长陈宁:2030年人类将实现AGI,推理芯片将是蓝海市场|钛媒体AGI
...搭载了国产 14nm 的边缘训推芯片Deep Edge10 Max,以及自研多模态大模型“云天天书”。陈宁在会上表示,离不开核心能力算法芯片化。而“深目”AI模盒的算力基础,来源于去年云天励飞推出的14nm Chiplet大模型训推芯片DeepEdge10 Max...……更多
小红书技术副总裁王晓博:大模型让AI越来越像人,更懂小红书的内容与用户
...力的建设。目前,小红书技术团队同时针对语言模型和多模态能力进行了综合研发,结合小红书自身的业务场景和需求,更早做了视觉理解大模型方向的技术攻关:在多模模型架构、多模态alignment和整个数据体系和视觉感知能力...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...,来源于经过数据治理、多维评测的数据工厂。为了将多模态能力搬上了手机,面壁智能还发布了多模态端侧模型MiniCPM-V。通过将手机调整为飞行模式来模仿野外无信号的情况,面壁智能演示了野外生存情况下人与MiniCPM-V的多模...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
更多关于科技的资讯:
雷军有对手了!余承东抖音粉丝数突破300万:刚入驻半个月
快科技12月284日消息,根据抖音平台显示,余承东抖音粉丝数目前已经正式突破300万。值得注意的是,余承东在12月12日晚才刚刚入驻抖音
2024-12-28 00:08:00
卢伟冰回应“REDMI汽车”:完全没计划
快科技12月28日消息,卢伟冰在年度总结直播中提到了汽车业务,还回应了网友呼声很高的REDMI汽车。他明确表示:完全没有REDMI汽车的计划
2024-12-28 00:08:00
天上掉下一堆黑色石头 泰国夫妻捡走后感觉身体倍棒
一次雷暴天气,让泰国南部的一个村庄震惊不已!一对夫妻在自家的棕榈种植园,发现了一堆大小不一、颜色是亮黑色的神秘岩石,总重量超过44磅
2024-12-28 00:08:00
淘宝杀到日本服 这次打的又是什么算盘
要说,国内哪家公司对电商这事儿情有独钟,想必非阿里莫属了。马老板上日本住了几年,结果那边的电商市场就被盯上了。这不,前阵子阿里巴巴国际在日本推了个 TAO
2024-12-28 00:38:00
本文转自:环球时报编者的话:近期,几家外卖平台陆续出台“防疲劳机制”,利用弹窗提醒、强制下线等措施减少“过度跑单”。这些机制在一定程度上是外卖平台主动推进骑手保障工作的新举措
2024-12-28 06:43:00
杭州江南实验学校操场的跑道边立了不少带有摄像头的设备,孩子们无论是跑100米,还是1000米,所有数据不需要体育老师掐秒表
2024-12-28 07:36:00
“乐奇,看一下我的水杯在哪里?”这个问题盲人姑娘蔡琼卉不是对着人说的,而是对着架在鼻子上的眼镜来说的。“你的水杯在你面前桌子的左下角
2024-12-28 07:36:00
李想复盘50多万的理想MEGA失利:从小到大三个原因
快科技12月28日消息,近日,理想汽车连续三日发布了“AI Talk”,理想汽车创始人、CEO李想接受了腾讯科技的采访
2024-12-28 07:38:00
本文转自:人民网-广西频道近日,南方电网广西梧州供电局信息中心成功开发上线电网全域作业自动化监控及“体外循环”风险预警系统
2024-12-27 23:04:00
网约车司机使用“甩位”外挂软件抢单:随意增加里程 小单可变大单
快科技12月27日消息,据央广网报道,近日,多地警方披露,网约车司机通过使用一种能够“甩位”的外挂软件,可以实现筛选订单
2024-12-27 23:38:00
本文转自:人民网-广西频道近日,在南宁市秀灵路77号的状元坡换电站,中国铁塔股份有限公司广西壮族自治区分公司(以下简称“广西铁塔”)维护主管杨凌霄正在进行日常巡检
2024-12-27 23:44:00
RTX 5090公版太奢华了!16+6+7相供电、14层PCB
快科技12月27日消息,RTX 5090显卡的PCB电路板、GPU核心先后曝光,现在又得到了更多细节,尤其是供电、功耗等
2024-12-27 19:08:00
张雪峰公司开年会“撒”现金:图书4个月线上卖了5000万
快科技12月27日消息,据媒体报道,近日,张雪峰公司“峰学蔚来”举办年会活动。活动现场,张雪峰现场摇奖,开启了多轮抽现金红包活动
2024-12-27 19:08:00
埃及两男子从海底偷数百件文物被捕 网友:考古队省心了
快科技12月27日消息,据报道,埃及最近逮捕两名男子,他们从海底盗取古代文物448件,其中包括硬币、雕像、斧头、青铜杯
2024-12-27 19:08:00
尊界S800为何用1.5T增程器 余承东:考虑过2.0T、但车头太重
快科技12月27日消息,鸿蒙智行首款百万级豪华轿车尊界S800已经申报,将提供纯电和增程两种动力类型,均分为双电机和三电机
2024-12-27 19:08:00