• 我的订阅
  • 头条热搜
Kimi视觉思考模型k1发布:数理化超越OpenAI o1、GPT-4o
快科技12月16日消息,今日,月之暗面国产大模型Kimi发布视觉思考模型k1,k1基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。k1已陆续上线最新版Kimi智能助手的Andro...……更多
能看风水 夸我有情趣 Kimi现在都这么野了吗
...视觉能力,意思就是可以直接拍照上传解题,还号称能在数理化上打平甚至超越 Open AI 的 o1 。那要是这么比的话,咱可就来劲了。正好, k1 新模型现在也不需要等内测, App 和网页版都能用上,话不多说,我们直接开整。上来...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」Yann LeCun 也对他们的...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型(VLM)——PaLI-3,该模型与相似的体...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...提出了一种新框架AligNet,通过模拟人类判断来训练教师模型,并将类人结构迁移到预训练的视觉基础模型中,从而提高模型在多种任务上的表现,增强了模型的泛化性和鲁棒性,为实现更类人的人工智能系统铺平了道路。近年...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
DeepSeek-VL2 开源:AI视觉模型迈入 MoE 时代
...公众号昨日(12 月 13 日)发布博文,宣布开源 DeepSeek-VL2 模型,在各项评测指标上均取得了极具优势的成绩,官方称其视觉模型正式迈入混合专家模型(Mixture of Experts,简称 MoE)时代。IT之家援引官方新闻稿,附上 DeepSeek-VL2 亮...……更多
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...璟发表主题演讲《迎接视觉领域的GPT-4时刻》,分享了大模型技术和应用层面的思考。他表示,今年以来大模型厂商密集的模型发布,意味着追求智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!扩散模型如何突破瓶颈? 成本高又难训练的DiT/SiT模型如何提升效率?对于这个问...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多
国网浙江电力:世界首个电力联邦学习国际标准获批立项
...力电力行业智能化转型。联邦学习是一种分布式人工智能模型训练技术。《基于联邦学习的电力视觉检测系统要求和框架》国际标准将联邦学习技术与电力视觉检测业务相结合,构建了一套分布式模型训练方法,能够有效解决数...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...构成威胁,Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。也有网友认为,苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为,开源模型加上移动设备的本地数据,即本地化的原生 LLM,...……更多
...但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别不同,语义分割模型能够为图...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
今日值得关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis:首个完全自主的纯视觉 GUI agentGoogle DeepMind:利用运动轨迹控制视频生成大模型数学新基...……更多
OpenAI发布文生视频模型Sora,奥尔特曼选取网友提示词
...凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。目前官网上已经更新了48个视频demo,在这...……更多
柴继军:AIGC趋势不容逆转,积极推动视觉大模型项目落地
...)总裁柴继军从AIGC时代内容产业的机遇与挑战、视觉大模型的应用落地角度,发表了题为“推动视觉大模型落地加速人工智能创新应用”的主旨演讲。柴继军表示,AIGC时代,摄影技术一样面临挑战,但必然是挑战与机遇并存。...……更多
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
【新智元导读】全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...又多了一个选择!今日,腾讯宣布旗下的混元视频生成大模型(HunYuan-Video )对外开源,模型参数量 130 亿,可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP,用户可在 AI 应用中的「AI 视频」板块申请试用。腾讯...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等...……更多
...暴增上千关注的,前所未见!”当DeepSeekR1方法遇上视觉模型会有什么新变化?“这个项目的灵感来自DeepSeek R1方法,其通过GRPO(Group Relative Policy Optimization)强化学习方法,在纯文本大模型上取得了显著效果。”赵天成表示。他...……更多
首创AI值守无人小店,浙江移动视觉大模型加速落地
...售应用的无人便利小店,基于中国移动自主研发的视觉大模型技术,有效解决了中小微门店人工贵、招人难、守店累的痛点问题,可以更智能地处理无人值守中遇到的复杂销售场景问题,为消费者创造了更轻松便捷的购物体验,...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D:无需训练的「...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活...……更多
更多关于科技的资讯:
广州作为国家中心城市和粤港澳大湾区的核心引擎,近年来在产业升级与科技创新方面持续发力,为高校毕业生提供了丰富多元的就业机会
2025-11-17 18:12:00
广州作为国家中心城市和粤港澳大湾区的核心引擎,正加速培育以科技创新为驱动的新质生产力。广州聚焦智能无人系统、具身智能、新能源与智能网联汽车
2025-11-17 18:13:00
近日,中粮集团旗下福掌柜品牌与知名川菜连锁品牌“龙人居”达成战略合作,联名推出“龙人居甄选”福掌柜非转基因压榨一级玉米胚芽油
2025-11-17 18:14:00
当下,文旅微短剧的市场呈现出蓬勃发展的态势。2024年微短剧市场规模已达505亿元,增速领先于电影等其他内容形态,成为内容领域的一匹黑马
2025-11-17 18:22:00
为切实履行金融机构反洗钱义务,富德生命人寿曹妃甸支公司创新宣传形式,将反洗钱知识融入客户服务全过程,取得了良好成效。在曹妃甸支公司服务大厅内
2025-11-17 10:19:00
近日,富德生命人寿涉县支公司的保险代理人带着精心准备的生日礼物,前往VIP客户家中慰问。这不仅是一场简单的生日拜访,更是富德生命人寿长期坚持“以客户为中心
2025-11-17 10:15:00
奋进的河北·“十四五”答卷丨身边的“十四五”(一):上下楼里的“上下游”
雄安新区之新,贵在创新,成在创新。“十四五”期间,雄安新区建成科创中心、中关村科技园等一批创新平台载体,智能网联、空天信息
2025-11-17 08:09:00
在山西焦煤西山煤电官地矿深邃的井下巷道中,23602工作面的转载机正以平稳强劲的动力输送着乌金。与以往不同的是,驱动这台关键设备的“心脏”已完成全新升级——沿用多年的传统“磁力启动器驱动”革新为“变频器驱动”
2025-11-17 07:09:00
厦门网讯(厦门日报记者 林露虹)电子数据取证领域的顶尖人才齐聚厦门,以赛促训强本领。昨日,“美亚杯”第十一届中国电子数据取证大赛(以下简称“美亚杯”)在厦门举行
2025-11-16 08:34:00
“原子级制造:前沿与应用”自然国际会议在宁举行操控原子可“按需造物”,南京已“先行一步”□南京日报/紫金山新闻记者张安琪11月11日至14日
2025-11-16 08:43:00
谁说养老只能慢节奏?记者带您解锁雄安颐养・智慧养老展示馆,三大科技彩蛋让你忍不住竖起大拇指!彩蛋1:AI健康管理机器人
2025-11-16 14:45:00
“先导杯”决赛在合肥打响 全国大学生比拼“智能计算”
大皖新闻讯 AI正在加速改变世界,但其根基仍在“算”。11月15日-16日,2025全国大学生计算机系统能力大赛——智能计算创新设计赛(先导杯)线下决赛及颁奖典礼在合肥举行
2025-11-16 14:46:00
从好房子到好生活:海尔智家以智慧重新定义未来人居
《晏子春秋》云:“君子居必择居,游必择士。”安居乐业,始终是中国人最朴素的向往。过去,一处遮风避雨的“安身之所”已是百姓慰藉
2025-11-16 15:16:00
海尔智慧家庭与小度达成全面战略合作
当智能家居行业从各自分散走向共创融合,一场新的家庭生活变革正在悄然发生。11月13日,百度世界2025于北京召开。现场
2025-11-16 15:18:00
张宣科技金属制品公司研发锌铝镁合金新产品
河北新闻网讯(董佳倩)近日,在张宣科技金属制品公司镀锌丝厂房里,一根根钢丝平稳浸入锌锅,然后裹着“银装”出锅上行,穿越配药箱之后
2025-11-16 16:19:00