• 我的订阅
  • 头条热搜
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室...……更多
OpenAI「草莓」两周内发布?网传不是多模态,反应慢了10多秒
...图片,这意味着「草莓」还不像 OpenAI 其他模型那样是多模态的。目前大家见到的大模型都是多模态的,这似乎是「草莓」一个明显缺点。大家比较关心的还有定价问题。「草莓」的定价可能与 OpenAI 的聊天机器人不同,后者有...……更多
...好用”。5月14日,OpenAI在官网正式发布新旗舰模型GPT-4o多模态大模型,相较于4月发布的GPT-4Turbo速度更快、价格更便宜;5月15日,谷歌在I/O 开发者大会上发布了通用AI新模型Project Astra,可实现跨文本、音频、视频多模态实时推理...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和C...……更多
Manus和DeepSeek的差别是什么 谁更厉害:一文秒懂!
...用成本仅为同类产品的1/15,支持企业级规模化应用。多模态兼容:可处理高分辨率图像输入,但视觉模块尚未完善。Manus:执行型“全能打工人”技术架构:采用多智能体协作架构,通过虚拟机运行子Agent,整合工具链(如浏览...……更多
商汤营收恢复增长,亏损收窄至43亿元;CEO徐立回应DeepSeek影响
...来爆发。据了解,今年商汤将会量产交付基于地平线J6和英伟达Thor芯片的智驾方案,并与东风、奇瑞等车企合作。从研发看,去年商汤研发费用达到41.32亿元,同比增长19%,高于营收规模。这主要是商汤增加投资以训练及微调基...……更多
全面AIGC时代,豆包模型家族准备好了
...片、音乐、视频的AIGC全家桶共计13款模型,不断增加各类模态,并进入规模化调用时代。在4个月2次迭代的过程中,据火山引擎披露,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态...……更多
构建数字经济新引擎:枫清科技 高雪峰解读AI技术的未来趋势
...)创新性地推出了“一体两翼”产品矩阵,包括自研的多模态知识引擎与行业通用智能体平台,致力于构建未来通用人工智能(AGI)时代的核心数据基础设施,为企业提供大模型与知识引擎双轮驱动的解决方案。枫清·天枢多模...……更多
《保险AI智能体应用白皮书》发布,四层架构+七大场景定义行业智能新范式
...动保险行业从信息化实现向智能化的跃迁。智能体通过多模态感知、动态决策与持续进化能力,深度融合保险核心场景,实现从精准营销、智能核保到自动化理赔、风险预警的全链路赋能,成为行业突破传统瓶颈、构建第二增长...……更多
□川观智库研究员 黄爱林近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能...……更多
开源证券:多模态模型再迎新突破,继续布局AI应用及算力
...人运用在更多场景上创造可能。2、AI底层平台搭建完毕,英伟达IsaacAMR系统助力软件研发IssacAMR平台实现机器人全地形移动功能,帮助研发者专注软件开发。基于“NVDIA工具包”,IsaacAMR平台通过“虚拟环境仿真”训练方法,将“...……更多
Meta发布开源大模型Llama 4:首次采用“混合专家”架构
...两个的版本,名为Scout和Maverick。Meta表示,Llama 4是一个多模态大模型,它能够处理和整合各种类型的数据,包括文本、视频、图像和音频,并且可以在这些格式之间转换内容。Llama 4系列首次采用了混合专家(MoE)架构的模型,这种...……更多
大模型、物联网平台国际先进!浪潮智能生产两项成果通过科技评价
近日,浪潮智能生产自主研发的多模态智产大模型服务平台和工业智能物联网平台顺利通过山东省科技成果评价,达到国际先进水平。通过山东省科技成果评价多模态智产大模型:落地应用于多个行业多模态智产大模型服务平...……更多
刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI
(图片来源:林志佳拍摄)国内活跃度最高的AI大模型应用正走向“多元化”。12月3日消息,钛媒体AGI获悉,字节跳动豆包日前上线了一项实用功能——图片理解。目前,豆包APP及豆包PC新增照片及相机按钮,上传图片后可识别...……更多
... 家企业里面,有 10 家将主要基地设在了美国以外的地方,英伟达向 Cohere(加拿大)等 7 家企业出资,谷歌母公司 Alphabet 则向涉足视频生成领域的 Runway(美国)等 4 家企业出资。中国则在过去一年内新增了 5 家独角兽企业,包含...……更多
又一生成式AI助手将“登机”!谷歌发布多模态Bard助理,交互式AI时代近了?
...文本、语音或图像与Bard助理互动——换言之,其具备多模态功能。例如,当用户询问“本周我错过了哪些重要邮件”时,Bard助理会列出各项要点及具体内容,并附上具体对应邮件的链接,还可以帮助用户提取活动地址并在谷歌...……更多
...模型非常火,我们看到了OpenAI和Figure的联合演示,也知道英伟达最近在GTC 2024上宣布了Project GR00T计划。这其中,一个重要问题是,通用机器人必须拥有一套通用的模型。这样的模型有人叫它机器人基础大模型,也有人称为具身多...……更多
“试用完谷歌的新AI模型,再也不爱GPT”
...越 GPT-4 , Gemini 最特殊的一点是,它是谷歌带来的首个多模态大模型,也就是能不光能打字互动,也能进行语音、视频、图片的互动。按照谷歌的说法,现有的所谓多模态大模型,都是单独训练了文本、视觉和音频等模型,再把...……更多
Pika、阿里同日炫技!国产视频大模型奋起直追
...频,表情、五官、姿势都会产生非常自然的变化。在AI多模态领域,科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成,Sora的火热更是一石激起千层浪,同类产品发布你追我赶,战况之焦灼可见一斑。在该...……更多
谷歌大模型Gemini视频被质疑造假、夸大宣传,官方回应:演示内容有剪辑|钛媒体焦点
...现Gemini能实时地感知人类的动作、直接做出语音回应等多模态技术能力。然而,有多个消息称,这段制作的演示视频夸大了Gemini技术能力,被质疑造假、夸大宣传等,实际上手时发现Gemini并不能达到视频中的效果。同时,这类营...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
...布的一篇技术博客称,到2024年底,该公司将再购350000个英伟达H100GPU,算上其他GPU,其算力相当于近600000个H100。LLaMA3即将登场参数量或达1400亿在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。Meta全球事务...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...7.21705项目地址:https://ali-videoai.github.io/tora_video/一、三种模态组合输入,精准控制运动轨迹Tora支持轨迹、文本、图像三种模态,或它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。轨迹输入可以...……更多
星火大模型v3.5发布,带来七大能力提升
...为教师的“AI助手”。据官方介绍,星火智慧黑板具备多模态理解与推荐、全自然交互、虚拟人辅学、智慧化录课与分享等特性。其内置“板书同步模式”,教师使用粉笔在智慧黑板旁边的传统黑板上书写时,板书内容可以同步...……更多
一文看懂AI结果优化(AIRO)和生成引擎优化(GEO)的区别
...索引擎抓取)和“LLMs友好”(适配大模型语义解析)。(3)跨模态适配:针对文本、图像、视频等生成引擎制定差异化策略(如优化Midjourney提示词以关联品牌视觉风格)。三、应用场景与典型案例1.AIRO的典型场景消费决策引导:用户通过智...……更多
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
...山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。 最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持...……更多
苹果发布mm1.5-ui模型
10月13日消息,近日,苹果公司推出了300亿参数的多模态AI大模型MM1.5,该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则,着重探究在不同训练周期中混合各类数据对模型性能产生的影响,相关模...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...GenAI团队研发小模型,减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy,官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时,国内大模型也有不少进展,通义千问团队升级了视觉语言模型Qwen-VL,图片内文字处理能力得到提升。此外...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...一款名为 LVAFusion 的模块,旨在更高效、更准确地融合多模态信息。图 | 徐冬阳(来源:徐冬阳)自动驾驶在路上应该具备学习优秀人类驾驶员的能力,因为人类在面对多数场景的时候,可以迅速地定位在关键区域。为了提高端...……更多
...式的变革提供了可能。“空天·灵眸”是我国首个面向多模态遥感数据生成式基础模型,也是首个专为遥感领域打造的专业基础模型。自2022年首次推出后,空天院研究团队在“基础模型+下游任务”计算范式积累上持续探索。于...……更多
更多关于科技的资讯:
江南时报讯 翩翩起舞、精准踢球、熟练做家务……多才多艺的机器人是外贸领域新焦点,而让机器人动作灵活起来的“秘密”则藏在一枚枚手掌大的谐波减速器里
2025-12-08 22:40:00
江南时报讯 “订单催得紧,就怕资金审批慢耽误生产,没想到泗洪农商银行的授信流程这么快!”泗洪县某服装加工小微企业负责人陈先生由衷点赞
2025-12-08 22:55:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿自主研发的“矿井提升机液压制动油温度自动调节装置”创新成果投入运行
2025-12-08 19:33:00
虎鲸文娱人才创作基地落户陵水,助力海归青年创作者“回家筑梦”
日前,第七届海南岛国际电影节“青椰计划”特别活动——虎鲸文娱集团旗下大麦娱乐“海纳圆桌对谈”在三亚举行。虎鲸文娱集团正式宣布
2025-12-08 13:54:00
平台默认勾选开启、强制关联支付软件、开通容易取消难……网络上,有关免密支付的“吐槽”层出不穷,反映出消费者对加强支付业务安全管理的迫切愿望
2025-12-08 12:30:00
新闻纵深·冀货出海新探索|平乡自行车童车:从“贴牌代工”到“骑向全球”
平乡自行车童车出口销量占国际市场的百分之四十从“贴牌代工”到“骑向全球”阅读提示平乡县,被誉为“中国童车之都”。在这里
2025-12-08 08:26:00
杭州市康复医院近日组织开展第34个国际残疾人日宣传教育活动。“杭州市智能仿生假肢适配服务基地”在本次活动上揭牌成立。未来将为肢体残疾人提供智能仿生假肢适配相关服务
2025-12-08 09:24:00
米连科技率先跑通新赛道,成实时视频情感社交重要实践者与引导者
当众多社交平台仍在探索可持续的商业模式时,米连科技通过将“视频社交+实时互动”作为产品核心,不仅成功开辟了新的市场空间
2025-12-08 09:24:00
国际人才嘉年华2025(秋季)盛大启幕丨科创动能全景绽放,多元机遇职引未来!
《2025年世界人才排名》显示,香港已跃居全球第四、亚洲首位,彰显了港府近期在人才引进与培育方面取得显著成效。港府推行的多项人才计划累计收到申请逾52万份
2025-12-08 10:24:00
“苏新消费·暖冬购物季”正式启动 苏宁易购这波精彩 很给“利”
12月5日,2025“苏新消费·暖冬购物季”正式启幕,本次购物季将持续至2026年3月。重点围绕十三地市“苏品苏货”,结合“双12”
2025-12-08 10:28:00
工行河北省分行:金融“活水”浇开智造之花 为科技自立自强蓄能加力
从7人团队起步,到现已成长为年营收超40亿元的全国电气百强企业,科林电气在智能电网领域成果斐然。工行河北省分行以源源不断的金融活水和与时俱进的智慧服务精准滴灌
2025-12-08 10:36:00
近期,民生银行张家口分行全面开展“金融护航·幸福养老”主题宣传活动,以专业服务赋能养老规划,以暖心举措守护金融安全。多维布局
2025-12-08 10:41:00
王涵不是戴上面具之后才能放飞自我,而是那个看似放飞的自我其实是面具的产物。对于社会交往而言,认为需要加入或取消某种媒介才能体验交往的快乐
2025-12-08 10:54:00
人工智能不仅是一种技术,也是一个产业,更是一个时代。最近,AI杭州的目光纷纷投向钱江世纪城。先是长三角首个“芯-模-用”全链条AI产业社区芯模社区启航
2025-12-08 07:52:00
为期三天的消费狂欢落下帷幕!12月7 日,第六届杭州市中小商贸流通企业服务节暨2025惠民汽车消费季在拱墅区运河广场圆满收官
2025-12-08 07:52:00