• 我的订阅
  • 头条热搜
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,支持更多模态的基础模型可以接受更灵活的输入信号,以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发,包含6141个数学问题,涵盖丰富的任务类型、推理能力和图...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...fusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。回顾过去……更多
商汤启动智慧医院建设示范样板工程
...第一医院、北京清华长庚医院,在行业内率先启动医疗多模态大模型赋能的智慧医院创新示范共创,打造由大模型“智慧中枢”驱动的智慧医院建设示范样板。2024世界人工智能大会(WAIC)期间,多方正式签约。作为医疗多模态...……更多
谷歌 VS OpenAI:当搜索霸主和屠龙少年迈入同一条河流
...、代码等方面的表现也都高过GPT-4。而作为首个「原生多模态」模型,在一系列多模态基准测试中,对标GPT-4V,Gemini Ultra 也展现出了先进的性能。图源:谷歌新闻稿在chatGPT发布一周年之际,谷歌通过 Gemini 赶了个晚集,想要再度...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...并得到最终反馈标签。之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹配的热力图 使用卷积层和全连接层预测4个方面的评分 使用Trans...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍,融资主要用于多模...……更多
刚刚,谷歌宣布35岁Keras之父Francois Chollet离职
...也是朝着实现强大人工智能工具访问民主化和加速创新多模态应用开发迈出的重要一步。Francois,感谢你所做的一切。你的贡献为机器学习框架和更广泛的人工智能领域留下了不可磨灭的印记。我们鼓励大家继续关注 Francois。 Fr...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...GenAI团队研发小模型,减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy,官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时,国内大模型也有不少进展,通义千问团队升级了视觉语言模型Qwen-VL,图片内文字处理能力得到提升。此外...……更多
提质降价,国产大模型加速奔跑
...主任工程师程莹认为,国产大模型技术在语言、视觉、多模态等领域持续突破,在文本、音频、视觉、3D等数据方面实现多模态统一,持续突破人工智能感知、理解和推理世界的能力边界。这些,拓展着大模型与各行各业融合的...……更多
马斯克 xAI 展示首个多模态模型 Grok-1.5V
...下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI ...……更多
鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持
...对用户指令的忠实性。具体而言,AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰,忠实地完成用户预设的目标,是一个尚待研究的问题,也是实际应用之前必须回答的问题。针对上述问题,本文以图形用户界面智...……更多
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...大学计算机系媒体所的二年级博士生,主要研究方向是多模态大模型与视频理解 ,在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文,曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术,特别是细...……更多
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
...。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示,通过使用多模态实时 API,开发人员可以创建实时、多...……更多
谷歌 Gemini 1.5 AI 模型再进化:成本更低、性能更强、响应更快
...了 Gemini-1.5-Flash-8B-Exp-0924升级版,进一步增强了文本和多模态应用。用户可以通过 Google AI Studio、Gemini API 和 Vertex AI(面向 Google Cloud 客户)访问新的 Gemini 模型……更多
AI智能体引擎加持:天玑9400让「完全体」AI手机提前问世了
...抓不住经典瞬间了。相比之下更加「基础」的能力,如多模态大模型的推理,也可以在手机端侧进行:无论是拍数学题让 AI 解题,还是看一张外文菜单让 AI 帮忙点菜,都是几秒钟就能办到的事。这一系列技术的驱动力,都来自...……更多
阿里大模型,再次开源大放送
...版让不少人都迫不及待想试试。并且还顺便问问,那个多模态大模型Qwen-VL-Max有可能开源吗?除此之外,还集成到了Huggingfacetransformers,以及同主流的十余个框架合作,从微调、部署、量化到本地推理一步到位。 01Qwen1.5开源此次...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...混元API服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。2024年年初,腾讯混元就宣布在国内率先采用MoE架构模型,总体性能比上一代密集模型提升50%。此后,腾讯混...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
快科技8月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...一款名为 LVAFusion 的模块,旨在更高效、更准确地融合多模态信息。图 | 徐冬阳(来源:徐冬阳)自动驾驶在路上应该具备学习优秀人类驾驶员的能力,因为人类在面对多数场景的时候,可以迅速地定位在关键区域。为了提高端...……更多
支付宝发布多模态医疗大模型:支持千亿级视觉识别
...快科技7月5日消息,在2024世界人工智能大会上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据悉,该医疗大模型的基石,源自蚂蚁集团自主研发的蚂蚁百灵大模型,这一先进平台不仅拥有“视听言...……更多
AI潮起 共筑数智之基
...大会上,中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座,并开放三大人工智能基地,加快大模型产业化、规模化发展,为数字中国建设注入更加强劲动能...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...模和处理,提升模型的准确性和专业能力,更好地适应多模态数据及复杂/特定任务计算。二是根据任务的需求灵活选择并组合适宜的专家模型,使得模型能够动态地适应不同的输入样本和任务场景,提高模型的灵活性、可解释...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...布Baichuan 3大模型,更好理解中文阿里巴巴开发的自主多模态AI代理MobileAgent上线苹果Vision Pro正式在美开售,库克称将很快登陆中国脑机接口公司Neuralink完成首例人脑植入手术 Hugging Face推出可定制AI个人助手苹果发布2024年Q1财报...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B都写在论文里
...为 Llama 3 开发过程的一部分,Meta 团队还开发了模型的多模态扩展,使其具备图像识别、视频识别和语音理解的能力。这些模型仍在积极开发中,尚未准备好发布,但论文展示了对这些多模态模型进行初步实验的结果。7、Meta 更...……更多
WOT全球技术创新大会2024北京站:探索AI 的无限可能
...里巴巴、Fabarta、商汤科技的三位老师带来精彩分享。多模态AIGC前沿探索专题竞技世界在直播亮点和舆情感知两个真实场景中,如何使用多模态AIGC在实际应用中获取价值?万物云如何通过结合文本和图像输入,利用AI算法自动生...……更多
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
...化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题,可谓是绞尽脑汁。目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法...……更多
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00