• 我的订阅
  • 头条热搜
...理技术,整合图像识别、语音处理、GIS地理信息系统等跨模态技术矩阵,形成集非遗知识智能问答、图文内容自动生成、音视频智能解析、文化时空图谱构建于一体的全栈式解决方案。该模型具备文史溯源、文本生成与创作、非...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
大模型「标王」硬气:不做Sora ,要帮更多企业做出Sora
被神话的 Sora ,被低估的多模态。Sora 终于来了!只要是 ChatGPT Plus/Pro 用户,直接就能用上。至于效果 ......看完官方放出的 demo,网友大呼:不太行 !当人们对「超级应用」的热情被 Sora 浇上一盆凉水时,多模态应用已经悄咪...……更多
谷歌史上最强大模型!Gemini 2.0正式发布
...今为止功能最强的AI模型,带来了更强的性能、更多的多模态表现(如原生图像和音频输出)和新的原生工具应用。Gemini 2.0关键基准测试中相较于前代产品Gemini 1.5 Pro实现了性能的大幅提升,速度甚至达到了后者的两倍。支持图...……更多
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多
“大模型”时代 路凯智行如何Rock AI
...型,随着近几个月SORA的横空出世,融合语言与视觉的多模态模型也已初露峥嵘,但目前市面上的通用大模型并非“万金油”,面向垂直领域内的各类生成式AI应用还需要结合场景需求积累数据和构建定制化的模型。矿山无人驾驶...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
...大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多
...融合监控等多点发力,实现输电线路巡检从感知智能到多模态生成式智能的新跨域,为新型电力系统安全稳定运行提供坚强网架支撑。 ……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...VAR指出是因为自回归模型逐个预测token的行为不符合图像模态的特点,提出“next-scale prediction”范式,将视觉自回归建模为逐个预测更大尺度scale的token map。这一方式避免了原始基于next-token的自回归方案难以建模图像模态的问题...……更多
价格便宜75%!亚马逊推出全新大模型系列,3纳米自研芯片明年上市
...容。该系列包括六种型号,从纯文本模型Micro、低成本多模态模型Lite、高性能多模态模型Pro到预计于2025年第一季度推出的Premier,以及两款尚未确定发布时间的更先进模型Canvas和Reel。 据介绍,Nova 系列能够支持200种语言,Micro、L...……更多
高通aihub正式发布:支持75个ai模型
...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型(LMM)。在这一演示中,高通展示了一个超过70亿参数的LMM,其支持文本、语音和图像输入,并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给G...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。目前已在ICML、ICLR、ICASSP等机器学习顶会发表论文。代表作为Large-scale Contrastive Language-Audio Pretrai……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...并得到最终反馈标签。之后,设计了一种基于ViT和T5X的多模态Transformer模型RAHF,使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹配的热力图 使用卷积层和全连接层预测4个方面的评分 使用Trans...……更多
AIGC工具测评:生成式AI的产品表现如何
...力上也有了重大突破。更值得一提的是,GPT-4引入了“多模态”功能,支持图像和语音输入,甚至可以输出图片,大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格,其简洁的设计语言和优化的...……更多
...业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多
云知声盘中782.5港元超越港股高价股老铺黄金!25%增速、双场景落地显真章
...的生成式预训练模型“山海大模型”,2024年8月再推出多模态版本,实现图像、语音、文本融合处理,让机器具备“类人”场景理解力,全面对标国际一线水平。权威测评更印证其技术实力:2024年6月MedBench评测中,山海大模型以...……更多
长春“紫东长空”低空大模型正式发布
...布的“紫东长空”低空大模型,融合了“紫东太初3.0”多模态大模型的混合专家模型架构与深度推理能力,并针对国产化算力平台进行了深度优化,面向低空经济行业具备更加专业化、智能化、精细化的服务能力。具体来说具有...……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...)模型——能输入和输出文本、图像、音频、视频等任何模态的内容。这些模型均在Bedrock中提供,可微调和蒸馏。此外,AWS CEO马特·加曼宣布推出最新生成式AI实例Amazon EC2 Trn2,比当前基于GPU的EC2实例的性价比高出30%~40%。 苹果...……更多
大模型的未来,快手在自己身上找答案
...有 GPT-4o 不具备的表情和肢体动作,是一个真正意义的多模态输入输出的实时互动智能体。快手展位「AI 关小芳」数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...论文提名和最佳短论文奖等。其研究成果在生成模型和多模态学习领域受到了学术界和工业界的广泛认可。Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科学家,曾在微软研究院担任高级研究科学家。他的研究领域主...……更多
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多
苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像
...Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE可以理解用户下达的自然语言命令,进行Photoshop风格的修改、全局照片优化和局部编辑等操作。苹果公司和加...……更多
更多关于科技的资讯:
鲁网11月21日讯为回馈客户,赋能业务高质量发展,近日,河东农商银行桃源支行联合辖内某药业集团举办“金冬时节·健康相伴”客户养生见面会
2025-11-22 09:34:00
灵光4天下载破100万,扩容8轮,刷新Sora2五天纪录
11月22日消息,蚂蚁灵光上线4天下载量突破100万,冲上App Store中国区免费榜第六。灵光首个百万下载速度超过ChatGPT
2025-11-22 14:13:00
知识带货热度高,历史作家梅毅在抖音直播间发布新书
知识带货热度不减,越来越多作家走进直播间推荐新书、好书。11月20日,知名历史作家梅毅(网名“赫连勃勃大王”)携新作《天命无常
2025-11-22 15:35:00
齐绘未来发布“快上岸”智能求职小程序,多项自主知识产权技术为大学生就业赋能
北京齐绘未来教育科技有限公司近日正式推出“快上岸”微信小程序,以多项具备自主知识产权的AI系统为核心,为大学生提供精准
2025-11-22 15:36:00
以开源聚合力,以生态促创新,电鸿走出行业操作系统自主路径
“在过去,去一次现场要带一大堆终端,以应对现场不同设备的接入。现在,只需一部手机和一箱基础工具就行。”来自广州南沙示范区运维工作人员的分享
2025-11-22 15:37:00
河北新闻网讯(李力芳)2025年7月份以来,河北建工省安装六分公司浙江八亿时空项目创新引入平台吊装系统、蜘蛛吊、电动遥控坦克等专业技术装备
2025-11-22 18:08:00
11月21日从太钢获悉,太钢近期硅钢产品订单在欧洲高端市场实现成功落地。此次出口的硅钢产品首次实现大卷重(15-17吨)和高牌号超宽规格(1250mm)供货
2025-11-22 18:20:00
校企携手研发新型电池 拓展长时储能应用新边界
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)11月20日,以“储能大时代,长时新蓝海”为主题的中国新型储能产业创新联盟2025年度大会在武汉召开
2025-11-22 19:06:00
必胜客中国业务进入快车道:门店突破4000家
2025年11月22日,百胜中国旗下必胜客在海南三亚举行中国第4000家门店的开业庆典。这一里程碑意味着必胜客在中国的布局进入新阶段
2025-11-22 22:32:00
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00