• 我的订阅
  • 头条热搜
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于...……更多
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...图为《捉妖记》海报。 赵宜OpenAI开发的文(图)生视频模型Sora演示素材发布后,再次在全球范围引发了对生成式人工智能的迭代进化及内容生成能力的关注。它可以根据简单的文本指令生成长达60秒的高质量视频。这些视...……更多
百度发布两款大模型,对标DeepSeek、聚焦多模态
...模态大模型文心4.5,用户可上传包括文档、图片、音频、视频的文件,让AI进行解读。记者上传了一张《哪吒》电影视频截图,就此询问文心4.5,但AI没能给出正确答案,而是称这是来自迪士尼动画电影《公主与青蛙》中的场景...……更多
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
国产AI,正式把视频生成拉进了有声电影时代。自从Sora引爆视频生成之后,基本上所有AI生成的视频都属于“默片”的效果,也就是没有对应的音效(注意不是配乐)。但现在,音效是可以直接自带了!而且还是4K、60帧高清画...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色,但面对多模态信息时,却往往显得力不...……更多
大模型的未来,快手在自己身上找答案
...芳」数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短剧,台下欢呼声此起彼伏。对外界来说,AI 能力是抽象的,带货主播和短剧显得更有体感;一家 AI 驱动的科...……更多
不要小看「实而不华」的腾讯 AI
...双语输入及理解,具备多轮绘图能力,并对外开源;在生视频领域,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成,预计在第三季度可以实现 30s 视频生成,同时,腾...……更多
豆包“王炸”:字节跳动一天发布两款视频生成大模型
字节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。活动现场展示的视频生成效果令人惊叹。...……更多
...联社12月8日电,网达软件发布异动公告,近日市场对于AI视频生成、多模态模型等相关概念较为关注,公司目前的业务中尚不涉及“文本自动生成视频技术”,媒体提到的公司“视联网数字化智能平台”不涉及多模态模型。 ……更多
字节跳动为企业提供极具性价比的多模态大模型能力
...得一提的是,字节跳动还将在2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线目前,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终...……更多
字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频
快科技2月7日消息,近期,抖音集团旗下图片视频工具即梦AI在官方社交媒体上发布了一条新功能上线预告片。视频显示,新功能采用了全新的多模态视频生成模型OmniHuman,让用户仅需输入一张图片和一段音频,就可以生成一条...……更多
文博会观察:大模型为文化产业发展提供新机遇
...AIGC)成为备受关注的社会焦点和技术热点。以Sora为代表的视频生成技术把智能化生产范围从文字扩大至视频,而这些都离不开大模型的支持。大模型的发展将给文化行业带来哪些影响?第二十届中国(深圳)国际文化产业博览交易...……更多
顶流大模型应用!天工AI不炫技,实测真正的生产力工具
...让我可以直接使用在内容创作中。 同时,天工AI还支持AI视频转绘、AI音乐等多模态能力,大大提升了我的短视频创作效率和内容呈现效果。接下来,我们一起实操天工AI各项功能,邀大家一起测评,好不好用一试见真章。App:...……更多
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...迫(Diffusion-forcing)框架来实现协同优化。回顾过去一年,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展,但在提示词遵循、视觉质量、运动动态和视频时长的协调上仍面临重大挑战。现有技术在提升稳定的视觉...……更多
每日与世界30亿次交互!这家AI独角兽企业发布视频、音乐生成模型
输入一段简单的提示词,等待1—2分钟,可生成6秒的视频;没有伴奏,音乐模型也可以是实力歌手。8月31日,AI独角兽企业上海稀宇科技有限公司(以下简称MiniMax)“Link 伙伴日”在西岸漩心拉开帷幕。当日,MiniMax正式发布视...……更多
华为云盘古大模型5.0发布:可控时空生成技术重塑自动驾驶开发
...的可控时空生成,大规模的生成和实际场景相一致的驾驶视频数据,有机会重塑自动驾驶的开发。华为云盘古大模型5.0可控时空生成技术(STCG),赋予了模型理解并遵循物理规律的能力,这意味着,生成的视频不仅在视觉上逼...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...知识的深度学习和应用;「跨媒体大模型」还涉及诗词短视频合成和化合物合成的不同领域,通过结合不同形式的数据进一步拓展了 AI 的边界。「如果每个学科都能拥有自己的专业大模型,并将这些模型相互连接,将形成一个...……更多
Sora为何没能诞生在中国?
...框内输入“中世纪小号手”,打开音效开关键,点击生成视频,一个4秒的AI生成视频便跃然于屏幕上。人们不仅能看到一个身穿中世纪宫廷服饰乐手的画面,还能听到乐手吹小号的声音。北京时间3月10日,硅谷一家AI初创公司Pika...……更多
李未可科技正式推出WAKE-AI多模态AI大模型
...-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。 该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互,同时多模态问答技术的加持,能实现所见即所问、所问即所得的精准服务。此...……更多
百模大战又添新势力!李未可科技将发布自研AI大模型
...模型平台。该模型具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该模型融合了人类意图理解和长期记忆机制,为用户提供超拟人的情感陪伴服务。同时,结合实时的全域数据及 LBS 信息采集处理,WAKE-AI 大...……更多
吉利星睿AI大模型正式发布 引领中国汽车进入全场景AI时代
...型相当于语言大模型的眼睛和耳朵,能够将语音、图像、视频、车辆信号等多种信息模态进一步理解,再打通语言大模型进行智能交互。而多模态生成大模型则相当于语言大模型的手和脚,能够将语音输出转化为多种模态信息,...……更多
视频生成群雄逐鹿,哪些重要问题待解?
...大模型峰会、AI Infra峰会,分会场将组织端侧生成式AI、AI视频生成和具身智能三场技术研讨会。主会场与分会场外则设有展览区。50+位嘉宾将在大会上带来致辞、演讲、报告和对话讨论,以前瞻性视角为大家解构和把脉生成式AI...……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...决方案,小米小爱同学为车主提供智能化交互体验。文生视频平台。“商汤在这么多年做了非常多视频、感知、理解的技术和内容,商汤关注如何把视频的生成做到可控。我们打造了文生视频平台,强调对人物的可控性、情绪的...……更多
全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型
...后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片。根据发布会最后的官方统计,完全聚焦于AI的这场主题演讲总共提到了121次AI。完全聚焦于AI的...……更多
通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通
...方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。据介绍,Qwen2.5-Omni采用Thinker-Talker双核架构。其中,Thinker 模块如同大脑,负责处理文本、...……更多
空间智能产业化加速 一线企业集体锚定百度智能云
...在内容生产领域,筷子科技作为国内领先的内容商业AIGC视频应用企业,携手百度智能云打造了行业首个内容商业AI智能体应用服务平台,通过百度智能云的AI赋能,该平台链接了内容团队编导、拍摄、剪辑、投放、管理等五大协...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...技术架构和精细化应用,以及多模态模型在图、文、音、视频方面的特色应用。 开悟大模型采用主流的transformer模型和扩散模型技术路线,针对不同行业场景训练了特色化大模型,具备六大亮点。 1.语言模型可控化,采用...……更多
只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?
...击。此前,谷歌已经对外放出了语音助手demo演示的预热视频,而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。 那么,OpenAI机关算尽、谷歌有备而来的多模态大模型,究竟有什么神奇之处?GPT-4o中的“o”代...……更多
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...了后来居上。在模型上,字节补全了图像、语音、音乐、视频、3D等不同模态的生成式AI模型;在应用上,豆包App已成为国内用户最多的ToCAI产品,截至11月底,累计用户规模已超过1.6亿,单日活跃用户接近900万。不知不觉间,字...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
...工大学 S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成...……更多
更多关于科技的资讯:
清华大学安徽校友会AI大数据专委会揭牌
大皖新闻讯 11月20日,清华大学安徽校友会AI大数据专委会揭牌仪式暨人工智能前沿洞察与产业创新论坛在中国视界举行。人工智能是安徽省十大战略性新兴产业之一
2025-11-21 12:23:00
中新经纬11月21日电 据中消协网站21日消息,近日,有媒体曝光了一批盗版剧APP,这些APP不仅盗用大量剧集资源,更会窃取用户个人隐私信息
2025-11-21 12:37:00
“消失的法老”回来了!“BesTV上海博物馆”今天上线 计划实现上海电视用户全覆盖
11月18日,“廿念不忘,帧帧日上——百视通成立20周年分享会”在国际会议中心举行。作为20周年重磅发布之一,由百视通与上海博物馆联合打造的“BesTV上海博物馆”产品正式亮相并登陆上海移动高清电视
2025-11-20 08:06:00
入住4年仍甲醛超标!福建卫视《现场》探访实录,解码智能门的健康升级路径
近日,福州居然之家王力安防门店迎来了一位特别的客人——消费者丁先生专程送来一面写有“贴心服务暖人心,智能监测护健康”的锦旗
2025-11-20 08:06:00
厦门网讯(厦门日报记者 林露虹) 近日,专注于毫米波雷达芯片研发的厦企——矽杰微电子(厦门)有限公司(简称“矽杰微电子”)完成C1轮增资
2025-11-20 08:29:00
厦门围绕“金鸡”品牌 在影视产业链上持续发力
陈铎(中)指导员工进行《活宝档案》动画制作。海丝(厦门)电影工业产业基地施工现场。 厦门网讯(文/图 厦门日报记者 邬秀君)走进位于软件园一期的继来之(厦门)人工智能研究院有限公司
2025-11-20 08:30:00
记者走基层|集装箱“搬上”无人车 解锁配送新技能
11月1日,在廊坊座头鲸科技有限公司智能制造基地,工作人员对蓝丁智能无人配送车底盘进行性能测试。 河北日报记者 刘 杰摄11月1日清晨
2025-11-20 08:49:00
破局之法,精耕之道 《精耕者访谈》第三季·区域之王重磅开启!
11月18日,由蓝河乳业独家冠名的《精耕者访谈》第三季·区域之王正式启动。作为母婴行业首个高端访谈栏目,其始终着眼于市场一线
2025-11-20 09:06:00
北京博大健康体检管理中心盛大启幕 以“科技+精准”重新定义健康管理新标杆
11月18日上午,北京博大健康体检管理中心(简称“博大体检”或“中心”)在京举行开业典礼,正式落地北京经济技术开发区南海绿茵国际园区
2025-11-20 09:06:00
以儿童为本——赖园青的幼儿教育科学实践之路
在人工智能与教育深度融合的浪潮中,如何让技术真正服务于幼儿认知发展?上海浦东新区民办普瑞姆幼儿园园长赖园青用贯穿理论与实践的智慧教育探索
2025-11-20 10:06:00
山东移动招远分公司秋冬宽带服务义诊暖心启动 专业服务守护数字生活
胶东在线11月19日讯(通讯员王少娜徐冰鑫)秋冬时节,居民居家上网需求激增,网络卡顿、信号盲区、设备老化等问题更易影响用户使用体验
2025-11-20 10:17:00
四梯科技重磅发布智能产业工程师证书项目 推动教育科技人才一体化发展
2025年11月14日,在深圳第二十七届中国国际高新技术成果交易会第二届产教融合与科教融汇论坛上,北京四梯科技有限公司(以下简称“四梯科技”)首次面向社会正式发布“四梯智能产业工程师证书项目”(4T SIEC)
2025-11-20 11:37:00
一屏承古韵,元景越千年!联通数智重构文博文创新范式的野望
11月17日,“中华文明起源系列——‘看·见殷商’”展览总结暨博物馆高质量发展研讨会在北京大运河博物馆举行。会上回顾了“看·见殷商”展览的创新实践
2025-11-20 12:07:00
名创优品斩获国际零售地产大奖MAPIC 2025\
在法国戛纳举办的 2025 年全球零售商业地产峰会大奖(MAPIC Awards)中,名创优品凭借其MINISO LAND战略级店态
2025-11-20 14:38:00