• 我的订阅
  • 头条热搜
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...7.21705项目地址:https://ali-videoai.github.io/tora_video/一、三种模态组合输入,精准控制运动轨迹Tora支持轨迹、文本、图像三种模态,或它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。轨迹输入可以...……更多
豆包电脑版,原地封神了!
...工作流更加高效,也为日常学习带来了全新的方式。 多模态能力:语音、图片、音乐一站搞定豆包电脑版在模态能力上的投入更是值得一提。有幸拿到了内测机会,提前试用了它的全新语音功能,让语音对话和练习变得更加流...……更多
刚刚!字节跳动豆包上线图片理解,大模型走向多模态|钛媒体AGI
(图片来源:林志佳拍摄)国内活跃度最高的AI大模型应用正走向“多元化”。12月3日消息,钛媒体AGI获悉,字节跳动豆包日前上线了一项实用功能——图片理解。目前,豆包APP及豆包PC新增照片及相机按钮,上传图片后可识别...……更多
发展新质生产力看山西国企:当煤炭遇上AI,安全培训也能脑洞大开
...式。过去需要30天完成的复杂设备三维建模,如今借助多模态图像识别技术,仅需3天即可生成毫米级精度的数字模型。“这套实训模式最核心的地方是运用最新的AI图文生成及模型重塑技术。”郑云龙调出刮板运输机数字模型介...……更多
腾讯大模型战略全景亮相!混元大模型、知识库、智能体开发平台一应俱全,打造真正“好用的 AI”
...话AI体验。 今年以来,混元的迭代速度明显加快。在多模态生成领域,混元图像 2.0 率先实现“毫秒级”生图,混元3D v2.5凭借业界首创的稀疏3D原生架构,实现了可控性与超高清生成能力的代际飞跃。凭借技术的领先性和开放的...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...展现每一个动作的流畅过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多视角镜头切...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本...……更多
华为harmonyosnext重塑全新“星盾”安全架构
...的盘古大模型5.0版本,标志着人工智能技术在全系列、多模态、强思维三个方面的全新升级。盘古大模型5.0以其全系列的模型规格,为不同业务场景提供了定制化的解决方案。PanguE系列,拥有十亿级参数,专为手机、PC等端侧智...……更多
RTX 40系GPU AI性能首测
...IAACE技术Demo,它突破了游戏中NPC角色互动的界限,采用多模态方法来展示NPC,将认知、感知和行为系统集成在一起,以实现身临其境的叙事效果。在活动现场NVIDIA也展示了新版本的ChatRTX,增加了更多的功能,在新版本中它加入...……更多
数字人说武汉、AI画建议 两会现场注入科技“创新力”
...两会版数字人。武汉人工智能研究院大模型是全国产、全模态,除了语音、图像和文本,还可以识别视频、3D点云等模态数据,与长江日报联合开发武汉两会版3D数字人,进行大模型语料训练,更懂两会,更懂大武汉。代表委员...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
如何跑赢生成式AI竞赛?云计算大厂揭秘组合拳:自研大模型只是开胃菜
...),任意到任意则是更远的未来。任意到任意模型属于多模态到多模态,用户可以输入文本、语音、图像或视频等多种形式的内容,并相应地输出文本、语音、图像或视频。Vasi Philomin向我们解释说,任意到任意模型适用于变化...……更多
周鸿祎参演!“AI+影视”,即将爆发?
...可以用简单的自然语言和人进行交互,再到声音图像整个模态的生成,最后在视频创作方面的能力突破,今年有可能是“AI+影视”爆发的时期。AI声音合成技术,不仅适用于影视配音,还可用于有声书制作、播客创作、广告配音...……更多
江南观察|MCP协议赋能人机协同研究新机遇
...省精力,更加专注于核心任务创新。第二,实时感知,多模态协作。区别于传统API的“请求——响应”的交互方式,MCP协议允许服务器主动推送实时数据,这就可以让AI在未经过微调的情况下,更加准确的感知实时信息,降低大...……更多
...原生HTAP数据库,支持包括向量数据、时序数据在内的多模态数据管理和检索能。MatrixOne不仅实现了向量类型、向量搜索和向量索引功能,还通过其MatrixGenesis产品提供大模型托管和多模态检索服务,为企业搭建一站式生成式AI应...……更多
MediaTek发布天玑9300旗舰5G生成式AI 移动芯片,开启全大核计算时代
...型,完整的工具链助力开发者在端侧快速且高效地部署多模态生成式AI应用,为用户提供文字、图像、音乐等终端侧生成式AI创新体验。 天玑9300率先采用新一代旗舰12核GPU Immortalis-G720,与上一代相比,峰值性能提升46%,相同性...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...能够受邀参加36氪AI Partner大会。今天我的演讲主题是《多模态智能激发应用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简...……更多
...内瓦1月18日电 (记者 曾焱) 世界卫生组织18日发布的多模态大模型治理相关新指南说,人工智能在医疗卫生领域应用前景广阔,但同时也要防范其中可能出现的诸如“自动化偏见”导致的过度依赖等风险。作为一项快速发展的...……更多
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
...个面向不同细分领域(视频生成、音乐和同声传译)的多模态大模型,同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀:豆包视...……更多
吴泳铭官宣3800亿投入后,阿里云如何打AI这场硬仗?
...要的方向主要是两个,一个是Reasoning推理,一个是Omin全模态融合。”刘伟光提到。在应用方向上,这次大会,阿里云宣布推出AI Agent Store,从生成式AI向代理式AI发展,并表示将首先推动阿里旗下所有服务走向Agent(智能体)。此...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
多模态AI午前大涨,游戏ETF半日涨幅近4%
今日午前,多模态AI题材午前崛起,Sora方向领涨,其中,游戏ETF(516010)和游戏ETF(159869)半日涨幅分别达到3.95%和3.93%,领涨整个ETF市场。投资逻辑方面,日前,谷歌发布了基础世界模型Genie,Genie是一个110亿参数的基础世界模...……更多
...单前三!阿里通义千问Qwen2.5-Omni凭“能看能听能说”的全模态能力登顶全球开源模型榜首,深度求索DeepSeek的V3-0324在代码生成上碾压GPT-4.5,群核科技的SpatialLM把三维空间认知玩出了花。如今,杭州已经成了全球范围内少有的,...……更多
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet..……更多
Pika、阿里同日炫技!国产视频大模型奋起直追
...频,表情、五官、姿势都会产生非常自然的变化。在AI多模态领域,科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成,Sora的火热更是一石激起千层浪,同类产品发布你追我赶,战况之焦灼可见一斑。在该...……更多
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
新智元报道编辑:LRST【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学...……更多
AI视觉进入“大模型时代”不仅“看得见”还“看得懂”
...是你的家人、朋友还是陌生人。视觉大模型被“引爆”多模态AI学人类“感知”世界在本次CPSE安博会上,至少有六家头部企业推出了通用或行业大模型,或是展示大模型应用。郭威认为,视频大模型已成为继自然语言处理(NLP)之...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过GPT5、Claude Opus 4等,跻身全...……更多
更多关于科技的资讯:
鲁网11月21日讯为回馈客户,赋能业务高质量发展,近日,河东农商银行桃源支行联合辖内某药业集团举办“金冬时节·健康相伴”客户养生见面会
2025-11-22 09:34:00
灵光4天下载破100万,扩容8轮,刷新Sora2五天纪录
11月22日消息,蚂蚁灵光上线4天下载量突破100万,冲上App Store中国区免费榜第六。灵光首个百万下载速度超过ChatGPT
2025-11-22 14:13:00
知识带货热度高,历史作家梅毅在抖音直播间发布新书
知识带货热度不减,越来越多作家走进直播间推荐新书、好书。11月20日,知名历史作家梅毅(网名“赫连勃勃大王”)携新作《天命无常
2025-11-22 15:35:00
齐绘未来发布“快上岸”智能求职小程序,多项自主知识产权技术为大学生就业赋能
北京齐绘未来教育科技有限公司近日正式推出“快上岸”微信小程序,以多项具备自主知识产权的AI系统为核心,为大学生提供精准
2025-11-22 15:36:00
以开源聚合力,以生态促创新,电鸿走出行业操作系统自主路径
“在过去,去一次现场要带一大堆终端,以应对现场不同设备的接入。现在,只需一部手机和一箱基础工具就行。”来自广州南沙示范区运维工作人员的分享
2025-11-22 15:37:00
河北新闻网讯(李力芳)2025年7月份以来,河北建工省安装六分公司浙江八亿时空项目创新引入平台吊装系统、蜘蛛吊、电动遥控坦克等专业技术装备
2025-11-22 18:08:00
11月21日从太钢获悉,太钢近期硅钢产品订单在欧洲高端市场实现成功落地。此次出口的硅钢产品首次实现大卷重(15-17吨)和高牌号超宽规格(1250mm)供货
2025-11-22 18:20:00
校企携手研发新型电池 拓展长时储能应用新边界
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)11月20日,以“储能大时代,长时新蓝海”为主题的中国新型储能产业创新联盟2025年度大会在武汉召开
2025-11-22 19:06:00
必胜客中国业务进入快车道:门店突破4000家
2025年11月22日,百胜中国旗下必胜客在海南三亚举行中国第4000家门店的开业庆典。这一里程碑意味着必胜客在中国的布局进入新阶段
2025-11-22 22:32:00
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00