模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

智象多模态生成大模型3.0版发布

...合肥举行。现场，智象未来科技有限公司正式发布智象多模态生成大模型3.0版。智象未来创始人兼CEO梅涛发布智象多模态生成大模型3.0版。主办方供图“智象多模态生成大模型3.0版全面升级图像和视频生成能力。”据智象未来创...……更多

2024-12-28 17:41:00模态,生成,模型,模态,模型,生成

vivo OriginOS 5发布，加入想要的AI功能

...心大模型矩阵，核心的升级点，是加入了语音大模型、多模态大模型，升级的语言大模型、图像大模型等。其中语音大模型主要实现了自然对话、模拟人声、同声传译等功能。而图像大模型则是更加能理解中文语境创作，多模态...……更多

2024-10-12 19:46:00功能,功能,模型,系统,同声传译,智能

百模大战又添新势力！李未可科技将发布自研AI大模型

近期，36kr研究院发布了《2024年AIGC行业研究：多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技...……更多

2024-03-29 15:00:00势力,模型,大战,科技,模型,模态

首个免费多模态大模型API：GLM-4V-Flash上线智谱

...技术普惠的理念，在今天上线备受期待的第一款免费的多模态模型——GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力，更在图像处理上实现了精确度的提升。这一多模态免费模型将进一步降低开发者在各个领域深入...……更多

2024-12-12 09:49:00费多,模态,模型,开放,平台,模型

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

...文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍，此次更新中，HunYuan-Video模型经历了四项核心改进：1、引入超大规模数据处理系统，提升视频画质；2、采用多模态大语言模型（MLLM），...……更多

2024-12-04 09:49:00文生,腾讯,提示,建议,视频,生成

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态

史上首个实时AI视频生成技术：DiT通用，速度提升10.6倍

...注意力表现出与视频中的运动和动态相关的中频变化；跨模态注意力是最稳定的，将文本与视频内容联系起来，类似于反映文本语义的低频信号。基于此，研究团队提出金字塔式注意力广播来减少不必要的注意力计算。在中间部...……更多

2024-06-28 09:32:00实时,生成,速度,技术,视频,注意力

骁龙 8 至尊版到底有多强？我们总结了三大关键问题

...程，减少游戏中1%fps卡村，同时改善手机发热的状况。多模态AI支持有什么意义？简单来说，指令无需预处理，响应更快速。在骁龙8至尊版中，高通通过升级的HexagonNPU和AI引擎，进一步增强了设备端AI的多模态处理能力。这意味...……更多

2024-11-04 22:04:00关键,三大,问题,高通,处理,任务

文博会，最热是AI

...得不少观众跃跃欲试。其最新款以76克轻量化设备搭载多模态大模型与高通骁龙AR1芯片，并推出AI智能体应用商店，用户可通过眼镜实现实时语音和图像翻译、信息纪要、智能问答、物品识别、空间导航及第一视角影像创作等功...……更多

2025-05-27 11:05:00人民网,文化,智能,人民,模型,机器人

一文看懂AI结果优化（AIRO）和生成引擎优化（GEO）的区

...索引擎抓取)和“LLMs友好”(适配大模型语义解析)。(3)跨模态适配:针对文本、图像、视频等生成引擎制定差异化策略(如优化Midjourney提示词以关联品牌视觉风格)。三、应用场景与典型案例1.AIRO的典型场景消费决策引导:用户通过智...……更多

2025-03-16 20:57:00一文,生成,引擎,结果,品牌,生成

透视2025丨中国AI模型厂商已在特定领域形成一定优势

...统等等。而在AI大模型方面，最主要事件则是OpenAI推出多模态大模型ChatGPT-4o，这一版本具有实时处理和生成文本、音频以及图像等多种模态的能力，被誉为技术上一个巨大突破。事实上，中国在AI大模型方面也已有足够竞争力。...……更多

2024-12-26 21:56:00中国,模型,厂商,优势,领域,模型

山海启航，云知声迈向AGI新征程

...UniBrain）的核心“山海大模型”成功实现升级的同时，多模态感知、生成与知识图谱等全栈AI技术组件，也持续演进，保持行业领先优势：语音识别(ASR)方面，语音识别(ASR)方面，云知声在2023年某国际芯片巨头的技术POC（原型验证...……更多

2024-02-04 11:00:00山海,征程,模型,山海,应用,技术

不要小看「实而不华」的腾讯 AI

...未来的战略思路。01模型侧：基础模型能力升级，构建多模态能力首先是基础模型方面，5 月 17 日的峰会上，腾讯混元介绍了其多尺寸的 LLM 模型矩阵。其中，最大模型已拓展至万亿级参数规模，并在 1B、3B、7B、13B 等不同参数量...……更多

2024-05-21 21:25:00腾讯,腾讯,模型,能力,广告,视频

微软宣布Team Copilot发布，年内将推出初步预览版

...型GPT-4o，现已在AzureAIStudio中提供，并作为API提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式AI体验。此外，由微软开发的Phi-3列AI小型语言模型（SLM）中的一种新型多模态模型Phi-3-vision现已...……更多

2024-05-22 20:01:00微软,微软,纳德拉,纳德,模型,功能

联通元景大模型亮相2024年中国品牌日打造产业智能化新范式

...供互联网实时资讯问答以及更好的数学计算等服务。在多模态大模型的视觉能力方面,工作人员分别提供了不同场景的视频和图片,“元景看见”迅速对视频、图像画面进行实时识别理解,并以文字描述方式呈现出来。除通用视觉能...……更多

2024-05-13 15:00:00范式,中国,模型,智能,产业,品牌

推动终端侧AI发展 MWC2024高通带来多项全球首发

...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型（LMM）。多模态指AI模型不仅能够接受文本输入，还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM，其支持文本、语音和...……更多

2024-02-29 10:14:00高通,终端,发展,全球,高通,模型

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...赋予「天工3.0」超强的性能表现。在MMBench等多项权威多模态测评结果中，「天工3.0」超越GPT-4V，全球领先。（天工3.0多模态性能超越GPT-4V，全球领先）同时，「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

不够惊艳？还是更务实？谷歌对上OpenAI，能否打好翻身..

...项目Project Astra、对标Sora的文生视频模型Veo，以及支持多模态输入的AI搜索引擎和第六代Tensor处理器单元（TPU）Trillium芯片等等。其中，Astra是谷歌的AI智能体项目，能够通过手机摄像头或智能眼镜来“看到”用户眼前的内容，响...……更多

2024-05-15 18:31:00不够,还是,生成,模型,文生,图像

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人民币2.25亿元）的种子轮融资。黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出的Demo来看，无...……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

谷歌发力世界模型：从OpenAI挖来Sora核心负责人！

...行整合。他在工作描述中强调：“我们认为，在视频和多模态数据上扩展人工智能训练是通向通用人工智能（AGI）的关键路径。世界模型将为视觉推理与模拟、代理规划以及实时互动娱乐等多个领域提供强大动力。”据悉，“世...……更多

2025-01-07 18:18:00模型,负责人,核心,世界,模型,布鲁克斯

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...跑大模型的个人PC。还有谷歌20亿追投Anthropic，并曝光多模态模型Gemini和工具Stubbs，将为用户更多便捷和创新的应用开发方式。Meta公布第三季度财报，实现23%的营收增长，是公司自2021年三季度以来最大的营收增幅，表现亮眼。部...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

生成式AI大爆发后，2024年人工智能行业有哪些新趋势

...（人工智能）发展史的一个转折点，活跃的开源环境和多模态模型一同推动了AI研究的进步。随着生成式AI持续从实验室走入现实，人们对这项技术的态度正在变得越来越成熟。对于2024年的AI发展趋势，行业专家们也给出了一些...……更多

2024-02-12 12:33:00人工智能,人工,生成,趋势,智能,行业

AI应用正面临能耗挑战？分布式算力提供新路径！

...术为医疗诊断、安全监控和娱乐行业提供了强大支持。多模态AI：使AI能够同时处理和理解来自不同来源的信息，如文本、图像、声音和视频等，多模态AI的发展使得机器能够感知、理解甚至预测需求，提供更加个性化和智能化的...……更多

2024-10-29 17:30:00分布式,能耗,路径,应用,模型,分布式

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

多模态检索增强生成（mRAG）也有o1思考推理那味儿了！阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch，它能模拟人类解决问题的思维方式，将复杂问题逐步拆解进行智能检索规划。随便上传一张图，...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

视觉理解、3D生成，豆包这次又玩出了什么新花样？

...做呢，月之暗面Kimi发布视觉思考模型k1；腾讯微信推出多模态大模型POINTS1.5；巨人网络发布千影有声游戏生成大模型，还有不胜枚举的初创公司带着自家模型的新进展试图刷个脸熟。所以呢，豆包又又又更新了。（图源：雷科技...……更多

2024-12-18 22:49:00豆包,花样,生成,视觉,模型,豆包

云计算一哥终于搞多模态了：一口气6个大模型，还有个3nm芯片

...—亚马逊CEO Andy Jassy亲自站台re:Invent24，发布自家新款AI多模态系列大模型，名曰Amazon Nova。而且是一口气涵盖文本对话、图片生成、视频生成，甚至直接吐露一个小目标：将来我们不仅要Speech to Speech，更要Any-to-Any！整体而言，Am...……更多

2024-12-05 09:45:00模态,一口,芯片,模型,一口气,亚马