模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

SIGGRAPH上首个Real-Time Live的中国团队

... 3D 版 ControlNet，极简的架构使它能够高效地支持各种不同模态的条件（Condition）控制。他们实现了几种用户可以轻松提供的示例条件，包括文本（原生支持），以及图像 / 草图、体素 (Voxel)、多视图图像（Multiview Images）、点云...……更多

2024-08-10 09:46:00中国,生成,团队,世界,生成,模型

又一生成式AI助手将“登机”！谷歌发布多模态Bard助理，交

...文本、语音或图像与Bard助理互动——换言之，其具备多模态功能。例如，当用户询问“本周我错过了哪些重要邮件”时，Bard助理会列出各项要点及具体内容，并附上具体对应邮件的链接，还可以帮助用户提取活动地址并在谷歌...……更多

2023-10-07 16:38:00模态,交互式,助理,助手,一生,时代

全面叫板OpenAI！谷歌发布多模态大模型全家桶：从AI助手

...先一天后，科技巨头谷歌不甘示弱，推出了自己的最新多模态AI（人工智能）产品。当地时间5月14日，在谷歌I/O开发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，...……更多

2024-05-15 09:54:00文生,模型,模态,全家,助手,视频

2023 的人工智能之年

...的情感和情绪。Google 在 Bard 聊天机器人中融入了基于多模态数据集训练的 Gemini，它被誉为目前“最强大”的 AI 模型，是 OpenAI 的 ChatGPT 最强的竞争对手之一。Grok：Elon Musk 的创业公司 xAI 展示了其对 AI 开发的承诺，并可能与 Open.……更多

2023-12-29 05:02:00之年,人工智能,人工,智能,生成,人工智能

创新奇智大模型工业落地初显成效，探索工业智能机器人新方向

...达到 750 亿参数，性能获得了大幅升级。AInno-75B 增加了多模态处理能力，支持输入文本、图像、视频以及工业场景中的行为（Action）模态，如 CAD 等。通过引入高参数量大模型 AInno-75B，创新奇智的主推产品 ChatDoc、ChatBI 获得了...……更多

2024-09-03 10:00:00工业,机器人,成效,落地,模型,方向

如何更高效地使用Gemini？7个技巧教你玩转聊天机器人

...用户了解最新的流行趋势。在分析流行趋势时，Gemini的多模态能力可以让它从广泛的数据源中获取信息。Gemini不仅可以分析文字内容中的流行话题，还能通过图像和视频内容来捕捉视觉上的流行元素、趋势，从而更全面、准确地...……更多

2024-09-30 09:49:00机器人,机器,技巧,用户,生成,图像

OPPO携手火山引擎，Find X9 新机里藏了个“AI旅拍

... AI 相关场景体验进一步升级，从AI写作到播客创作，从多模态问答到AI作图，重点围绕旅行这一高频记录场景，让用户的创作灵感得到最大程度的释放，成为用户旅行途中的\"旅拍神器\"。同时，OPPO Find X9也是业界首款支持机密计...……更多

2025-10-28 12:07:00神器,新机,火山,创作,引擎,用户

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

...的创新框架。DiffSensei 集成了基于扩散的图像生成器和多模态大语言模型（MLLM），后者是一种文本兼容身份适配器。他们的方法采用了掩码交叉注意力技术，可无缝整合字符特征，从而在不直接传输像素的情况下实现精确的布局...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

vivo自研大模型全家桶炸场，亮出PhoneGPT智能体，蓝

...幕的力度、圈搜文字或图片、还是拖拽一段地址信息，多模态大模型都可以深度解读你的意图，进而给你需要的反馈和服务。依托文本大模型，结合自监督学习语音编解码、多语音任务学习和模态对齐等技术，蓝心小V在文本能...……更多

2024-10-11 09:55:00一键,衣食,全家,模型,智能,模型

阶跃星辰宣布开源图生视频模型，多模态领域的DeepSeek时

...开源大模型DeepSeek走红，AI社区开发者也开始探讨，在多模态领域能否出现这样强大的模型。有着多模态领域深厚积累的阶跃星辰选择为开源贡献自己的力量，首次进行了模型开源。在大会期间，阶跃星辰与吉利联合宣布将双方...……更多

2025-02-22 16:36:00时来,模态,星辰,模型,时刻,领域

昆仑万维SkyReels团队正式发布并开源SkyReels-

...fusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。回顾过去……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

吉利星睿AI大模型正式发布引领中国汽车进入全场景AI时代

...用的智能生态闭环。星睿AI大模型包括语言大模型、多模态大模型、数字孪生大模型3大基础模型，并由此衍生出NLP语言大模型、NPDS研发大模型、多模态感知大模型、多模态生成大模型、AI DRIVE大模型、数字生命大模型6大能力模...……更多

2024-01-11 11:18:00吉利,中国,模型,场景,时代,汽车

中文大模型最新评测出炉：腾讯混元国内第一！

快科技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

北京智源研究院发布原生多模态世界模型Emu3

...者刘峣）近日，北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成，成功验证了基于下一个token（词元）预测的多模态技术范式，释放其在大规模训练和推理上...……更多

2024-10-24 05:12:00模态,北京,研究院,模型,研究,世界

苹果300亿参数大模型首亮相，还买了家AI公司｜焦点分析

...时间，苹果低调的在arxiv.org网站上发布论文，官宣了在多模态大模型领域的最新成果。在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》（MM1: 多模式LLM预训练的方法、分析和见解）中可以……更多

2024-03-16 18:14:00模型,苹果,参数,焦点,分析,公司

Meta推出AI新模型VFusion3D，微美全息布局AIG

...AI+ 3D模型受青睐自 ChatGPT 火爆全球，以支持图像输入的多模态大模型 GPT-4 的推出作为契机。大模型的多模态计算潜力开始在内容生成领域发挥技术优势，顶尖的科技公司和想要抓住 AIGC 风口的初创企业开始争先恐后地推出 AI 驱...……更多

2024-08-21 13:55:00全息,布局,模型,升级,产业,内容

依图科技“天问”大模型赋能安防，智慧应急跨越式发展

...防行业正经历着前所未有的变革。作为应用人工智能和多模态大模型的先锋领域，安防行业不仅展示了其强大的产业基础，更在发展新质生产力方面彰显出卓越的能力和潜力。依图科技，作为AI领域的先行者和创新者，多年来一...……更多

2024-05-22 15:00:00天问,安防,应急,模型,智慧,发展

“伏羲慧眼”来了！国内首个应用临床眼科大模型

...“大脑”，汇聚了来自26个国家和地区的56万个个体的8个模态、将近400万张眼部图像，是目前全球规模最大的眼科图像数据库。“‘伏羲慧眼’其敏感性和特性超过传统AR。它既是一个前沿平台，也是一项人工智能应用。”河南...……更多

2024-10-25 10:17:00伏羲,慧眼,眼科,临床,模型,应用

背水一战狙击GPT-4，谷歌最强大模型Gemini终发布，听

...布，“大杀器”Gemini 1.0，正式上线。Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenA...……更多

2023-12-07 08:18:00全能,选手,模型,焦点,分析,模型

全国首个面向场景的无人机AI数字调度员在宁发布

...空在无人机技术领域取得重大突破，成功推出行业首个多模态交互引擎。这一创新技术深度融合语音与文本控制功能，能够精准适应复杂多变的作业环境，为无人机操控带来前所未有的便捷与高效。“怎么说，就怎么飞”，这句...……更多

2025-02-25 08:25:00调度员,无人机,调度,场景,数字,全国

现场直击一文总结！OpenAI开发者大会，史上最强GPT-4

...今天起，所有开发者都可以使用 Assistants API 测试版 05多模态交互新版本增加了新的多模态功能，包括视觉、图像创建（DALL·E 3）和文本转语音 (TTS)。Turbo版GPT-4 可以接受图像作为Chat Completions API中的输入，从而实现生成标题、...……更多

2023-11-07 09:18:00一文,开发者,地震,大会,开发,用户