模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家 8 月 26 日消息，云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

云知声荣登甲子光年榜单，彰显AI大模型商业潜力

...现出色，行业领先。2024年8月，云知声正式推出了山海多模态大模型，该模型通过整合跨模态信息，能够接收文本、音频、图像等多种形式的输入，并实时生成文本、音频和图像的任意组合输出，带来了实时多模态拟人交互体验...……更多

2024-12-13 16:22:00甲子,潜力,模型,商业,模型,山海

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...合提出即插即用的SearchLVLMs框架，可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强，使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

Google推出全新人工智能模型Gemini 2.0 用途更

...。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示，通过使用多模态实时 API，开发人员可以创建实时、多...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

财经观察：提升人机交互效率多模态大模型易用性进一步推进

...晨，美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂（Mira Murati）介绍，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合进行...……更多

2024-05-14 13:59:00进一,模态,易用,易用性,人机,模型

实体“贾维斯” vivo发布PhoneGPT：可自动打电话定

...能力，并带来vivo自研的语音大模型、图像大模型以及多模态大模型。蓝心图像大模型强化了中国特色与东方美学的融合生成能力，是国内最懂中文语境的图像模型之一，甚至还支持国风水墨，支持在图片生成过程中，增加汉字...……更多

2024-10-10 11:42:00贾维斯,贾维,实体,餐厅,模型,模态

通义千问发布新一代端到端旗舰模型Qwen2.5-Omni：看

...快科技3月27日消息，阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输...……更多

2025-03-27 08:34:00通义,旗舰,新一代,模型,模态,文本

李未可科技正式推出WAKE-AI多模态AI大模型

...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加...……更多

2024-04-19 14:30:00模态,模型,科技,模态,模型,场景

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

连发两款模型“补课”，百度AI成色如何？

...箱底的技术实力？按百度说法，文心4.5定位新一代原生多模态基础大模型，在多个基准测试中超过GPT-4o，得分最高的则是DocVQA，该基准主要测试文档图像的问答能力。在文本能力方面，文心4.5则在多个主流基准测试中超过DeepSeek-...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

“图片生成领域的DeepSeek”！智象未来图像生成大模型全

...中国科大校友梅涛等人创办，目前已成长为全球领先的多模态生成式人工智能创新企业。公司自主研发的生成式视觉多模态大模型，是超百亿级别的大模型，具备强大的视觉内容生成与理解能力。其模型生成视频内容关联性强、...……更多

2025-04-17 10:54:00生成,模型,图像,领域,权威,全球

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

最强多模态模型GTP-4o问世，OpenAI继续开启人工智能

...性创新的今天，OpenAI公司隆重宣布，其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能，更在实时对话、图文分析等方面实现了质的飞跃，被誉为钢铁侠中全能AI管家贾维斯的现实版。GP...……更多

2024-05-14 14:04:00模态,之路,人工智能,人工,模型,智能

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

充分发挥AI赋能河南历史文化遗产保护的优势

...产传播方式的优势(一)打造沉浸式体验与互动传播场景多模态大模型作为AI技术的代表性成果，可根据文化遗产的时空背景，构建逼真的虚拟场景，再现其诞生、发展、传承的历史语境。同时，模型还可生成栩栩如生的数字人，...……更多

2025-06-27 19:36:00河南,历史文化,遗产,优势,保护,文化

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

空间智能产业化加速一线企业集体锚定百度智能云

...身智能、智能硬件等领域的产业生产力。近两年，随着多模态大模型、3DGC、空间计算等技术的飞速演进，空间智能正从技术探索加速迈入产业规模化落地阶段。在空间智能大模型应用落地进程中，超九成以上的落地企业都选择...……更多

2025-07-24 19:59:00智能,一线,集体,产业,空间,企业

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

...为了AI发展的最大障碍。当前的数字化世界，信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立，彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多

2024-09-20 09:51:00阿里,生成,统一,语言,世界,模态

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

...选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型（MLLMs）进行实现，并设计了简约实用的用户界面。MagicQuill的具体构成一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分：1.编辑处理器...……更多

2024-11-21 09:43:00神器,绘画,网友,用户,收集器,图像

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

“世界模拟器”的文化偏见与AIGC时代的文化竞争

...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力，确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多

2024-04-10 10:41:00文化,模拟器,偏见,竞争,时代,世界

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍，融资主要用于多模...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

字节跳动为企业提供极具性价比的多模态大模型能力

...正式发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％，以更低成本推动AI技术普惠和应用发展。火山引擎总裁...……更多

2024-12-18 17:35:00模态,字节,性价比,模型,能力,企业

出门问问重磅发布全新2.5D数字人系统 WetaAvatar

...、逻辑、推理、规划”六个维度。凭借「序列猴子」在跨模态迁移方面的出众表现，出门问问的技术团队推出了MeetVoice Pro语音大模型。此外，我们团队也计划利用「序列猴子」的核心能力，打造多模态数字人模型，进一步拓展...……更多

2024-04-09 14:00:00重磅,全新,数字,系统,数字,系统

大模型、物联网平台国际先进！浪潮智能生产两项成果通过科技评价

近日，浪潮智能生产自主研发的多模态智产大模型服务平台和工业智能物联网平台顺利通过山东省科技成果评价，达到国际先进水平。通过山东省科技成果评价多模态智产大模型：落地应用于多个行业多模态智产大模型服务平...……更多

2025-06-13 14:49:00浪潮,模型,成果,评价,先进,智能

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成