模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家 8 月 26 日消息，云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

云知声荣登甲子光年榜单，彰显AI大模型商业潜力

...现出色，行业领先。2024年8月，云知声正式推出了山海多模态大模型，该模型通过整合跨模态信息，能够接收文本、音频、图像等多种形式的输入，并实时生成文本、音频和图像的任意组合输出，带来了实时多模态拟人交互体验...……更多

2024-12-13 16:22:00甲子,潜力,模型,商业,模型,山海

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...合提出即插即用的SearchLVLMs框架，可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强，使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

Google推出全新人工智能模型Gemini 2.0 用途更

...。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示，通过使用多模态实时 API，开发人员可以创建实时、多...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

财经观察：提升人机交互效率多模态大模型易用性进一步推进

...晨，美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂（Mira Murati）介绍，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合进行...……更多

2024-05-14 13:59:00进一,模态,易用,易用性,人机,模型

实体“贾维斯” vivo发布PhoneGPT：可自动打电话定

...能力，并带来vivo自研的语音大模型、图像大模型以及多模态大模型。蓝心图像大模型强化了中国特色与东方美学的融合生成能力，是国内最懂中文语境的图像模型之一，甚至还支持国风水墨，支持在图片生成过程中，增加汉字...……更多

2024-10-10 11:42:00贾维斯,贾维,实体,餐厅,模型,模态

李未可科技正式推出WAKE-AI多模态AI大模型

...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加...……更多

2024-04-19 14:30:00模态,模型,科技,模态,模型,场景

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模

...同完成，是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计（CAD）生成大模型。计算机辅助设计（Computer-Aided Design，简称 CAD）软件是工业软件的重要分支，也是工业设计流程中的核心工具。然而，目前...……更多

2024-11-26 09:46:00一键,模态,高质量,生成,模型,图像

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

最强多模态模型GTP-4o问世，OpenAI继续开启人工智能

...性创新的今天，OpenAI公司隆重宣布，其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能，更在实时对话、图文分析等方面实现了质的飞跃，被誉为钢铁侠中全能AI管家贾维斯的现实版。GP...……更多

2024-05-14 14:04:00模态,之路,人工智能,人工,模型,智能

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

阿里CEO吴泳铭：生成式AI让世界有了一个统一的语言——To

...为了AI发展的最大障碍。当前的数字化世界，信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立，彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多

2024-09-20 09:51:00阿里,生成,统一,语言,世界,模态

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

...选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型（MLLMs）进行实现，并设计了简约实用的用户界面。MagicQuill的具体构成一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分：1.编辑处理器...……更多

2024-11-21 09:43:00神器,绘画,网友,用户,收集器,图像

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态...……更多

2024-09-20 13:35:00模态,阿里,模型,能力,升级,国际

“世界模拟器”的文化偏见与AIGC时代的文化竞争

...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力，确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多

2024-04-10 10:41:00文化,模拟器,偏见,竞争,时代,世界

字节跳动为企业提供极具性价比的多模态大模型能力

...正式发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％，以更低成本推动AI技术普惠和应用发展。火山引擎总裁...……更多

2024-12-18 17:35:00模态,字节,性价比,模型,能力,企业

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍，融资主要用于多模...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

出门问问重磅发布全新2.5D数字人系统 WetaAvatar

...、逻辑、推理、规划”六个维度。凭借「序列猴子」在跨模态迁移方面的出众表现，出门问问的技术团队推出了MeetVoice Pro语音大模型。此外，我们团队也计划利用「序列猴子」的核心能力，打造多模态数字人模型，进一步拓展...……更多

2024-04-09 14:00:00重磅,全新,数字,系统,数字,系统

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成