模态,山海,实时,生成,模型,图像头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家 8 月 26 日消息，云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

财经观察：提升人机交互效率多模态大模型易用性进一步推进

...晨，美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂（Mira Murati）介绍，GPT-4o可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合进行...……更多

2024-05-14 13:59:00进一,模态,易用,易用性,人机,模型

李未可科技正式推出WAKE-AI多模态AI大模型

...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加...……更多

2024-04-19 14:30:00模态,模型,科技,模态,模型,场景

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

最强多模态模型GTP-4o问世，OpenAI继续开启人工智能

...性创新的今天，OpenAI公司隆重宣布，其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能，更在实时对话、图文分析等方面实现了质的飞跃，被誉为钢铁侠中全能AI管家贾维斯的现实版。GP...……更多

2024-05-14 14:04:00模态,之路,人工智能,人工,模型,智能

对比学习滥用隐私数据！中科院等发布「多步误差最小化」方法 |

...出了一种新颖的多步误差最小化（MEM）方法，用于生成多模态不可学习样本，以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器，MEM方法有效地误导模型，降低其对隐私数据的学习能力，并在不同模...……更多

2024-08-02 09:55:00误差,中科院,隐私,方法,数据,学习

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗透到自动驾驶、医学诊断等各大应...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

“世界模拟器”的文化偏见与AIGC时代的文化竞争

...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力，确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多

2024-04-10 10:41:00文化,模拟器,偏见,竞争,时代,世界

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍，融资主要用于多模...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

出门问问重磅发布全新2.5D数字人系统 WetaAvatar

...、逻辑、推理、规划”六个维度。凭借「序列猴子」在跨模态迁移方面的出众表现，出门问问的技术团队推出了MeetVoice Pro语音大模型。此外，我们团队也计划利用「序列猴子」的核心能力，打造多模态数字人模型，进一步拓展...……更多

2024-04-09 14:00:00重磅,全新,数字,系统,数字,系统

百模大战又添新势力！李未可科技将发布自研AI大模型

近期，36kr研究院发布了《2024年AIGC行业研究：多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技...……更多

2024-03-29 15:00:00势力,模型,大战,科技,模型,模态

Gemini引领多模态AI热潮，产业发展有望加速

12月11日，多模态AI概念股继续活跃，苏州科达（603660.SH）三连板。截至当日中午收盘，因赛集团（300781.SZ）涨13.32%，苏州科达涨9.96%，宣亚国际（300612.SZ）涨9.7%。消息面上，GoogleAI大模型Gemini近日发布，Gemini是Google到目前为止规……更多

2023-12-11 15:01:00模态,热潮,产业发展,产业,发展,模态

史上首个实时AI视频生成技术：DiT通用，速度提升10.6倍

...注意力表现出与视频中的运动和动态相关的中频变化；跨模态注意力是最稳定的，将文本与视频内容联系起来，类似于反映文本语义的低频信号。基于此，研究团队提出金字塔式注意力广播来减少不必要的注意力计算。在中间部...……更多

2024-06-28 09:32:00实时,生成,速度,技术,视频,注意力

山海启航，云知声迈向AGI新征程

...UniBrain）的核心“山海大模型”成功实现升级的同时，多模态感知、生成与知识图谱等全栈AI技术组件，也持续演进，保持行业领先优势：语音识别(ASR)方面，语音识别(ASR)方面，云知声在2023年某国际芯片巨头的技术POC（原型验证...……更多

2024-02-04 11:00:00山海,征程,模型,山海,应用,技术

不要小看「实而不华」的腾讯 AI

...未来的战略思路。01模型侧：基础模型能力升级，构建多模态能力首先是基础模型方面，5 月 17 日的峰会上，腾讯混元介绍了其多尺寸的 LLM 模型矩阵。其中，最大模型已拓展至万亿级参数规模，并在 1B、3B、7B、13B 等不同参数量...……更多

2024-05-21 21:25:00腾讯,腾讯,模型,能力,广告,视频

微软宣布Team Copilot发布，年内将推出初步预览版

...型GPT-4o，现已在AzureAIStudio中提供，并作为API提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式AI体验。此外，由微软开发的Phi-3列AI小型语言模型（SLM）中的一种新型多模态模型Phi-3-vision现已...……更多

2024-05-22 20:01:00微软,微软,纳德拉,纳德,模型,功能

联通元景大模型亮相2024年中国品牌日打造产业智能化新范式

...供互联网实时资讯问答以及更好的数学计算等服务。在多模态大模型的视觉能力方面,工作人员分别提供了不同场景的视频和图片,“元景看见”迅速对视频、图像画面进行实时识别理解,并以文字描述方式呈现出来。除通用视觉能...……更多

2024-05-13 15:00:00范式,中国,模型,智能,产业,品牌

推动终端侧AI发展 MWC2024高通带来多项全球首发

...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型（LMM）。多模态指AI模型不仅能够接受文本输入，还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM，其支持文本、语音和...……更多

2024-02-29 10:14:00高通,终端,发展,全球,高通,模型

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...赋予「天工3.0」超强的性能表现。在MMBench等多项权威多模态测评结果中，「天工3.0」超越GPT-4V，全球领先。（天工3.0多模态性能超越GPT-4V，全球领先）同时，「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

不够惊艳？还是更务实？谷歌对上OpenAI，能否打好翻身..

...项目Project Astra、对标Sora的文生视频模型Veo，以及支持多模态输入的AI搜索引擎和第六代Tensor处理器单元（TPU）Trillium芯片等等。其中，Astra是谷歌的AI智能体项目，能够通过手机摄像头或智能眼镜来“看到”用户眼前的内容，响...……更多

2024-05-15 18:31:00不够,还是,生成,模型,文生,图像

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视

...研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人民币2.25亿元）的种子轮融资。黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出的Demo来看，无...……更多

2024-08-05 09:39:00文生,人马,模型,生成,视频,模型

2B多模态新SOTA！华科、华南理工发布Mini-Monke

【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有效缓解了传统图像切分策略带来的锯齿效应，提升了模型在高分辨率图像处理和文档理解任务的...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

本周硅谷发生了什么？| 高通第三代骁龙8；谷歌20亿美元追投

...跑大模型的个人PC。还有谷歌20亿追投Anthropic，并曝光多模态模型Gemini和工具Stubbs，将为用户更多便捷和创新的应用开发方式。Meta公布第三季度财报，实现23%的营收增长，是公司自2021年三季度以来最大的营收增幅，表现亮眼。部...……更多

2023-10-30 15:31:00高通,三代,硅谷,模型,个人,模型

生成式AI大爆发后，2024年人工智能行业有哪些新趋势

...（人工智能）发展史的一个转折点，活跃的开源环境和多模态模型一同推动了AI研究的进步。随着生成式AI持续从实验室走入现实，人们对这项技术的态度正在变得越来越成熟。对于2024年的AI发展趋势，行业专家们也给出了一些...……更多

2024-02-12 12:33:00人工智能,人工,生成,趋势,智能,行业

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本