• 我的订阅
  • 头条热搜
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
实体“贾维斯” vivo发布PhoneGPT:可自动打电话定餐厅
...能力,并带来vivo自研的语音大模型、图像大模型以及多模态大模型。蓝心图像大模型强化了中国特色与东方美学的融合生成能力,是国内最懂中文语境的图像模型之一,甚至还支持国风水墨,支持在图片生成过程中,增加汉字...……更多
李未可科技正式推出WAKE-AI多模态AI大模型
...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。 该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互,同时多模态问答技术的加...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
最强多模态模型GTP-4o问世,OpenAI继续开启人工智能创新之路
...性创新的今天,OpenAI公司隆重宣布,其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能,更在实时对话、图文分析等方面实现了质的飞跃,被誉为钢铁侠中全能AI管家贾维斯的现实版。GP...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
...选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。MagicQuill的具体构成一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分:1.编辑处理器...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力,确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍,融资主要用于多模...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
...、逻辑、推理、规划”六个维度。凭借「序列猴子」在跨模态迁移方面的出众表现,出门问问的技术团队推出了MeetVoice Pro语音大模型。此外,我们团队也计划利用「序列猴子」的核心能力,打造多模态数字人模型,进一步拓展...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
vivo OriginOS 5发布,加入想要的AI功能
...心大模型矩阵,核心的升级点,是加入了语音大模型、多模态大模型,升级的语言大模型、图像大模型等。其中语音大模型主要实现了自然对话、模拟人声、同声传译等功能。而图像大模型则是更加能理解中文语境创作,多模态...……更多
百模大战又添新势力!李未可科技将发布自研AI大模型
近期,36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》,文中基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中,发现杭州李未可科技...……更多
Gemini引领多模态AI热潮,产业发展有望加速
12月11日,多模态AI概念股继续活跃,苏州科达(603660.SH)三连板。截至当日中午收盘,因赛集团(300781.SZ)涨13.32%,苏州科达涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规……更多
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
...注意力表现出与视频中的运动和动态相关的中频变化;跨模态注意力是最稳定的,将文本与视频内容联系起来,类似于反映文本语义的低频信号。基于此,研究团队提出金字塔式注意力广播来减少不必要的注意力计算。在中间部...……更多
骁龙 8 至尊版到底有多强?我们总结了三大关键问题
...程,减少游戏中1%fps卡村,同时改善手机发热的状况。多模态AI支持有什么意义? 简单来说,指令无需预处理,响应更快速。在骁龙8至尊版中,高通通过升级的HexagonNPU和AI引擎,进一步增强了设备端AI的多模态处理能力。这意味...……更多
山海启航,云知声迈向AGI新征程
...UniBrain)的核心“山海大模型”成功实现升级的同时,多模态感知、生成与知识图谱等全栈AI技术组件,也持续演进,保持行业领先优势:语音识别(ASR)方面,语音识别(ASR)方面,云知声在2023年某国际芯片巨头的技术POC(原型验证...……更多
不要小看「实而不华」的腾讯 AI
...未来的战略思路。01模型侧:基础模型能力升级,构建多模态能力首先是基础模型方面,5 月 17 日的峰会上,腾讯混元介绍了其多尺寸的 LLM 模型矩阵。其中,最大模型已拓展至万亿级参数规模,并在 1B、3B、7B、13B 等不同参数量...……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...型GPT-4o,现已在AzureAIStudio中提供,并作为API提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式AI体验。此外,由微软开发的Phi-3列AI小型语言模型(SLM)中的一种新型多模态模型Phi-3-vision现已...……更多
联通元景大模型亮相2024年中国品牌日 打造产业智能化新范式
...供互联网实时资讯问答以及更好的数学计算等服务。在多模态大模型的视觉能力方面,工作人员分别提供了不同场景的视频和图片,“元景看见”迅速对视频、图像画面进行实时识别理解,并以文字描述方式呈现出来。除通用视觉能...……更多
推动终端侧AI发展 MWC2024高通带来多项全球首发
...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型(LMM)。多模态指AI模型不仅能够接受文本输入,还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM,其支持文本、语音和...……更多
更多关于科技的资讯:
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00