• 我的订阅
  • 头条热搜
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
云知声荣登甲子光年榜单,彰显AI大模型商业潜力
...现出色,行业领先。2024年8月,云知声正式推出了山海多模态大模型,该模型通过整合跨模态信息,能够接收文本、音频、图像等多种形式的输入,并实时生成文本、音频和图像的任意组合输出,带来了实时多模态拟人交互体验...……更多
...景分析……中科院自动化研究所16日发布“紫东太初”全模态大模型,并首次对外实时展示了该模型在音乐理解与生成、三维场景导航、信号理解、多模态对话等方面的全新功能。中科院自动化研究所所长徐波介绍,“紫东太初...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
...。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示,通过使用多模态实时 API,开发人员可以创建实时、多...……更多
...晨,美国科技公司OpenAI在春季发布会上发布了最新GPT-4o多模态大模型。据OpenAI公司首席技术官米拉·穆拉蒂(Mira Murati)介绍,GPT-4o可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合进行...……更多
...中国科学院自动化研究所所长徐波在发布“紫东太初”全模态大模型时,展示了该模型的新“能耐”。作为“紫东太初”1.0的升级版,“紫东太初”全模态大模型具备全模态理解能力、生成能力和关联能力,不仅能读懂文字、图...……更多
实体“贾维斯” vivo发布PhoneGPT:可自动打电话定餐厅
...能力,并带来vivo自研的语音大模型、图像大模型以及多模态大模型。蓝心图像大模型强化了中国特色与东方美学的融合生成能力,是国内最懂中文语境的图像模型之一,甚至还支持国风水墨,支持在图片生成过程中,增加汉字...……更多
通义千问发布新一代端到端旗舰模型Qwen2.5-Omni:看听说写样样精通
...快科技3月27日消息,阿里云宣布今天发布新一代端到端多模态旗舰模型Qwen2.5-Omni。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输...……更多
李未可科技正式推出WAKE-AI多模态AI大模型
...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。 该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互,同时多模态问答技术的加...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
连发两款模型“补课”,百度AI成色如何?
...箱底的技术实力?按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA,该基准主要测试文档图像的问答能力。在文本能力方面,文心4.5则在多个主流基准测试中超过DeepSeek-...……更多
“图片生成领域的DeepSeek”!智象未来图像生成大模型全面开源 登顶全球权威榜单
...中国科大校友梅涛等人创办,目前已成长为全球领先的多模态生成式人工智能创新企业。公司自主研发的生成式视觉多模态大模型,是超百亿级别的大模型,具备强大的视觉内容生成与理解能力。其模型生成视频内容关联性强、...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
紧握根技术竞速大模型
...幅竹林水墨画……峰会上,中科院自动化研究所发布的全模态大模型“紫东太初”2.0现场展示的图像生成能力令人惊叹。除了支持图像生成,“紫东太初”2.0还支持多轮问答、文本创作、3D理解、信号分析等跨模态任务,例如在...……更多
最强多模态模型GTP-4o问世,OpenAI继续开启人工智能创新之路
...性创新的今天,OpenAI公司隆重宣布,其最新研发的GPT-4o多模态模型正式问世。这款全新的人工智能模型不仅继承了GPT-4的卓越性能,更在实时对话、图文分析等方面实现了质的飞跃,被誉为钢铁侠中全能AI管家贾维斯的现实版。GP...……更多
...产传播方式的优势(一)打造沉浸式体验与互动传播场景多模态大模型作为AI技术的代表性成果,可根据文化遗产的时空背景,构建逼真的虚拟场景,再现其诞生、发展、传承的历史语境。同时,模型还可生成栩栩如生的数字人,...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在不同模...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...并实现部分专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
空间智能产业化加速 一线企业集体锚定百度智能云
...身智能、智能硬件等领域的产业生产力。近两年,随着多模态大模型、3DGC、空间计算等技术的飞速演进,空间智能正从技术探索加速迈入产业规模化落地阶段。在空间智能大模型应用落地进程中,超九成以上的落地企业都选择...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
...选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。MagicQuill的具体构成一起来看看MagicQuill系统的具体构成是什么样的。主要分为3个部分:1.编辑处理器...……更多
...1亿美金。资金主要将用于核心研发团队的建设,加速多模态大模型和应用产品的研发。成立于2023年3月,生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI、蚂蚁集团和BV百度风投联合孵化,聚焦于多模态生成式大模型与应...……更多
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
...实现AGI(通用人工智能)的重要里程碑。券商建议关注多模态技术Sora视频一出,立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。其实,Sora出现之前,也有其他类似的AI...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力,确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
中国也有Sora同款训练架构公司,清华班底,智谱也投了 | 36氪首发
...也出现了大模型独角兽智谱AI的身影。36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍,融资主要用于多模...……更多
字节跳动为企业提供极具性价比的多模态大模型能力
...正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。火山引擎总裁...……更多
更多关于科技的资讯:
中新经纬8月18日电 据微信号“中国消费者协会”消息,针对部分网络平台热销的儿童安全座垫产品在碰撞测试中瞬间解体,难以保障乘车对象安全及少数网售儿童安全座椅类产品的操作演示信息存在常识性错误等问题
2025-08-19 08:07:00
□南京日报/紫金山新闻记者孙秉印 实习生赵璇通讯员麒轩8月18日,在麒麟科创园南京创蓝科技有限公司,一块大屏上展示着南京地图
2025-08-19 07:40:00
8月17日,“网上国网”App发布消息,该平台升级了“用能分析”服务中的“用电预测”功能,旨在帮助用户更精准地掌握用电情况
2025-08-19 07:55:00
□裴桐这段时间,在互联网各大社交平台,各类“主理人”店铺遭到群嘲,“主理人主打不理人”“叫声服务员,能气疯一群主理人”等段子层出不穷
2025-08-18 08:47:00
厦门网讯(厦门日报记者 李晓平)近日,工信部公布符合环保装备制造业规范的企业名单(2025版),三家厦企入选最新“国家队”阵容
2025-08-18 08:50:00
2025世界人形机器人运动会闭幕 世界人形机器人运动联合会宣告成立
大皖新闻讯 8月17日,2025年世界人形机器人运动会在北京圆满闭幕。同时,世界人形机器人运动联合会(简称"WHRGF"或"联合会")正式宣告成立
2025-08-18 09:02:00
23天跑出“炎和速度”:全球首条消费类钙钛矿电池全自动化生产线成功贯通出片
8月16日,炎和科技全球首条消费类钙钛矿电池全自动化生产线在常德正式投产。从7月24日启动产线调通到全线贯通出片仅用时23天
2025-08-18 09:03:00
暑假期间,很多人带着孩子走进商场、汽车4S店,有的家庭准备换家电,有的想换车。推动顾客将商品带回家的重要因素之一,就是消费品以旧换新政策
2025-08-18 09:20:00
“城市骑士”升级后续!阿里和蚂蚁旗下22个品牌共推橙意计划
8月18日,饿了么和淘宝闪购宣布升级“城市骑士”之后仅一天,第一个举措来了!阿里和蚂蚁旗下的22个品牌,共同宣布推出“城市骑士·橙意计划”
2025-08-18 09:42:00
2025 “乐业浔城” 共话创业之路 启迪未来商机 —— 九江 HR 沙龙活动成功举办
为积极响应国家“大众创业、万众创新”号召,赋能九江地区企业高质量发展,搭建人力资源从业者与创业者之间的交流合作平台,2025年 8月 15日
2025-08-18 10:40:00
潍坊寿光:3000亩“蔬菜硅谷”里的智慧革命
大众网记者 刘晓雨 潍坊报道在潍坊寿光市,一座占地3000亩的“蔬菜硅谷”正以科技为笔,书写着现代农业的新范式。这里是部
2025-08-18 10:41:00
旅游直播亟待从价格竞技场转向服务体验馆
皖中客据《工人日报》报道,“下单立减,数量有限”“全年无加价,落地0自费”“一家三口出行,酒店免费升级”……正值暑期旅游旺季
2025-08-18 11:04:00
用“奢侈品思维”重塑高价值人生 耿帆携《女主力》亮相济南贵和
齐鲁晚报·齐鲁壹点 张唯8月16日下午,济南泉城路贵和购物中心二楼书香涌动,一场以“奢侈品思维”为切入点的女性成长主题分享会引发热议
2025-08-18 11:21:00
鸿蒙智行首款旅行车享界S9T开启预售,32.8万起
8月18日消息,作为鸿蒙智行首款旅行车,享界S9T今日开启预售,预售价32.8万元起。并且,享界S9T的仙踪绿、寰宇红双车色限时免费
2025-08-18 11:22:00
从钢铁重器到人类萌宠 陪伴机器人正在努力更懂你
本报记者 赵 曦 □ 唐 瑞摇头、摇尾巴、眨眼、喵喵叫,8月8日,在2025世界机器人大会现场,记者在大象机器人公司的展台看到一只毛色雪白
2025-08-18 11:35:00