• 我的订阅
  • 头条热搜
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...的技术突破确实为内容生产提供了几乎无限的可能性。多模态视频生成与新的世界模拟器2023年ChatGPT的出世吸引了全球对新一代生成式AI的注意力,确立了大语言模型作为新一代内容生成技术的重要基础地位。大语言模型特别强...……更多
...难题,为人民群众提供更多、更好的创新性医疗服务,多模态的AI应用也能为临床疾病诊断、治疗、评估、研究和管理带来更多探索的可能。谈及在人工智能领域的技术创新,乔昕介绍,近年来,深睿医疗致力于为医疗机构提供...……更多
Meta推出AI新模型VFusion3D,微美全息布局AIGC+3D内容加速产业转型升级
...AI+ 3D模型受青睐自 ChatGPT 火爆全球,以支持图像输入的多模态大模型 GPT-4 的推出作为契机。大模型的多模态计算潜力开始在内容生成领域发挥技术优势,顶尖的科技公司和想要抓住 AIGC 风口的初创企业开始争先恐后地推出 AI 驱...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...模型进行持续迭代式微调。GPT-4系列:能力跃升,增加多模态能力,最新版4o突破性价比GPT系列模型的技术演变(GPT-4~GPT-4o):继ChatGPT后,OpenAI于2023年3月发布GPT-4,它首次将GPT系列模型的输入由单一文本模态扩展到了图文双模态...……更多
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
...。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示,通过使用多模态实时 API,开发人员可以创建实时、多...……更多
...统等等。而在AI大模型方面,最主要事件则是OpenAI推出多模态大模型ChatGPT-4o,这一版本具有实时处理和生成文本、音频以及图像等多种模态的能力,被誉为技术上一个巨大突破。事实上,中国在AI大模型方面也已有足够竞争力。...……更多
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...现最佳效果和性价比。为此,豆包大模型提供的是一个多模态模型家族,企业可根据自身业务场景需求灵活选择,实现模型使用及成本控制的正循环。人人用得起 才是好模型谭待认为,降低成本是推动大模型快进到“价值创造...……更多
如何跑赢生成式AI竞赛?云计算大厂揭秘组合拳:自研大模型只是开胃菜
...),任意到任意则是更远的未来。任意到任意模型属于多模态到多模态,用户可以输入文本、语音、图像或视频等多种形式的内容,并相应地输出文本、语音、图像或视频。Vasi Philomin向我们解释说,任意到任意模型适用于变化...……更多
GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集
...来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2024 会议中,这篇论文获得杰出论文奖。论...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
讯飞星火V3.0发布,打造每个人的AI助手
...学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力,进一步提升星火的落地应用能力。升级AI人设、启发式对话,打造每个人的AI助手自讯飞星火9月5日全民开放后,当前已有1200万用户,也...……更多
...12个重点领域,类型包含文本、图片、音频、视频等多种模态。其中,中国手语多模态数据集、“海河·谛听”言语多模态数据集、基于隐私计算技术政务流通数据集、恒达文博文旅·科普基础数据集等69个数据集为国内首次公开...……更多
文小言定位百度旗下“新搜索”智能助手
...其他常规的搜索产品而言,文小言推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等"新搜索"能力,可以更加全面地满足用户搜、创、聊的需求。值得一提的是,文小言独家首发了记忆和自由订阅等新功能,这...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...混元API服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。2024年年初,腾讯混元就宣布在国内率先采用MoE架构模型,总体性能比上一代密集模型提升50%。此后,腾讯混...……更多
...为用户提供更加系统全面的知识导航与探索服务。(三)多模态融合与增强体验一方面,多模态信息整合。未来,将推动图像、文本、视频、音频等多模态信息的深度融合与协同处理,从而实现对多模态图书档案的综合管理与利用...……更多
百模大战又添新势力!李未可科技将发布自研AI大模型
近期,36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》,文中基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中,发现杭州李未可科技...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...的?后训练功不可没从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以...……更多
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
...合提出即插即用的SearchLVLMs框架,可以无缝整合任意的多模态大模型。该框架在推理阶段对大模型进行互联网检索增强,使得大模型无需微调即可对实时信息进行准确的反馈。研究团队提出首个辅助多模态大模型对实时信息进行...……更多
东方证券:谷歌发布多模态模型Gemini,多模态应用前景广阔
...办公、法律、医疗有望率先落地。东方证券:谷歌发布多模态模型Gemini,多模态应用前景广阔12月6日晚,谷歌正式发布了Gemini大模型,是谷歌目前最强大最通用的模型。其尺寸最大的版本GeminiUltra在32项基准测试中有30项能力都超...……更多
又一生成式AI助手将“登机”!谷歌发布多模态Bard助理,交互式AI时代近了?
...文本、语音或图像与Bard助理互动——换言之,其具备多模态功能。例如,当用户询问“本周我错过了哪些重要邮件”时,Bard助理会列出各项要点及具体内容,并附上具体对应邮件的链接,还可以帮助用户提取活动地址并在谷歌...……更多
世优波塔AI数字人多模态交互系统,赋能智慧医疗服务升级
近日,世优科技“波塔发布会”在京举行,AI数字人多模态交互系统——波塔重磅发布。世优波塔是以世优科技多年积累的全栈数字人技术为基础,致力于打造人工智能时代有温度的多模态人机交互界面。 医疗水平提升、市场...……更多
...精细化标注水平,积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设,不断提升智能算力综合供给水平;稳步推进公共算力服务平台建设,...……更多
公路水路交通基础设施数字化转型升级,卓视智通准备好了
...012年成立以来就一直专注于交通视频识别及智能分析、多模态融合感知、多模态大模型等前沿技术的原创研发,并在智慧公路与交通基础设施数字化领域实现了广泛的应用落地,公司连续多年获评“AI+智慧交通”十大优秀企业、...……更多
入选高工人形机器人优质企业链,银牛微电子3D空间计算解决方案获高度认可
...现具身智能。该方案不仅融合了语音、文本和图像等基础模态,还加入了3D点云模态,通过强化的多模态关联技术,显著提升人形机器人的智能水平和逻辑自洽性。与此同时,银牛还拥有丰富的三维空间多模态大模型数据库,可...……更多
网达软件:公司“视联网数字化智能平台”不涉及多模态模型 【网达软件:公司“视联网数字化智能平台”不涉及多模态模型】财联社12月8日电,网达软件发布异动公告,近日市场对于AI视频生成、多模态模型等相关概念较为...……更多
喜马拉雅音频大模型亮相,AI赋能内容创作者
...展示AI时代云上创新的潮流科技。喜马拉雅珠峰AI音频多模态大模型亮相云栖大会,在“人工智能+”主题馆吸引众多市民驻足围观体验。AI(人工智能)已经在深刻影响着我们的生活,也影响和改变着内容创作行业。作为在线音...……更多
反击OpenAI,谷歌放出最强悍大模型Gemini
... CEO戴密斯·哈萨比斯在谷歌官网联名发文,官宣了最新多模态大模型Gemini 1.0(双子星)版本正式上线。这个上线时间早于外界猜测的明年1月,保密程度很高,仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞...……更多
构建数字经济新引擎:枫清科技 高雪峰解读AI技术的未来趋势
...)创新性地推出了“一体两翼”产品矩阵,包括自研的多模态知识引擎与行业通用智能体平台,致力于构建未来通用人工智能(AGI)时代的核心数据基础设施,为企业提供大模型与知识引擎双轮驱动的解决方案。枫清·天枢多模...……更多
更多关于科技的资讯:
AI 工具赋能品牌:开启全新增长引擎
因为Deepseek的流行,2025年被称作中国AI智能体元年。在这股AI浪潮之下,许多品牌建设者是既兴奋又焦虑,兴奋的是新变革意味着新机遇
2025-12-17 08:09:00
2025“平安财萌杯”全国总决赛在深落幕,携手11万大学生共赴财商成长之约
近日,2025“平安财萌杯”大学生财经素养大赛全国总决赛在深圳平安金融中心圆满举行。本届大赛自8月启动以来,共吸引了来自清华大学
2025-12-17 08:39:00
鲁网12月16日讯近日,经过数月的精心筹备,建行泰安分行营业部成功举办首场“商叶云贷”专题直播推介会。本次活动精准覆盖全市19000户烟草零售商户
2025-12-17 09:24:00
东南网12月17日报道(福建日报记者 黄星榕)买了乐高等大型积木却没有时间和耐心拼装,想吃家常菜却苦于时间不够、厨艺不精
2025-12-17 14:02:00
《威图可再生能源行业解决方案》发布:严苛环境下的设备应用指南
从零下45℃的严寒到零上50℃的炙烤,从沙漠风沙到海上盐雾……在能源转型的浪潮席卷全球之际,中国可再生能源产业正以令人瞩目的速度发展
2025-12-17 14:11:00
4000+工程师竞技收官,第三届威图卓越工程师大赛圆满落幕
在智能化浪潮持续重塑工业格局的今天,人才的系统化能力与创新思维已成为驱动产业升级的核心要素。作为全球控制柜与开关柜智能制造领域的领导者
2025-12-17 14:11:00
捷翼科技:继往开来,智造全球汽车核心部件
在吉林省创新创业的热潮中,有一家名为长春捷翼汽车科技股份有限公司(以下简称捷翼科技)的企业,15年里,在周立新与王超母子的接力下
2025-12-17 23:03:00
大窑饮品2025产品战略解码:多元矩阵开辟增长新路径
鲁网12月17日讯2025年的饮品行业,已告别盲目的“流量争夺”和“数量竞赛”,转向对消费需求的精准洞察与价值锚定。面对需求分层
2025-12-17 14:19:00
为推进降本增效,人保财险江苏泰州市分公司聚焦支付渠道优化,通过系列举措降低微信收款占比,成效显著。公司构建“宣导+流程+考核”三位一体体系推进工作
2025-12-17 15:15:00
为破解传统车险报价慢、信息不透明等痛点,人保财险江苏泰州分公司上线“智能报价机器人”与“AI报价解读官”,以科技实现车险服务提质增效
2025-12-17 15:15:00
滨州联通打造全链条自主可控政务云平台 赋能数字政府建设
鲁网12月17日讯为响应国家“自主可控、安全可靠”战略号召,贯彻落实各级政府加快推进国产化自主可控替代计划,近日,滨州联通全力打造全链条自主可控政务云平台
2025-12-17 15:31:00
花粉探秘华为黑科技:AI影像与智慧交互开启未来体验
12月16日下午,花粉走进华为智能生活馆·曲江创意谷店,参与“华为黑科技体验日”沙龙活动,深度体验Mate80系列、MateX7折叠屏
2025-12-17 15:33:00
全球唯一!常州企业撬动掌上终端百亿市场
当你用手机向DeepSeek发送文本生成指令,或是借助短视频AI模板制作创意视频时,手机芯片的功耗常会骤升至平时的2.5倍以上
2025-12-17 16:07:00
随着社会快速发展和竞争压力持续增大,青少年心理健康问题日益凸显,已成为一项全球性的重大公共卫生挑战。据2025年发表于《柳叶刀-区域健康(西太平洋)》的研究显示
2025-12-17 16:19:00
5G-A闪耀银座茂周年庆!滨州移动打造通信保障新标杆
鲁网12月17日讯为全力保障12月14日银座茂“One岁节花漾”周年庆活动期间通信网络稳定、畅通,支撑商场促销、直播互动
2025-12-17 16:42:00