• 我的订阅
  • 头条热搜
大模型“遍地”都是,谁能真正解放生产力?
...,其苦于人工标注久矣,不想再人工打标视频、图片等多模态信息。但市场现实情况是,供不应求:除了大厂以外,少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然,听到了太多客户关于大模型难以落地...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
科学家研发自动驾驶新模块,让自动驾驶场景理解更接近人类认知
...一款名为 LVAFusion 的模块,旨在更高效、更准确地融合多模态信息。图 | 徐冬阳(来源:徐冬阳)自动驾驶在路上应该具备学习优秀人类驾驶员的能力,因为人类在面对多数场景的时候,可以迅速地定位在关键区域。为了提高端...……更多
天风证券:视频AIGC加速突破 多模态应用发展正当时 【天风证券:视频AIGC加速突破 多模态应用发展正当时】财联社12月4日电,天风证券表示,文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、缺乏高质...……更多
讯飞星火V3.5上新体验:直击办公学习痛点 升级长文档、音视频和图文处理
...样开始遭到不耐烦的对待。然而,伴随着科大讯飞星火大模型V3.5功能上新,这个痛点终于要被解决了!近日,科大讯飞针对星火大模型V3.5版新增了多项“杀手锏”级功能升级,其中包括了对长文档、长图文、长音频和视频的支...……更多
...量效率,首次赋能光计算实现自然场景千类对象识别、跨模态内容生成等人工智能复杂任务。相关研究成果4月12日发表于《科学》。作为人工智能的“三驾马车”之一,算力是训练人工智能模型、推理任务的关键。倘若把大模型...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
AI音乐创作、水墨画、3D空间重建、6DoF,腾讯多媒体实验室领先技术亮相数贸会
...馆之宝”。XMusic支持视频、图片、文字、标签、哼唱等多模态内容作为输入提示词,生成情绪、曲风、节奏可控的高质量音乐,大幅降低了音乐创作的门槛。本次展会,XMusic团队为现场观众带来了最新的互动游戏。想体验零门槛...……更多
谷歌大模型Gemini视频被质疑造假、夸大宣传,官方回应:演示内容有剪辑|钛媒体焦点
...现Gemini能实时地感知人类的动作、直接做出语音回应等多模态技术能力。然而,有多个消息称,这段制作的演示视频夸大了Gemini技术能力,被质疑造假、夸大宣传等,实际上手时发现Gemini并不能达到视频中的效果。同时,这类营...……更多
北京,冲刺人形机器人第一城
...智能前沿核心技术,率先研制出国内领先、国际先进的多模态具身大模型和多形态机器人;打造一批具身智能标杆应用示范,率先实现具身大模型在万台机器人上的融合应用。 今年8月,石景山区发布《石景山区人形机器人产业...……更多
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
...个面向不同细分领域(视频生成、音乐和同声传译)的多模态大模型,同时给之前已有的通用语言模型、文生图模型、语音模型来了一波大升级。这些模型共同构建起了火山引擎的「豆包全模态大模型家族」。家族新秀:豆包视...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多
商汤科技sensetime推出“云端边”全栈大模型体系
...a5.0”性能超越GPT-4 Turbo:文理双修能力大幅提升,新增多模态交互自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。基于超过10TBtokens训练、覆盖大量合成数据,全新的“日日新SenseNova5.0”(以...……更多
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
...次发布基于CogVideoX的清影,使其大模型矩阵又扩充类一个模态。值得一提的是,这也是国内做语言大模型起家的大模型独角兽,首次推出视频生成产品——之前这个赛道更多的是字节、快手等短视频大厂,以及爱诗科技、生数科...……更多
...市建设工程安全质量及智慧管理标杆工地观摩学习活动在清华大学通州金融发展与人才培养基地项目启动。北京青年报记者获悉,目前全市在施工地约3500余个,其中近半数工地为“智慧工地”。当天上午,清华大学通州金融发...……更多
双录视频,创造你与偶像的私密时刻!
...案提供商。通过自主研发的领域大模型、大数据分析、多模态交互三大核心技术,打造了数字化洞察与营销、数字化服务与运营、数“智”底座三大产品矩阵,全面升级云呼叫中心、智能客服、智能外呼、质检陪练、智能音视频...……更多
「千诀科技」推出通用感知大模型,专注机器人全脑研发 |早期项目
...大产品突破。丘脑是一个多功能的脑区,用于将动物的多模态感官信息进行提取,传输至大脑皮层。丘脑的作用远超过一个简单的信息传递站,它除了收发感官信息以外,还要对其进行一定的处理,包括压缩、解析以及调节生理...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...布,“大杀器”Gemini 1.0,正式上线。Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenA...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
AI潮起 共筑数智之基
...大会上,中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座,并开放三大人工智能基地,加快大模型产业化、规模化发展,为数字中国建设注入更加强劲动能...……更多
钛动科技主办2024中国企业出海高质量发展创新大会
...我们站在全新的起点,AIGC的大模型商业化迅速落地,多模态内容生成质量、类型丰富度飞速提升,一个由AI技术引领的出海新时代已经到来。作为大会主办方,钛动科技创始人兼CEO李述昊以《通用人工智能趋势下的全球化产业观...……更多
开源证券:多模态模型再迎新突破,继续布局AI应用及算力
...议关注券商、银行。(三)券商行业掘金 开源证券:多模态模型再迎新突破,继续布局AI应用及算力1、OpenAI发布首个文生视频模型Sora,可输出长达60秒的视频2月16日凌晨,OpenAI发布了首个文生视频模型Sora。Sora可以直接输出长...……更多
海思推出了面向音视频行业的鸿鹄媒体解决方案
...顶盒、智能硬件等系列,同时也将支持智慧家庭端侧AI大模型的黑科技。AWE2024期间,海思还邀行业头部企业:长虹、创维RGB、菲斯特、海尔、火乐科技、华为终端、TCL华星光电、京东、九联、极米、康佳、中国移动终端公司、中...……更多
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
【新智元导读】全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出...……更多
李未可科技正式推出WAKE-AI多模态AI大模型
...科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。 该大模型围绕GPS轨迹+视觉+语音打造新一代LLM-Based的自然交互,同时多模态问答技术的加...……更多
依图科技“天问”大模型赋能安防,智慧应急跨越式发展
...防行业正经历着前所未有的变革。作为应用人工智能和多模态大模型的先锋领域,安防行业不仅展示了其强大的产业基础,更在发展新质生产力方面彰显出卓越的能力和潜力。依图科技,作为AI领域的先行者和创新者,多年来一...……更多
AI正在改变物理世界!2024云栖大会开幕 AI硬科技集结 共创“无法计算的价值”
...模型Qwen2.5系列,同时上架语言、音频、视觉等100多款全模态模型。相比2023年4月的初代通义千问大模型,Qwen-Max的理解能力提升46%、数学能力提升75%、代码能力提升102%、幻觉抵御能力提升35%、指令遵循能力提升105%,模型与人类...……更多
首届中国大模型大会在北京举行
...智能对人类社会的重要性开始,阐述了从语言大模型到多模态大模型的人工智能发展历程和核心技术。高文认为,大模型之路已经从语言大模型向多模态大模型过渡,中国人工智能需要自己的大模型底座来承载中文语料和中国历...……更多
更多关于科技的资讯:
鸿蒙微信正式版终于发布!腾讯:不到一年走完微信14年的路
快科技1月10日消息,9日晚,鸿蒙原生版微信正式上架华为纯血鸿蒙应用市场,该版本支持视频号、折叠消息转发、群红包、转账
2025-01-10 00:20:00
CES 2025:六大手机厂商缺席 一加和TCL成明星
备受瞩目的CES 2025已在美国拉斯维加斯盛大开幕。作为全球最具影响力的消费电子展会之一,CES吸引了来自世界各地的头部科技企业
2025-01-10 00:20:00
用GPT总结2024年的人 全破防了
2024 年过去了,你有被各种软件的年终总结刷屏吗?有的软件的总结对你来说无关痛痒:来到某鱼的第七年,卖出了 0 元的物品
2025-01-10 00:20:00
试完老板的秘密武器 我觉得年终奖有救了
每每到了年末,有人期盼着年终奖,有人在掰手指等放假,而有的人,却到了被剥层皮的时候。古话说得好,一年之计在于年终汇报。辞旧迎新的一场 “ 职场狂欢 ”
2025-01-10 00:50:00
记账App都这么多了 为啥还有程序员想写
最近世超发现一个现象。就是问大家点外卖、听歌用什么 App ,答案往往就在那几个里面选。可一旦问到 “ 记账用什么 App ”
2025-01-10 00:50:00
苹果副总裁憾别印尼!谈判尾声印尼部长竟重申iPhone 16禁令
苹果与印尼政府的交易在周三出现反转。据知情人士透露,苹果公司全球事务副总裁Nick Amman已经在周三离开印尼,但其余团队成员将继续与当地部门进行谈判
2025-01-10 01:20:00
任天堂Switch 2全新高清渲染图公布:屏幕、手柄更大了!
快科技1月10日消息,日前,科技媒体91mobiles根据已知外观泄露,制作了任天堂Switch 2全新高清渲染图,展示了大量细节
2025-01-10 01:20:00
24.98万起 比亚迪这次想把MPV包圆了
昨天 1 月 8 日,中大型插混 MPV 比亚迪夏正式上市,共有 4 款配置,售价 24.98-30.98 万元,外观大气
2025-01-10 01:20:00
放射诊断技术涵盖X射线、计算机断层扫描(CT)、磁共振成像(MRI)等,是现代医学领域中用于诊断肺部疾病的关键方法之一
2025-01-10 05:07:00
摘要:笔者在幼儿园大班开展实践活动,采用观察、访谈、案例分析等研究方法,深入剖析户外自主游戏中幼儿的行为表现、兴趣倾向
2025-01-10 05:07:00
本文转自:人民日报本报记者  白元琪近年来,新加坡航天产业发展势头强劲,以太空经济为核心的新业态已成为推动经济增长的重要引擎
2025-01-10 06:19:00
美国双头连体人怀孕!腰部以下身体共享 谁才是孩他妈
姐姐艾比和妹妹布列塔尼,是美国最有名的连体双胞胎,她们最大的特点就是:有2个头,但腰部以下是共享的。早年因参加真人秀节目一举成名
2025-01-10 06:50:00
699元起!大疆发布DJI O4 Air Unit系列高清图传:最高可拍4K/120fps
快科技1月10日消息,大疆发布DJI O4 Air Unit系列高清图传,包括DJI O4 Air Unit和DJI O4 Air Unit Pro
2025-01-10 07:20:00
B站大会员服务调整!首次增加使用限制:同一时间最多可登录2台设备
快科技1月10日消息,日前,B站大会员服务协议进行了更新,将于2025年1月16日生效。此次调整主要是新增了三项“使用限制”
2025-01-10 07:50:00
彻底告别刘海、药丸屏!iPhone 18 Pro系列变成单挖孔
快科技1月10日消息,从iPhone 14 Pro开始,苹果引入了灵动岛挖孔,终于开始抛弃刘海屏。其实一直以来,苹果的终极目标就是打造一款完全无开孔的手机
2025-01-10 07:50:00