• 我的订阅
  • 头条热搜
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...产业落地元年。时至今日,OpenAI在2024年初推出了文本到视频生成模型Sora,被认为是目前最好的视频生成模型,让大家看到了构建物理世界通用模型的可能路径。唐杰分析,“OpenAI极有可能在2024年推出下一代模型GPT-5,也许会有...……更多
实体“贾维斯” vivo发布PhoneGPT:可自动打电话定餐厅
...觉的感知和理解能力,能够对手机屏幕更深度的理解,在视频流的实时对话上也更加流畅自然。蓝心语音大模型、图像大模型和多模态大模型,综合能力都获得行业机构的高度认可,在多家专业榜单上位列第一。【本文结束】如...……更多
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...人工智能可以像人类一样感知和理解音频、文本、图像、视频等多种模态信息,并与人类进行更加自然高效的交互,展现出了强大的功能和广泛的商业应用前景。 多模态能力是实现通用人工智能的重要路径之一,也是趣丸科技...……更多
AI拜年火了,通义千问上线一张照片生成拜年视频
...全民舞王应用也迎来上新,用户可通过一张照片生成拜年视频,用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费“拍”全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...也不容易,因为我们需要的是多模态数据,但LLM无法直接生成图像,DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起,直接生成但文生图模型实际上很难对图像细节做到细微精...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的...……更多
CVPR最佳论文被生成式AI占领,清华武大华南农大上科校友获奖
...的场景运动建模方法,可用于通过静态图像生成无缝循环视频,还能实现与图像中对象的交互。这项研究来自谷歌,一作谷歌DeepMind研究员Zhengqi Li(李正奇)。最佳学生论文奖也一同公布。一篇BioCLIP: A Vision Foundation Model for the Tr...……更多
AIGC工具测评:生成式AI的产品表现如何
...工具,它们按功能可以划分为:文本生成、图像创作、音视频处理等多个类别。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前AI工具的全面视角。一、ChatGPT-4所属公司:OpenAI 发布时...……更多
又一生成式AI助手将“登机”!谷歌发布多模态Bard助理,交互式AI时代近了?
...lassification)——深度学习表明,人类可训练AI,对图像、视频、音频、语言等输入数据分类。目前人类正处于第二波浪潮“生成式AI”中,即“输入数据并生成新数据”。而未来的第三波浪潮将属于“交互式AI”,“对话才是未...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
AI视频生成赛道风起云涌,国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下,当下的视频生成模型各方面已经接近“以假乱真”的效果。但与此同时,大部分视频生成模型的准确程度、遵循指令的能力还...……更多
以假乱真,天工音乐大模型带来颠覆式AI体验
...0秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力,让模型具备多模态的情感理解与表达能力。 「天工SkyMusic」具有以下五大特点:1. ...……更多
本周硅谷发生了什么?| 高通第三代骁龙8;谷歌20亿美元追投Anthropic;联想拿出能跑大模型个人PC
...件的交互方式。未来,AI PC可以直接基于电脑上的照片和视频,直接剪辑生成内容。它也可以作为工作助手,写文档或者提炼总结要点。Meta公布2023年第三季度财报10月25日,Meta公布截至9月30日的2023财年第三财季业绩,第三财季...……更多
喜马拉雅音频大模型亮相,AI赋能内容创作者
...雅在云栖大会展示了“珠峰AI创作服务平台”:珠峰AI音视频创作平台,依托通义文本大模型对文本内容语义的深度理解,打造珠峰AI音频大模型,结合喜马拉雅独有的全品类音色库和数字人大模型,为创作者提供高品质的AIGC音...……更多
AI角色创作平台「捏Ta」完成超千万元融资
...以来,捏Ta的社交媒体曝光量已达到约2.5亿次,多次位列视频号动漫游戏日榜前十。捏Ta在社交媒体上的曝光。图源:看见概念捏Ta团队认为,AIGC技术的发展对图像生产带来的最大改变是,生产资料从原有的像素或图层,变成了...……更多
...提升数据精细化标注水平,积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设,不断提升智能算力综合供给水平;稳步推进公共算力服务平...……更多
我国自研视频大模型面向全球上线
输入文字描述或上传图片,就能生成一段逼真视频。近日,我国自主研发的通用视频大模型Vidu(www.vidu.studio)面向全球正式上线。据悉,这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分...……更多
依图科技“天问”大模型赋能安防,智慧应急跨越式发展
...始研究以Transformer为基础的大模型,并成功将图像感知、视频感知与大模型结合,推动了AI安防技术的跨越式发展。 安防行业,作为社会稳定和公共安全的重要保障,一直是科技创新的先行者。随着AI技术的不断进步,安防行...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。然而,这些模型在处理复杂的提示词时仍存在不足。例如,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时,模型可能会错误...……更多
活动回顾|当我们谈论Sora时,我们在谈论什么?
龙年伊始,Sora的发布引发热议,开启视频动画领域的AIGC新篇章。一夜之间, “AI创作”不再只是科技爱好者的美好构想,同时让普通人的AI创作从“文生文”、“文生图”进一步拓展到了“文生视频”。这是否意味着传统广告...……更多
...到在线平台的全面教育应用。平台可以处理学生的文本、视频和音频数据,识别学习行为与偏好,并动态生成个性化的学习路径和资源推荐,助力全面、智能化的教育服务。智能座舱一体化平台:基于MatrixOne的多模态数据处理能...……更多
“Sora”王炸,20篇研报带你走进人工智能(下载)
...工智能热潮还在席卷全球,OpenAI又在近日发布了首款文生视频模型“Sora”。人工智能的广泛应用将给人类未来的生产和生活方式带来巨大而深远的影响,并有望作为新的底层通用技术,点燃第四次科技革命!本期三川汇文化产...……更多
大模型到了该「验收」的时候
...AI PPT等新兴应用层出不穷,Sora的火热更是催生了一大批AI视频应用紧锣密鼓地集中亮相。在B端,“百模大战”与“Token价格战”连番上演,实打实地冲开了一片广袤的市场;两年前,GPT 3.5每百万Token的价格约为60美元,而今天,G...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...相关领域的研究,包括多媒体、计算机视觉、模式识别及视频处理。国内新闻字节跳动被曝秘密利用OpenAI技术打造自家大模型,字节跳动回应OpenAI封禁账户:正与OpenAI联系沟通据外媒报道,字节跳动一直在秘密使用OpenAI的技术开...……更多
...-1执行任务的成功率就会大幅下降。RT-2通过把互联网上的视频作为辅助训练数据,这在一定程度上提升了模型的泛化能力,但是由于进行数据采集的厨房里桌子的高度是固定的,一旦在真实世界里桌子的高度与训练数据中桌子的...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...g Law 的踪迹正在逐渐显现,比如时间序列预测以及图像、视频这类视觉领域。下面这张图来自投稿给 ICLR 2025 的一篇论文。论文发现,在把类似于 GPT 的自回归模型应用于图像生成时,Scaling Law 同样可以被观察到。具体表现为:...……更多
谷歌发布Gemini,机构看好多模态AI应用商业变现前景,软件ETF(159852)年内份额增长近1.5倍丨ETF观察
...比于单模态,多模态AI能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用,完成跨模态领域任务。中航证券认为,当前大模型应用仍处于技术不断迭代的快速成长初期阶段。未来,各类大模型将具备更强的多模...……更多
CybotStar——大模型一站式应用开发平台
...:CybotStar提供多模态的内容生成能力,包括文本、语音、视频等,帮助产业机构实现文本写作、代码生成、语音生成等基础性功能。 知识库:CybotStar提供了完善的知识库管理系统,支持产业机构高效搭建专属知识库和空间知识...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...据资源,并擅长挖掘数据背后的地理奥秘,甚至能够自动生成专题地图,为地理学研究提供全方位支持。“坤元”通过深度学习320亿词元及4万余条高质量地理学指令,构建了深厚的地理学语言基础。与通用语言大模型相比,它...……更多
AIGC落地应用:腾讯云如何助力产业智能化升级?
...人技术的前沿进展,如基于语音驱动的运动稳定的数字人视频合成,基于显式、隐式记忆增强的语音驱动数字人合成,身份匹配对应学习的高保真人脸驱动,基于解耦潜在运动表征的高保真数字人驱动、高保真音频驱动的歌唱数...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...大模型创新:推出中文原生文生图大模型,突破文字可控生成技术难题;3、全模态技术扩展:新增语音和多模态理解大模型,实现全模态AI技术升级;4、端侧大模型发布:隆重推出3B端侧大模型,能力更强、速度更快、更加安全和...……更多
更多关于科技的资讯:
2025年京津冀机器人产业链配套需求和供给能力征集工作启动京津冀共同做优做强机器人产业集群河北日报讯(记者米彦泽)从省工信厅获悉
2025-09-23 19:22:00
2025世界制造业大会|超聚变全栈数智化方案,为安徽建设“制造强省”贡献力量
大皖新闻讯 9月20日至23日,以“智造世界 创造美好”为主题的2025世界制造业大会主在合肥举行。记者在采访中注意到
2025-09-23 13:16:00
新品首销,烟台联通胜利路营业厅人气火爆
9月19日上午8时,iPhone 17系列新品在烟台联通胜利路营业厅正式首销,现场人气火爆,众多消费者一早前来,共同体验新一代旗舰产品的魅力
2025-09-23 13:36:00
PITAKA自研PitaTap™拍照按键,重新定义手机壳交互体验
近日,在2025年德国柏林IFA展会上,PITAKA凭借其自研的PitaTap™拍照按键的创新突破,一举夺得两家国际权威科技媒体SlashGear与BGR颁发的Innovation Awards奖项
2025-09-23 11:40:00
MOVA生态链企业获数千万融资,瞄准海外电动工具赛道、预计2025年营收破亿|硬氪首发
作者|黄楠编辑|袁斯来硬氪获悉,沃庭科技(苏州)有限公司(以下简称“沃庭科技”)近日完成数千万元天使轮融资,本轮资金将用于加大技术研发投入
2025-09-23 06:51:00
刘强东,正悄悄孕育“山姆杀手”
前不久,刘强东现身宿迁,又给老家人送上了一份大礼:四家京东折扣超市。有人问,这不是赚老乡钱吗,算什么礼物?因为这些超市主打的
2025-09-22 10:23:00
近日,合众人寿秦皇岛中支开展“鎏金岁月,匠心相伴”主题金箔手作沙龙活动,通过沉浸式手工体验,为参加客户呈现了一场融合艺术鉴赏与情感联结的特别回馈
2025-09-22 10:32:00
东港股份转型科技先锋 AI具身机器人深耕为民服务
海报新闻记者 宋嵩 张彤彤“您好,我是小智,有什么可以帮助您?”在政务大厅、大型展馆、学校可以看到忙碌的“小家伙”,它们各司其职
2025-09-22 10:33:00
“人拉肩扛”到“云端挖矿” 山东黄金的数智蜕变
海报新闻记者 张彤彤三山岛金矿的井下巷道里,5G信号正穿梭于岩壁之间,中控室的大屏上,矿石流动的情况与千米深的矿洞数据实时变化
2025-09-22 10:33:00
从莱阳田野到国际餐桌 春雪食品引领鸡肉调理品行业高质量发展
海报新闻记者 宋嵩故事的起点,要追溯到2012年。彼时,山东春雪食品有限公司在莱阳设立莱阳春雪食品有限公司,最初只是一家区域性的鸡肉加工企业
2025-09-22 10:37:00
大窑饮品重磅推出“宜养说” 植物蛋白赛道再添“实力派”
当下消费者正变得前所未有的理性,这一趋势在饮品市场尤为明显:“好喝”是基础,“健康”已成为新门槛。基于对“轻养生”需求的深度洞察
2025-09-22 10:38:00
近日,西贝创始人贾国龙与网红企业家罗永浩就预制菜价值展开的公开论战,将这一话题推向了舆论漩涡。这场争论背后,折射的正是全社会对食品安全认知的深化——从单纯的“无害”向更高层次的“真实
2025-09-22 10:38:00
从鼓房到健身房:无人值守场景重塑消费体验
本报记者 胡 静 □ 陈跃佳中午十二时,李先生步入街角的24小时无人便利店,扫码开门、自选商品、刷脸支付,全程耗时不足两分钟
2025-09-22 10:39:00
鱼竿里的“大国重器” 光威复材以碳纤维技术书写国产突围之路
海报新闻记者 宋嵩 张彤彤“以前用玻璃纤维竿,钓条十斤的鱼就胳膊酸,这碳纤维的又结实又轻,真是材料不一样了!” 威海的老钓手王师傅喜欢“炫耀”他的新鱼竿
2025-09-22 10:40:00
南山智尚:纤维经纬织就智造之路
大众网·海报新闻记者 康洁一条条线可以让提线木偶惟妙惟肖的表演,而一根根强度高、耐磨损的纤维可以实现机器人手部灵巧的运动
2025-09-22 10:41:00