模态,清华,领衔,模型,视频,音视头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

本周（4.8-4.14）AI界发生了什么？

...源：论文论文链接：AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息，马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外，Grok现在可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图...……更多

2024-04-14 20:33:00模型,特斯,马斯,芯片,融资,英特

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有效加速」和「超级对齐」已经成为两个主要的发展动向，...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

聚焦前沿赋能产业，第五届“马栏山杯”国际音视频算法大赛开赛

...法赛”聚焦最前沿人工智能研究算法课题，围绕AIGC、大模型和人工智能领域热点技术，设置大模型逻辑推理比赛、AIGC生成图像判定赛、基于多样性的跨域推荐挑战赛三大赛题，以大模型赛题，探索垂类领域小参数量大模型的逻...……更多

2024-06-16 10:30:00音视,山杯,第五届,算法,大赛,产业

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...音乐理解和生成结合在一起的想法比较新颖，论文也是多模态大模型领域的先期工作之一。并且，除了大模型本身，我们提出的针对模型训练的数据集制作流程和整理的数据集，对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

清华大学获芯片领域重要突破！

...广”：分布式广度光计算架构。智能光计算作为新兴计算模态，在后摩尔时代展现出远超硅基电子计算的性能与潜力。然而，其计算任务局限于简单的字符分类、基本的图像处理等。其痛点是光的计算优势被困在不适合的电架构...……更多

2024-04-12 10:19:00清华大学,清华,芯片,突破,领域,大学

荣耀MagicOS 8.0发布，定义新一代人机交互

...法OS8.0的IUI支持自然语言、语音、图片、手势、眼动等多模态的交互方式，可智能识别用户意图，进行快速推理决策，主动提供个人化服务，高效完成复杂场景任务闭环，大大降低OS的使用门槛，带来了交互效率的提升。IUI这一...……更多

2024-01-10 19:00:00荣耀,人机,新一代,荣耀,模型,魔法

特斯联完成20亿元D轮融资，国际国有资本双领投

...汤科技等新老股东一同跟投。所募资金将用于完善具有多模态能力的领域大模型在园区、企业、经济、能源等多场景的应用，打造高灵活度、高性能的智算基础设施，构建技术壁垒，进一步在人工智能物联网领域的国际竞争格局...……更多

2024-04-09 11:26:00特斯,融资,国有,资本,国际,特斯

Sora刷屏标贝科技AI配音为音视频内容创作插上翅膀

...】新年伊始，OpenAI 扔出一枚重磅炸弹——发布文生视频模型 Sora。作为一款全新生成式人工智能模型， Sora能够根据文本指令创造出既逼真又富有想象力的场景，生成多种风格、不同画幅、最长为一分钟的高清视频。从OpenAI 官网...……更多

2024-02-29 12:00:00音视,配音,翅膀,创作,内容,科技

北京智源研究院发布原生多模态世界模型Emu3

...者刘峣）近日，北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成，成功验证了基于下一个token（词元）预测的多模态技术范式，释放其在大规模训练和推理上...……更多

2024-10-24 05:12:00模态,北京,研究院,模型,研究,世界

苹果AI登场，与OpenAI合作，Siri将采用GPT-4o

...AGI：张亚勤院士点名了AI大模型的五个发展方向，包括多模态智能、自主智能、边缘智能、具身智能、生物智能。他认为，无人驾驶是未来五年最大具身智能应用，并且是第一个通过“新图灵测试”的具身智能。2025年，实现无人...……更多

2024-06-11 09:00:00情报局,独角兽,情报,芯片,进展,苹果

基于大模型做电商“内容工厂”，「极睿科技」获顺为领投B轮融资

...IP” 对Zero-Shot领域的图片识别、智能分类、智能标签与多模态搜索等环节，均有出色的效果，可被应用于包括文生图、图生图在内的多种图像生成形式。而除了基于公开数据集进行训练外，更重要的是数年间极睿数据积累的商品...……更多

2023-11-14 09:02:00电商,融资,模型,工厂,内容,科技

Sora冲击波抢人“饭碗”促生新职业？

...业也在申请文生视频相关专利。天眼查数据显示，近日，清华大学申请的“一种定制化多主体文生视频方法、装置、设备及介质”专利公布。摘要显示，该申请涉及神经网络技术领域，基于第一损失、第二损失与第三损失对文生...……更多

2024-03-02 09:59:00冲击波,饭碗,冲击,职业,视频,文生

美国东北大学提出视频数据增强方法，能让视频模型学到更好的表征

...张一天等人重新审视了色调变换这一操作在视频数据这一模态下的作用，并观察到了完全相反的现象，即这种操作能让视频理解模型的性能和泛化性得到提升。通过进一步地分析其在不同模态数据下（图像/视频）表现差异的原...……更多

2024-05-07 10:12:00东北大学,视频,美国,模型,方法,数据

大模型推动自动驾驶技术架构变革

...包含人驾行为的自动驾驶4D Clips数据；进一步升级引入多模态大模型，获得识别万物的能力；与NeRF技术进一步整合，渲染重建4D空间；借助LLM（大语言模型），让自动驾驶认知决策具备了知识。顾维灏也提到，毫末DriveGPT大模型...……更多

2023-10-12 12:53:00变革,架构,模型,驾驶,技术,驾驶

全面叫板OpenAI！谷歌发布多模态大模型全家桶：从AI助手

...先一天后，科技巨头谷歌不甘示弱，推出了自己的最新多模态AI（人工智能）产品。当地时间5月14日，在谷歌I/O开发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，...……更多

2024-05-15 09:54:00文生,模型,模态,全家,助手,视频

网达软件：公司“视联网数字化智能平台”不涉及多模态模型

网达软件：公司“视联网数字化智能平台”不涉及多模态模型【网达软件：公司“视联网数字化智能平台”不涉及多模态模型】财联社12月8日电，网达软件发布异动公告，近日市场对于AI视频生成、多模态模型等相关概念较为...……更多

2023-12-08 20:40:00网达,模态,模型,数字,智能,平台

阿里通义上新：AI终于能做真正的PPT了！还免费

...面，通义PPT支持1000万字长文档，包括PPT、PDF和网页。多模态方面，支持上传最长6小时的音频、视频，也可以输入链接导入线上音视频。文生图功能，则是引入了通义万相的能力。三合一“通义效率”值得一提的是，与PPT创作...……更多

2024-09-02 06:05:00通义,阿里,通义,模型,实时,效率

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，真正意义上实现了多模态交互。紧随其后一天，年度Google I/O开发者大会如期而至，谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新，...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

【产业互联网周报】字节回应被曝秘密利用OpenAI；英特尔预

...，但其中未见蔡英华的动向。（36氪）贾佳亚团队推出多模态大模型LLaMA-VID据介绍，该模型可支持单图、短视频，还可以将3个小时的电影或视频精简为数个Token，直接使用大语言模型进行理解和交互。（36氪）蚂蚁集团回应职级...……更多

2023-12-18 22:02:00马斯,英特,英华,马斯克,英特尔,阿里

Pika、阿里同日炫技！国产视频大模型奋起直追

...频，表情、五官、姿势都会产生非常自然的变化。在AI多模态领域，科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成，Sora的火热更是一石激起千层浪，同类产品发布你追我赶，战况之焦灼可见一斑。在该...……更多

2024-03-01 09:26:00阿里,奋起,模型,国产,视频,视频

今年 WISE大会的“AIGC”含量有多高？超有料揭秘提前看

...自动化、智能化的方式，将文本、图像、音频、视频等多模态数据重新组合，创造全新和从未有过的内容，在降低成本的同时，也打破了各个模态之间的“技术壁垒”，这就是视频AI的优势所在。11月8日，36氪WISE2023主题视频重磅...……更多

2023-11-17 14:49:00含量,大会,模型,文心,应用,商业

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

AI时代如何破局—2023网易未来大会首日顺利收官

...士、中国脑科学计划的筹建者和推动者之一，发表了《多模态具身智能与未来机器人》主题演讲。张院士表示，现在非具身人工智能发展迅速，然而在制造、未来出行、大健康、农业、家庭和教育方面，现在纯人工智能还没有很...……更多

2023-12-23 12:31:00网易,大会,时代,中国,网易,模型

AI 3D生成天花板再拉升！清华团队炼成3D Scaling

...眼前一亮，更高的可控性也是一大特点。输入不仅支持多模态，当选择文生3D模型模式时，还支持输入负向prompt（就是不让生成模型中带有什么元素）。对输出模型姿态的控制性也很绝。既能自定义所生成3D模型头、腿、手臂等...……更多

2024-09-21 09:46:00清华,天花,天花板,生成,团队,模型

200余位顶尖学者和产业专家共议人工智能热点问题

...源研究院院长王仲远介绍了智源研究院在语言大模型、多模态大模型、具身大模型和生物计算大模型的前沿探索和研究进展，以及大模型全栈开源技术基座的迭代升级与版图布局。王仲远表示，未来，大模型将以数字智能体的形...……更多

2024-06-14 22:21:00人工智能,顶尖,人工,学者,热点,智能

谷歌发布Gemini，机构看好多模态AI应用商业变现前景，软

近日，多模态AI概念持续活跃。谷歌等科技公司也纷纷推出了新的多模态AI产品，大模型多模态化有望成为AI领域的热门趋势。综合多家机构观点，AI多模态模型的不断突破和加速落地，有望进一步打开AI应用商业化空间。截至12...……更多

2023-12-13 11:15:00模态,份额,前景,观察,增长,机构

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...zhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本