• 我的订阅
  • 科技

本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现

类别:科技 发布时间:2024-02-17 19:48:00 来源:华尔街见闻

昨天是AI发展的其中一天,但似乎所有事情都同时发生。简而言之,你需要了解这些内容:

这篇文章将尽量从技术角度总结我们所知道的情况。

Sora:OpenAI 的文字视频模型

我们早就知道它会出现。但我还是被它的出色表现震惊了。你需要看一些人工智能生成的视频。OpenAI 发布了 Sora,山姆·奥特曼花了一整天时间在推特上分享其神奇世代的视频。当天晚些时候,OpenAI 发布了一篇技术性稍强的博文,证实了人们所关注的大部分传言。

简而言之,Sora 是视觉转换器(ViT)和扩散模型的组合。视觉转换器和 Sora 数据处理背后的核心理念似乎是将视频片段嵌入一个名为 "patch"的潜在空间,然后将其作为一个token。

引自 OpenAI 博客:

博文中提到了很多有趣的东西,但都不是真正重要的东西,比如模型大小、架构或数据。对我来说,数据几乎肯定是一大堆YouTube和一些程序化生成的视频(来自游戏引擎或其他自定义的东西,稍后详述)。需要知道的事情:

推特上的一个ML 的匿名账户挖出了一篇类似架构的论文。我将架构图复制如下。

本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现

Sora 最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI 将其描述为 "新兴的模拟能力")。在此之前,还没有任何文字视频模型能与之相媲美。几周前,谷歌的 Lumiere 刚刚问世,给人留下了深刻印象,但与 Sora 相比,它显得非常逊色。

有很多传言说,神经辐射场(NeRFs)是一种流行的图像 3D 重构技术,它可能会根据视频的特征(就像物理世界一样)在引擎盖下使用,但我们没有明确的证据证明这一点。我认为这是程序生成的游戏引擎内容。仅仅使用游戏是不够的,你需要一种生成数据多样性的方法,就像所有合成数据一样。我们在 HuggingFace 为 RL 代理构建的数据就是一个很好的例子。数据的多样性可能会在生成过程中释放出另一个层次的性能——我们在大型模型中经常看到这种情况。

所有关于 Pika 和 Runway ML(其他流行的 ML 视频初创公司)死亡的评论都完全是夸大其词。如果进步的速度如此之快,那么我们还有很多转弯。如果最佳模型来得快去得也快,那么最重要的就是用户接触点。这一点在视频领域还没有建立起来,而且,MidJourney 还在依赖 Discord(不过,用户体验还很不错)!

Gemini1.5:谷歌的有效无上限文本长度

在 Sora 发布前几个小时,谷歌已经发布了 Gemini 的下一个版本,令所有人震惊。这可能会给人们使用 LLMs 的方式带来的直接变化,可以说比 Sora 视频更有影响力,但 Sora 的视觉演示质量令人着迷。

总结:

谷歌可能找到了某种新方法,将长上下文的架构理念与他们的 TPU 计算堆栈相结合,并取得了很好的效果。据 Gemini 长语境的负责人之一Pranav Shyam说,这个想法几个月前才刚刚萌芽。如果以小版本(v1.5)而不是 v2 发布,肯定会有更大的发展空间。

作为一个思想实验,围绕 Gemini 1.5 的交流告诉你,你可以在模型的上下文中包含整个生产代码库(参见 Google 提供的示例)。这对于那些还没有流行到会为下一个 GPT 版本而被搜刮成百上千次的库来说,确实能改变它们的命运。作为一款企业工具,它价值连城。他们将 一千万个tokens可视化为多少内容,这可是一大笔财富。想想 3 小时的视频或 22 小时的音频在没有分割或损失的情况下被一个模型处理。

本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现

需要明确的是,付费的Gemini用户很快就能使用 100 万文本长度(类似于 ChatGPT plus 计划),而技术报告中也提到了 1000 万窗口。我认为,目前保留它更多的是出于成本考虑。任何模型的计算量都很大。

这个关于上下文长度的数字让我伤透了脑筋。最长的上下文窗口更精确。

本周AI不得了!OpenAI的Sora“模拟世界”、Gemini 1.5“10M上下文”、Mistral的开源新贵同日出现

看到这一点,我们就会明白,这个模型并不是一个变形器。它有办法通过非注意力模型路由信息。很多人提到了 Mamba,但更有可能的是谷歌利用优化的 TPU 代码实现了自己的模型架构。Mamba 附带特殊的 Nvidia 内核和集成。

这让我对未来感到非常兴奋,因为在未来,我们与之交互的模型会将计算分配给专门从事不同任务的子模型。我预计,如果我们看到 Gemini 1.5 Pro 架构图,它会更像一个系统,而不是普通的语言模型图。这就是研发阶段的样子。

著名的快速工程师Riley Goodside曾分享过这种类型的变化:

从根本上说,这意味着我们现在可以直接告诉模型如何在上下文中行动。微调不再需要能力。我认为这将会产生协同效应,而且当推理达到一定规模时,微调的成本会更低,但这还是令人兴奋的。

更多信息,请参阅谷歌Gemini 1.5 博客文章或技术报告。

最后,Perplexity 公司的首席执行官在接受采访时说,谷歌把他想聘用的人的待遇提高了四倍。这太疯狂了,我不知道这对谷歌来说是看涨还是看跌的信号。

Mistral-next: 另一种有趣的发布方式

如果这还不够的话,还有人告诉我,在 LMSYS 竞技场上,还有另一款 Mistral 型号在偷偷地聊天。我听说过另一款机型即将推出的传言,但这款机型显然更加真实。基本测试表明它是一款强大的机型。当然,Twitter 的暴民们现在会去举办更多的 vibes-evals 活动,但 Mistral 会很快告诉我们的。我猜这就是他们基于 API 的 GPT4 竞争对手。

原来它是一周前添加的,所以隐藏得很好。

本文主要翻译自Interconnects文章《OpenAI’s Sora for video, Gemini 1.5's infinite context, and a secret Mistral model》,原文作者Nathan Lambert

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-17 20:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
...刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。来自中国的视频生成模型,再一次震惊了全球大模型圈。生数科技推出的Vidu
2024-11-15 09:52:00
刚炮轰完GPT模式 杨立昆推出首个“世界模型”
...。具体来说,Meta研究人员证明了使用信息(空间分布)上下文预测包含语义信息(具有足够大的规模)的大型块的重要性。▲I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示
2023-06-14 18:02:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
...致训练成本飙升。“简单来说,就像做阅读理解时忽视了上下文的语义关系,导致生成图像中经常出现偏差需要反复修正,大幅增加了训练成本。”程明明说。如何降低训练成本、提高训练效率?研
2024-04-03 07:20:00
GPT-4劲敌,谷歌进入高能+高产模式
...内的大模型而言,只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么?虽然Gemini 1.5 Pro是 Gemini 1
2024-02-21 14:05:00
Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线
...息进行预测。应用至图像生成领域,“图像像素”则成了上下文信息:自回归模型通过将训练图像转换为一维序列输入,利用Transformer转换器自回归预测图像像素。这一方法的优势在
2023-06-16 18:14:00
英国ai初创公司wayve公布gaia-1最新进展
...个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不同类型的输入
2023-10-10 11:51:00
全面叫板OpenAI!谷歌发布多模态大模型全家桶:从AI助手到文生视频模型
...将具备多步骤推理能力。来源:谷歌谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1
2024-05-15 09:54:00
Kimi引爆人工智能新风口,龙头连续20CM涨停!哪些公司可
...宣布,公司旗下的kimi智能助手,已支持200万字超长无损上下文,并已开启产品内测。继昨日爆发后,kimi概念股今天(3月21日)继续上涨
2024-03-21 16:48:00
更多关于科技的资讯:
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(二):技术创新共享给安平丝网带来了什么
技术创新共享给安平丝网带来了什么——河北特色产业集群共享智造故事(二)11月21日,安平县高新区绿色产业园区,河北丝筘金属制品有限公司车间里
2025-11-27 08:12:00
海底捞、阿嬷手作等品牌接入,顺丰同城“独享专送”餐饮品类单量同比激增3倍
随着即时零售市场的持续扩张和竞争深化,消费者对即时配送的需求正从“送达”向“送好”升级,推动即时配送加速服务分层,以准时
2025-11-27 08:16:00
风格各异的手作店、静谧雅致的咖啡馆、独具韵味的民宿……如今,在河北很多城市的街头巷尾,小店经济快速发展,在促进消费、扩大就业
2025-11-27 09:02:00
济南海尔第九届感恩月重磅启幕 以真心回馈亿万用户信赖
鲁网11月27日讯11月26日,济南海尔感恩月启动会拉开帷幕。以更加诚挚的福利、更具力度的优惠,回馈用户多年来的信赖与支持
2025-11-27 11:05:00
伽利略智能仿生四足防爆机器人EX-1重磅亮相2025中国国际应急管理展览会 开创高危环境智能作业新纪元
2025年11月18日至20日,以"新质赋能 智慧应急"为主题的2025中国国际应急管理展览会在北京国家会议中心隆重举办
2025-11-27 11:47:00
2026中国特许加盟展全年档期正式发布:两展三会贯通全年,全球特许盛宴即将启幕
由全国性行业组织中国连锁经营协会主办的中国特许加盟展公布2026全年展会规划,将继续采取全国巡展模式,以"两展三会"的形式贯通全年
2025-11-27 11:47:00
中新经纬11月27日电 题:机器人去景点“上班”,游客的快乐从哪里来?作者 周慎 中国科学技术大学科技传播系副研究员、徽州人工智能研究院院长近日
2025-11-27 12:15:00
执“碳”为尺 绘就绿色物流新图景
鲁网11月26日讯冬日清晨的泰山脚下,山东省泰安市烟草专卖局(公司)送货员刘婷正用扫码枪轻触循环周转箱上的智能芯片,“您瞧
2025-11-27 12:15:00
中新经纬11月27日电 国务院新闻办公室27日举行国务院政策例行吹风会,介绍增强消费品供需适配性进一步促进消费政策措施有关情况
2025-11-27 12:20:00
海外科技媒体Tech Times:AI助手“灵光”让难题处理“如清风拂面般轻松”
蚂蚁集团11月18日推出的全模态通用AI助手“灵光”在国内迅速出圈后,引发海外科技媒体和社交平台的关注。美国知名科技媒体《科技时代》(Tech Times)报道称
2025-11-27 14:32:00
华为新品发布会藏惊喜!来华为浏览器解锁资讯获取新方式
2025年11月25日,华为Mate 80系列|Mate X7及全场景新品发布会如期而至,这场科技盛宴备受瞩目。在首发搭载的HarmonyOS 6操作系统与Mate 80新机的双重赋能下
2025-11-27 14:41:00
胜者智选:全人成长新范式 锚定教育变革核心
从体质强健到能力培养,从AI融合到成本理性化,教育行业正迈向健康底色、核心能力、创新素养的全人培养新阶段。在此背景下,胜者教育旗下核心品牌“胜者智选”以生态化布局回应时代需求
2025-11-27 14:43:00
网易云音乐“AI写歌”功能上线测试 普通人也能“玩”音乐
近日,网易云音乐旗下网易天音“AI写歌”趣味功能上线测试,旨在用AI降低音乐创作门槛,帮助音乐人更好捕捉灵感创意的同时
2025-11-27 14:44:00
智能引领 追求卓越 ——山东中烟青岛卷烟厂制丝车间山东烟叶专线生产运行纪实
一年,足以让一颗种子破土成苗,也足以让一条产线完成从“新生”到“成熟”的淬炼。站在山东中烟有限责任公司青岛卷烟厂制丝车间山东烟叶专线投产运行一周年的节点回望
2025-11-27 14:46:00
尚美数智酒店集团深化与华为、腾讯云合作,尚客优7为年轻人打造全新一代的住宿体验
2025年11月18日,尚美数智酒店集团联合华为、腾讯云共同推出尚客优7酒店和心里美智慧酒店3.0。全新尚客优7酒店产品以"为年轻人打造自由
2025-11-27 14:49:00