我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

开源狂潮让巨头惨败，谷歌内部文件曝光

类别：科技发布时间：2023-05-07 20:36:00 来源：浅语科技

谷歌的一份名为《我们没有护城河，OpenAI也没有》的内部文件疑似被泄露，

今天早上，外媒SemiAnalysis公布了这份重磅炸弹泄露文件。

据悉，这份文件是一名匿名人士在Discord服务器上分享出来的，文件来自谷歌内部的一名研究员，真实性已被确认。

SemiAnalysis特别强调，这份文件仅代表谷歌员工的意见，不代表整个公司的意见。内部文件

我们没有护城河，OpenAI也没有

我们一直在严密监视着OpenAI。谁将跨越下一个里程碑？下一步将是什么？

但现在，令人不安的事实就是：我们无法赢得这场军备竞赛，OpenAI也不能。

就在我们两方对战的时候，第三方正在悄悄地吃掉属于我们的好处。

没错，我说的就是开源。说白了，他们已经超越了我们。我们认为的「重大开放问题」如今已经解决，掌握在所有用户手中。几个简单的例子：

手机上的LLMs：在Pixel6上，以每秒5个token的速度，就能运行基础模型。

可扩展的个人AI：只要一个晚上，就能在笔记本电脑上微调出一个个性化AI。

负责任的发布：这一点倒是没有「解决」，说「避免」会更贴切。现在网上到处都是充满了各种艺术模型的网站，没有任何限制，开源的大语言模型也不甘其后。

多模态：当前的多模态ScienceQASOTA，只用一个小时就能训练出来。

虽然我们的模型在质量上仍然略有优势，但差距正在以惊人的速度缩小。

这些开源模型更快、更可定制、更私密，性能也更强大。

他们只用100美元和13B的参数，就能做到我们用1000万美元和540B的参数下才能做的事。他们在几周内完成，而不是几个月。

Vicuna-13B的质量达到OpenAIChatGPT和GoogleBard的90%*以上

这对我们有着巨大的冲击：

我们没有独家秘密武器了。最大的希望就是，学习其他人正在做的事，与他们合作。我们应该优先考虑允许第三方集成。

当这些免费的、不受限的开源平替具有完全相当的质量，用户不会再为受限的模型付费了。我们应该考虑下，我们真正的增值在哪里。

巨型模型正在减慢我们的速度。从长远来看，最好的模型是那些可以快速迭代的模型。既然我们知道在参数少于200亿时模型会有怎样的可能，我们就应该更关注小模型。

https://lmsys.org/blog/2023-03-30-vicuna/发生了什么

3月初，随着Meta的LLaMA被泄露给公众，开源社区得到了第一个真正性能强大的基础模型。它没有指令或对话调整，也没有RLHF。

尽管如此，开源社区立刻明白：他们得到的东西有多么重要。

随后，大量创新的开源平替模型不断地涌现出来。每隔几天，就出现一个大进展。

才短短一个月，就有了指令调整、量化、质量改进、人工评估、多模态、RLHF这么多功能的变体，许多还是建立在彼此的基础上的。

最重要的是，他们已经解决了规模的问题，现在任何一个人，都可以参与其中。

如今，许多全新的想法都来自普通人。训练和实验的门槛已经大大降低，从前需要一个大型研究机构合力工作，现在，只需要一台功能强大的笔记本，一个人在一晚上就能搞定。我们本可以预见到这一切

这对任何人来说，都不算什么惊喜。图像生成领域的复兴之后，紧接着就是开源LLM的复兴。

许多人说，这就是大语言模型的“StableDiffusion”时刻。

在这两个领域，让公众能够以低成本参与，都是通过低秩适应（LoRA）来实现的。它让微调机制的成本大大降低，

还实现了模型规模的重大突破。（比如图像合成的LatentDiffusion，LLM的Chinchilla）

在获得足够高质量的模型后，世界各地的个人和机构都开始了一系列对模型的创新和迭代。而这些创新，也迅速超越了大科技公司。

在图像生成领域，这些贡献至关重要，使StableDiffusion走上了与Dall-E完全不同的道路。

StableDiffuision的开源，导致了产品集成、市场、用户界面的创新，而在Dall-E身上，这些却没有发生。

这样做的后果是显而易见的，StableDiffusion迅速占据了主流，与之相比，OpenAI的解决方案已经变得无关紧要了。

同样的事情是否会发生在LLM领域？目前还未知，但这两件事，有太多相似之处。我们错过了什么？

开源社区最近取得成功的很多创新，直接解决了我们还未解决的很多难题。

更多地关注他们的工作，可以帮我们避免重新造轮子。

LoRA是一种非常强大的技术，我们可能应该对它更加关注。

论文地址：https://arxiv.org/ pdf/2106.09685.pdf

LoRA通过将模型更新表示为低秩分解来工作，这将更新矩阵的大小减少了数千倍以上。

这就让模型微调的时间和成本都大大降低。

如果在几个小时内，就能在消费级硬件上微调出一个个性化的语言模型，这件事的意义就太重大了。尤其是，它还可以实时整合许多最新的、多样化的知识。

但这项技术在谷歌内部并未得到充分重视，尽管它直接影响了我们最寄予厚望的项目。从头开始重新训练模型，是一条艰难的道路

LoRA如此有效的部分原因在于，与其他形式的微调一样，它是可堆叠的。

可以应用指令调整改进模型，这样在其他贡献者添加对话、推理或工具时，就可以直接使用。

虽然单独的微调是低秩的，但它们的总和不需要，因此模型的全秩更新就可以随着时间的推移而累积。

这意味着，只要有新的、更好的数据集和任务出现，模型就可以以低廉的成本保持最新状态，无需支付完整运行的成本。

相比之下，从头开始训练巨型模型不仅会失去预训练的过程，还会失去在顶部进行的任何迭代改进。

在开源世界中，这些改进很快就会占据主导地位，这使得全面重新训练模型的成本极其昂贵。

我们应该考虑，每个新的应用或想法是否真的需要一个全新的模型？

如果我们真的有重大的架构改进，以至于无法直接重新使用模型权重，那么我们应该去投资更积极的蒸馏形式，来尽可能多地保留上一代模型的功能。

如果我们能够在小模型上快速迭代，那么从长远来看，大模型并不是强到无所不能

LoRA（大型语言模型的低秩适应）是微软提出的一种新颖技术，旨在解决微调大型语言模型的问题。

它的更新对于最受欢迎的模型大小来说非常便宜（约100美元），这意味着几乎任何有想法的人都可以生成一个，并分发出去。

以后，一天之内训练一个模型都是平平事。

以这样的速度，用不了多久，这些微调的累积效应很快就会弥补起初的模型大小的劣势。

事实上，这些模型的改进速度远远超过了我们使用最大模型所能做的，而且最好的模型与ChatGPT在很大程度上已经无法区分。

专注于研究一些大模型，反而让我们处于不利地位。要数据质量，不要数据规模

许多项目通过对小型、精选数据集上进行训练来节省时间。这表明数据扩展规律具有一定的灵活性。

这样数据集的存在源于「DataDoesn'tDoWhatYouThink」一文中的思路，它们正迅速成为在谷歌之外进行训练的标准方式。

这些数据集是通过合成方法（比如，从现有模型中筛选出最佳响应）和从其他项目中搜集而构建。谷歌在这两者中都不占主导地位。

幸运的是，这些高质量的数据集是开源的，因此可以免费使用。与开源直接竞争，是一个失败的命题

AI新进展对谷歌的商业战略有着直接、即时的影响。如果有一个免费的、高质量、且没有使用限制的替代品，谁会为谷歌产品付费？

而且我们不应该指望能够赶上。现代互联网之所以依赖开源，是有原因的。开放源码有一些我们无法复制的显著优势。

比起他们需要我们，我们更需要他们

我们技术的保密一直是一个脆弱的命题。

谷歌的研究人员正定期离开，前往其他公司。所以我们可以假设他们知道我们所知道的一切。而且只要这条渠道是开放的，他们就会继续这样做。

但是，由于LLM的前沿研究成本低廉，保持技术领域的竞争优势变得更加困难。

世界各地的研究机构都在相互借鉴，以广度优先的方式探索远远超出我们自身能力的解决方案空间。

我们可以试着紧紧抓住我们的秘密，而外部创新会削弱了其价值，又或者我们可以尝试着互相学习。

与公司相比，个人受到许可的限制程度较小

近来，模型的创新大多在Meta的LLaMA模型权重泄露之后进行的。

虽然这肯定会随着真正的开源模型变得更好而改变，但关键是他们不必等待。

「个人使用」所提供的法律保护以及起诉个人的不切实际意味着，个人在这些技术炽热时就能获得这些技术。作为自己的客户意味着，你理解用例

浏览人们在图像生成领域中创建的模型，从动画生成器到HDR景观，创造力源源不断地涌现出来。

这些模型由深入特定子类型的人使用和创建，赋予了我们无法企及的知识深度和共鸣。拥有生态系统：让开源为我们工作

矛盾的是，大厂竞相争先的背后，赢家就是Meta。

因为泄露的模型LLaMA是他们的，所以相当于他们有效地获得了整个星球价值的免费劳动力。

由于大多数开源创新都基于LLaMA，所以没有什么能阻止他们直接将其纳入自己的产品中。

拥有生态系统的价值，未来将不可估量。曾经的谷歌已经成功地在其开源产品（如Chrome和 Android）中使用了这一范式。

通过拥有创新发生的平台，谷歌巩固了自己作为思想领袖和方向制定者的地位。

我们对模型的控制越严格，开源替代品就越有吸引力。

谷歌和OpenAI都倾向于严格控制模型使用，开启一种防御性的反应。

但是这种控制只是虚构的，因为任何试图将LLMs用于未经批准的目的的人，都可以选择自由提供的模型。

谷歌应该在开源社区中确立自己的领导地位，通过合作来发挥引领作用。

这可能意味着要采取一些令人不安的步骤，比如发布小型ULM变体的模型权重。这必然意味着放弃对我们模型的一些控制。

但这种妥协是不可避免的。我们不能同时做到既推动创新，又控制创新。结束语：OpenAI怎么样？

鉴于OpenAI目前的封闭政策，所有关于开源的讨论可能让人觉得不公平。

如果他们不愿意，我们为什么要分享呢？但事实是，我们正通过源源不断地被挖走的高级研究人员与他们分享了一切。

在我们阻止这股潮流之前，保密是没有意义的。

最后，OpenAI并不重要。

相对于开放源代码，他们正在犯同样的错误，他们保持优势的能力必然受到质疑。

除非他们改变立场，否则开源替代品可以，而且最终会超越他们。至少在这方面，我们可以先行一步。开源时间线23年2月24日，LLAMA发布

Meta发布LLaMA，开源代码，但没有公布权重。此时，LLaMA尚未进行指令或对话调优。

与许多当前模型一样，它是一个相对较小的模型（参数分别为7B、13B、33B和65B），经过相对较长时间的训练，因此与其大小相比具有相当强大的能力。

23年3月3日，不可避免的事情发生了

不到一周，LLAMA就被泄露给了公众。Meta现有的许可禁止将LLAMA用于商业目的。

突然之间，任何人都可以进行试验。在整个社区，掀起了模型创新的海啸。23年3月12日，语言模型在烤箱上运行

一个多星期后，ArtemAndreenko成功在树莓派上运行模型。当时，模型运行速度非常慢，因为权重必须在内存中分页，实用性不强。

尽管如此，这为一系列缩小模型规模的努力奠定了基础。23年3月13日，笔记本电脑上的微调

第二天，斯坦福发布了Alpaca，它为LLaMA增加了指令调优功能。

然而，重要的是，EricWang的alpaca-lora仓库，它使用LoRA在单个RTX4090上几小时内完成了这个训练。

从这时起，突然间，任何人都可以对模型进行微调，引发了一场关于低成本微调模型的竞争。

许多铺天盖地的报道称xxx模型总共花费了几百美元。

更重要的是，低秩更新可以轻松地与原始权重分开分发，使他们摆脱了Meta原始许可的约束。任何人都可以分享和应用它们。23年3月18日，变得更快了

GeorgiGerganov使用4位量化在MacBookCPU上运行LLaMA。

这是第一个「无GPU」解决方案，速度足够快，实用性很强。

23年3月19日，一个13B型实现了与Bard的「平衡」

第二天，一个跨大学的合作发布了Vicuna，并使用GPT-4驱动的评估对模型输出进行定性比较。虽然评估方法值得怀疑，但该模型实质上比早期的变体更好。

最最重要的是，只用了300美元进行训练。

值得注意的是，他们能够使用来自ChatGPT的数据，同时规避其API的限制

他们只需从像ShareGPT这样的网站上获取令人印象深刻的ChatGPT对话样本。23年3月25日，选择自己的模型

Nomic创建了GPT4All，它既是一个模型，更重要的是，它也是一个生态系统。

所有人第一次看到模型（包括Vicuna）汇集在一个地方。训练费用:100美元。

23年3月28日，开源版GPT-3

Cerebras使用Chinchilla暗示的最佳计算计划和μ参数化暗示的最佳缩放（optimalscaling）来训练GPT-3架构。

这比现有的GPT-3克隆有很大的优势，代表了μ参数化在实际应用中的首次使用。这些模型是从零开始训练的，这意味着社区不再依赖LLaMA。23年3月28日，一小时完成多模态训练

LLaMA-Adapter采用一种新的参数有效微调（PEFT）技术，在一个小时的训练中引入指令调优和多模态。

令人印象深刻的是，它们只使用了120万个可学习参数。该模型在多模态ScienceQA上刷新了SOTA。23年4月3日，人们无法区分13B开源模型和ChatGPT

伯克利发布了Koala，这是一个完全使用免费数据进行训练的对话模型。

他们采取了衡量真实人类在Koala和ChatGPT之间的偏好的关键步骤。

虽然ChatGPT仍然稍占上风，但超过50%的时间，用户要么更喜欢Koala，要么无所谓。训练费用:100美元。23年4月15日，ChatGPT级的开源RLHF

OpenAssistant发布了一个模型，更重要的是，发布了一个用于通过RLHF进行对齐的数据集。

这一模型在人类偏好方面接近ChatGPT(48.3%:51.7%)。

除了LLaMA之外，他们还展示了这个数据集可以应用到Pythia-12B上，为人们使用一个完全打开的堆栈来运行模型提供了选择。

此外，由于数据集是公开可用的，它使得对于小型实验者来说，RLHF从不可实现变得便宜，且容易。谷歌筑墙，啪啪打脸

虽说开源是胜利，但现在的谷歌却反身架起城墙，拒绝开源。

今年2月，长期担任谷歌人工智能部门负责人JeffDean对内宣布了一项令人震惊的政策转变：

推迟与外界分享内部工作。

多年来，Dean一直把部门当作一所大学来管理，鼓励研究人员大量发表学术论文。据GoogleResearch显示，自2019年以来，他们推动了近500项研究。

自ChatGPT诞生以来，一路风生水起，显然让谷歌一时慌了神，并就此必须做出改变。

Dean表示，谷歌在人工智能领域的发现只有转化成产品后，才会共享论文。

JeffDean在谷歌研究部门的季度会议上表示，这家位于旧金山的初创公司OpenAI，通过学习团队的论文，才跟上了谷歌的步伐。

我们都知道，ChatGPT中的T便指的是谷歌Transformer架构，是以Transformer架构为核心的大型语言模型。

论文：https://arxiv.org/ pdf/1706.03762.pdf

为了追赶ChatGPT，谷歌开启了防御模式。这对谷歌来说，是一个重大转变。

这一政策首先是为了抵御一批强大的AI竞争对手，另外是为了保护其核心搜索业务、以及可能的未来。

然而正如内部文件泄露所称，谷歌不是胜者，OpenAI也不是，真正的赢家才是Meta。

开源的胜利，谷歌曾尝过。现在，是该做些改变了。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-05-07 23:45:24

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于惨败,狂潮,巨头,文件,模型,训练的资讯：

大模型涌现前，巨头涌入AI广告

...觉中国文 | 镜象娱乐，作者丨半盏茶自ChatGPT在全球掀起狂潮至今，市场上关于AIGC（生成式AI）未来的发展走势和商业场景的探讨愈演愈烈

2023-04-16 15:00:00

美AI巨头被控秘密“侵吞”数据

本文转自：科技日报繁荣背后存隐忧美AI巨头被控秘密“侵吞”数据对于科技公司来说，庞大的数据“肥料”是生成式AI的核心养分，也是大模型发展的必争之地。唯有足够的数据才能指导技术即时

2024-04-17 03:27:00

超30个国产大模型混战：华为百度阿里腾讯，谁能成为“中国的O

...，C端服务才是未来更大的机会。以大模型为代表的AI 2.0狂潮时代，将是一场持久战。打口水战没有意义，只有打通技术和商业的闭环，最后才有可能在混战中取胜。返回搜狐，查看更多责

2023-04-18 13:00:00

马斯克要求OpenAI恢复开源，背后是开源闭源路线之争

...完整数据集。这或多或少类似于Meta开源LLaMA的方式。”AI巨头的决裂2月29日，马斯克在旧金山法院对OpenAI及公司CEO阿尔特曼和总裁布罗克曼提起诉讼

2024-03-09 22:51:00

硅谷巨头内部文件泄露：67种用ChatGPT“打工”的方式首

ChatGPT 的爆火打了大公司们一个措手不及。起初，人们只是把 ChatGPT 当做又一个不知天高地厚的「人工智障」看待

2023-06-16 16:47:00

美国多名作家起诉meta、微软训练ai模型

...家近日向纽约联邦法院提起诉讼，指控Meta、微软等科技巨头未经许可使用他们的作品来训练AI模型。图源Pixabay这一作家团体周二提交了拟议集体版权诉讼

2023-10-20 16:55:00

围剿ChatGPT

...预期，但如今，在ChatGPT催化下，全球 AI 行业迎来新一波狂潮。这一次，AI 算法、算力、数据“三驾马车”同步突破

2023-04-25 14:30:00

谷歌将最新 AI 大语言模型渗透到广告业务

据报道，美国科技巨头谷歌正在把最新的生成式人工智能技术整合到其产品阵列中，而内部文件显示，谷歌网络广告业务成为最新整合的部门。文件显示，谷歌内部批准，在自动化广告业务和广告有关的

2023-05-18 12:56:00

2023服贸会｜专访百融云创陈昀彰：“模型-行业理解-应用”

...地场景2022年末，ChatGPT横空出世，在金融圈、科技圈掀起狂潮。AIGC、⽣成式⼈⼯智能、语⾔模型、⼤模型等概念层出不穷。进入2023年后，业内多家金融科技公司也加入到

2023-09-06 10:42:00

更多关于科技的资讯：

制造业高质量发展关键支撑：Quintus超高压技术突破产品性

在全球制造业向高质量升级的浪潮下，超高压技术正成为破解多行业性能瓶颈的关键支撑。作为全球超高压领域标杆企业，Quintus专注于超高压技术的研发与应用

2026-01-10 20:59:00

国家互联网信息办公室关于《互联网应用程序个人信息收集使用规定

为规范互联网应用程序个人信息收集使用活动，保护个人信息权益，促进个人信息合理利用，根据《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《网络数据安全管理条例》等法律法规

2026-01-10 21:56:00

浙江造，红遍中国年！万事利春晚红围巾成“新年硬通货”

随着2026马年临近，一条承载马年春晚吉祥寓意的红围巾，正成为年末备受瞩目的新春佳礼。作为总台文创官方合作品牌，万事利丝绸匠心推出的“骐骥驰骋”系列围巾与丝巾

2026-01-10 21:02:00

摄像头自动识违规！雄安的这个工地很“智慧”

1月4日上午，雄安新区启动区中国中化大厦二期项目施工现场，一个安装在工地入口的摄像头缓缓转动。当镜头捕捉到两名未按规定穿戴反光背心的工人走向施工区域时

2026-01-10 17:01:00

年货陆续上架春节“品质年味”一键备齐

离春节还有月余，我市各大超市的年货节已摩拳擦掌，准备登场。1月9日下午，永辉超市发布了2026年货节战略，本届年货节以“新永辉新年味”为核心主题

2026-01-10 17:54:00

西电杜敬利教授团队为太空天线装上“智能神经” 助其保持最佳形

在距离地球数百乃至数万公里的太空中，大型空间可展开天线如同一把把缓缓张开的“巨伞”，肩负着通信、遥感、深空探测等重要使命

2026-01-10 19:17:00

济宁移动圆满完成邹城福特纵横跨年联谊活动通信保障

鲁网1月10日讯2025年12月31日，邹城福特纵横公园跨年联谊活动热闹启幕。济宁移动以专业保障护航欢乐时光，圆满完成此次活动通信支撑任务

2026-01-10 15:41:00

乌山时评｜“晓风”再起拂动人心

近日，一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起，依旧能拂动人心？要知道

2026-01-10 08:14:00

AI陪练面试、AI帮筛简历招聘市场“AI味”更重了

厦门网讯（厦门日报记者何无痕）当前，招聘市场的“AI味”越来越浓。近日，记者调查发现，如今企业不再依赖传统的选才，开始尝试更智能

2026-01-10 08:30:00

@杭州人，你的信用能换钱了！

最近，杭州人的“信用幸福指数”又上涨了！信用消费专区在杭州市民卡App上线，用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣

2026-01-10 09:19:00

新春雅集财安相伴——邮储银行VIP客户插花暨金融反诈便民活

近日，邮储银行高新区支行以花为媒、以情相连，精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动，活动将花艺美学体验

2026-01-10 09:51:00

中亦科技以 IT 运维筑牢半导体产业增长之基

最近，半导体行业的目光都聚焦在一条“疯狂”的曲线上：内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命

2026-01-10 09:51:00

每周三周六10:30开抢贵州家电数码购新补贴券1月10日起

1月8日，贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》（下称《公告》），明确2026年贵州家电产品以旧换新

2026-01-09 23:02:00

整治伪智能要下真功夫

人工智能、物联网与5G技术的成熟迭代，让智能家居家电产品从高端小众走向大众消费，成为现代家庭标配。近日，江苏省消费者权益保护委员会发布专项调查报告

2026-01-09 17:10:00

动漫周边衍生品热销

动漫周边行业作为文化产业的重要组成部分，近年来呈现出快速发展的态势。近日，记者走访位于北京王府井的一家大型动漫主题实体店发现

2026-01-09 17:10:00

头条订阅服务

开源狂潮让巨头惨败，谷歌内部文件曝光