国内国际社会时尚情感人文汽车健康

头条订阅服务

体育娱乐财经军事科技游戏教育育儿

三国以色列人工智能AI ChatGPT 数字经济

我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

类别：科技发布时间：2023-11-04 14:46:00 来源：新智元

新智元报道

编辑：编辑部

【新智元导读】微软最近一篇论文爆料，GPT-3.5的参数量只有20B，远远小于之前GPT-3公布175B。网友表示，ChatGPT能力似乎「配得上」这个体量？

GPT-3.5只有200亿参数？

今天，大模型圈都被微软论文中的一纸截图刷爆了，究竟是怎么回事？

就在前几天，微软发表了篇论文并挂在了arXiv上，该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusion。性能方面，7500万参数的CodeFusion在top-1准确率指标上，可以与最先进的350M-175B模型相媲美。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

论文地址：https://arxiv.org/abs/2310.17680

这篇论文的工作很有意义，但引起大家格外注意的却是——

作者在对比ChatGPT（gpt-3.5-turbo）时，标称的参数量竟然只有20B！

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

在此之前，大家针对GPT-3.5参数量的猜测都是1750亿，这相当于是缩减了差不多十倍！

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

根据这篇论文的爆料，网友还去维基百科上更新了GPT-3.5的介绍，直接把参数大小改成了20B。消息一出，直接登上知乎热搜，网友们都炸了。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

有人表示，赶紧回头再把我之前模型蒸馏的博文拿出来复习复习。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

是「乌龙」还是「事实」？

网友的爆料贴一出，瞬间就引发了激烈的讨论。

目前，已经有超过68万人前来围观。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

这位老哥表示，论文的几位作者也都在用推特，估计过不了多久就会亲自下场解释。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

而对于这个神秘的「20B」，网友们也是众说纷纭。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

有人猜测，这很可能是作者手误打错了。比如原本是120B，或者200B。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

结合现实中的各项评测来看，确实有很多小模型能够取得和ChatGPT差不多的成绩，比如Mistral-7B。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

也许，这也是侧面证实了GPT-3.5体量真的不大。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

很多网友也认为20B的参数可能是准确的，纷纷发出感叹：

「这也太难以想象了！Falcon-180B和Llama2-70B，竟然都无法击败这款20B的模型。」

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

也有网友认为，gpt-3.5-turbo是精炼版的gpt-3.5。

而这次参数的「泄露」，正好从侧面印证了那些关于gpt-3.5-turbo表现不如旧版gpt-3.5的传言。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

不过，根据OpenAI的官方文档，除了已经不再使用的text-davinci和code-davinci，GPT-3.5家族全员都是基于gpt-3.5-turbo构成的。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

微软发布CodeFusion

而爆出GPT3.5只有20B参数的微软论文，是想介绍一个用于代码生成的扩散模型。

研究人员针对Bash、Python和Microsoft Excel条件格式（CF）规则的自然语言生成代码的任务来评估这个模型——CodeFusion。

实验表明，CodeFusion（只有75M参数）在top-1精度方面与最先进的LLM（350M-175B参数）相当，并且在top-3和top-5精度方面性能和参数比非常优秀。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

模型架构

CODEFUSION用于代码生成任务，它的训练分为两个阶段，第一阶段是无监督预训练，第二阶段是有监督微调。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

在第一阶段，CODEFUSION使用未标记的代码片段来训练降噪器和解码器。它还使用可训练的嵌入层L，将代码片段嵌入到连续空间中。

在第二阶段，CODEFUSION进行有监督的微调，使用来自文本-代码对数据。在这个阶段，编码器、降噪器和解码器都会得到调整，以更好地执行任务。

此外，CODEFUSION还借鉴了之前有关文本扩散的研究成果，将来自解码器的隐藏表示D融合到模型中。这是为了改进模型的性能。在训练过程中，在不同step中，模型引入一些噪声，然后计算损失函数，以确保生成的代码片段更符合预期的标准。

总之，CODEFUSION是一个执行代码生成工作的小模型，通过两个阶段的训练和噪声引入来不断提升其性能。这个模型的灵感来自于文本扩散的研究，并通过融合解码器的隐藏表示来改进损失函数，以更好地生成高质量的代码片段。

评估结果

下表总结了CODEFUSION模型与各个基线模型在top-1、top-3和top-5设置下的性能表现。

在top-1中，CODEFUSION的性能与自回归模型相媲美，甚至在某些情况下表现更出色，尤其是在Python任务中，只有GPT-3（175B）的性能稍微优于CODEFUSION（75M）。然而，在top-3和top-5方面，CODEFUSION明显优于所有基线模型。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

表下表展示了CODEFUSION和自回归模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各项基准任务上的平均多样性结果，考察了每个模型的前5代生成结果。

相对于自回归模型，CODEFUSION生成更加多样化的结果，表现更出色。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

在消融实验中，作者停止了去噪过程，并生成了在时间步t∈[0, T]范围内的当前状态的代码片段。利用归一化字符串编辑距离来衡量每个时间步长（每100步为一个增量）所获得的结果。

这一方法有助于总结和展示CODEFUSION模型的逐步进展，如下图所示。

微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

说了这么多，GPT-3.5的参数量到底是多少？GPT-4与GPT-3.5在技术和其他方面有着什么样的联系？

GPT-3.5是一个个小专家模型的集成还是一个通才模型？是通过更大模型的蒸馏还是更大数据训练？

这些问题的答案只能等到真正开源的时候才能揭晓了。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-11-04 18:45:05

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于微软,截图,参数,网友,论文,模型的资讯：

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CPU可跑

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CP

微软开源1bit大模型推理框架！现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现

2024-10-23 12:05:00

马斯克xAI发布首款大模型；苹果发布M3芯片；ChatGPT被曝仅200亿参数｜本周硅谷发生了什么？

马斯克xAI发布首款大模型；苹果发布M3芯片；ChatGPT

...3nm工艺加持的“M3芯片”，顺带展示了搭载M3的MacBook Pro。微软的一篇论文则意外曝光ChatGPT实际参数仅有200亿

2023-11-05 17:03:00

微软打造 13 亿参数小型 LLM AI 模型

微软打造 13 亿参数小型 LLM AI 模型

...积实际上效果并不见得更好，更多要看训练数据的质量，微软日前最近发布了一款13亿参数的语言模型phi-1，采用“教科书等级”的高品质资料集训练而成

2023-06-27 22:27:00

OpenAI举办“AI春晚”；李开复大模型破纪录 | 图灵周报

OpenAI举办“AI春晚”；李开复大模型破纪录 | 图灵周

...A股、美股的“超导概念股”都曾受影响，大幅波动。 03微软以安全问题为由限制员工访问ChatGPT图源：Pixabay在当地时间周四的一段时间内

2023-11-13 15:48:00

微软推出14b参数“最先进”小型语言模型

微软推出14b参数“最先进”小型语言模型

12月13日消息，微软今天宣布推出14B参数“最先进”小型语言模型（SLM）Phi-4，除了传统的语言处理外，它还擅长数学等领域的复杂推理

2024-12-14 00:08:00

大模型新趋势之MoE：现状、挑战及研究方向

大模型新趋势之MoE：现状、挑战及研究方向

...发各种新型MoE架构，以提升模型性能或实用性。如清华和微软联合提出MH-MoE5，通过多头机制弥补MoE原始缺陷，实现专家激活率由8

2024-11-04 16:00:00

微软发布旗下最小语言模型phi-2

微软发布旗下最小语言模型phi-2

11月17日消息，微软Ignite2023大会已拉开帷幕，微软在本次活动中发布了旗下最小的语言模型Phi-2，共有27亿参数

2023-11-17 14:00:00

挑战Scaling Law，Meta发布移动端350M小模型MobileLLM，性能比肩7B LLaMA-v2

挑战Scaling Law，Meta发布移动端350M小模型

...是唯一的路径，模型「以小搏大」的故事不断上演。先有微软更新；后有谷歌用。硬件方面，我们看到了AI功能逐渐与电子产品进行深度集成

2024-07-23 09:39:00

专家模型不要专家并行！微软开源MoE新路径

专家模型不要专家并行！微软开源MoE新路径

【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后

2024-11-12 09:57:00

更多关于科技的资讯：

出海再提速！锦江酒店（中国区）宣布旗下7天酒店出海，同日签约10个项目

出海再提速！锦江酒店（中国区）宣布旗下7天酒店出海，同日签约

锦江酒店（中国区）规模化出海再次迎来关键节点。10月31日，其于深圳正式宣布，国民品牌7天酒店将进军东南亚市场。这是继今年8月底

2025-11-01 10:02:00

拓宽合作渠道深化技术创新山西电机亮相亚洲国际展会

10月28日，亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚

2025-11-01 07:03:00

正式发布！视源股份牵头制定《娱乐用车载显示系统图像质量技术规范》团体标准

正式发布！视源股份牵头制定《娱乐用车载显示系统图像质量技术规

2025年10月23日，在全国音频、视频及多媒体系统与设备标准化技术委员会（SAC/TC 242）商用显示标准研究组第六次全会暨标准研讨会上

2025-10-31 08:20:00

中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展，以系统性创新重塑矿山作业安全

中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展，以系统性

在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上，中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注

2025-10-31 08:51:00

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰

2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&

2025-10-31 08:51:00

知与行｜推进县域特色产业数字化转型

■加快构建覆盖全域、经济适用、安全可靠的数字技术支撑体系，着力打通数据壁垒与业务断点，促进产业链各环节融通发展■建立功能完善

2025-10-31 09:05:00

世说新语丨AI时代，图书馆如何更“聪明”

在数字化、网络化、智能化的当下，图书馆的角色和功能正在发生深刻变化。究竟什么样的图书馆更“聪明”？近日，第五届长三角公共图书馆发展论坛在上海举行

2025-10-31 09:05:00

Mutual妙趣艺：全球战略+资源整合，打造文娱IP数字资产化标杆

Mutual妙趣艺：全球战略+资源整合，打造文娱IP数字资产

Mutual妙趣艺于2020年成立于美国加州，专注于文娱IP（知识产权）数字资产化领域。公司的核心定位是打造“数字资产领域的AWS”

2025-10-31 10:57:00

临沂联通获全国百城重点区域移动网络质量综合大奖

鲁网10月31日讯近日，“2025年第四届移动网络高质量发展论坛”在北京盛大启幕。在本次论坛上，工业和信息化部委托中国信通院权威发布了2024年“全国百城重点区域移动网络质量专项评测结果”

2025-10-31 11:43:00

当担保遇上AI：一场成长的“双向奔赴”

人工智能（AI）是新一轮科技革命和产业变革的重要驱动力量，广西聚焦国家所需、广西所能、东盟所盼，正加快构建一条“北上广研发+广西集成+东盟应用”的特色发展路径

2025-10-31 11:46:00

aigo国民好物成为第32届WCGC全球总决赛官方唯一翻译类供应商——以中国智造共铸无界对话的全球盛事

aigo国民好物成为第32届WCGC全球总决赛官方唯一翻译类

上海，2025年10月 —— 备受瞩目的第32届世界企业高尔夫挑战赛（WCGC）全球总决赛于2025年10月19日至23日在上海东庄海岸高尔夫俱乐部隆重举行

2025-10-31 11:52:00

让检测全面拥抱AI！科学指南针2025产品服务发布会举行

让检测全面拥抱AI！科学指南针2025产品服务发布会举行

让检测全面拥抱AI！10月30日，科学指南针2025年度产品服务发布会在杭州举办，来自高校院所、企业、分析测试中心等多方行业代表到场参会

2025-10-31 11:52:00

培育钻定制哪个品牌好？2025最新测评出炉，国产珠宝高性价比领跑榜单

培育钻定制哪个品牌好？2025最新测评出炉，国产珠宝高性价比

曾几何时，钻石承载着“钻石恒久远，一颗永流传”的爱情神话，而天然钻石的稀缺性更被赋予了极高的市场价值。然而，随着实验室培育钻石技术的突破性进展

2025-10-31 12:14:00

2025年商旅平台选型指南：从合规能力到生态整合的全景评估

在企业商旅管理从“费用管控”向“全流程智能管理”演进的关键时期，平台竞争力已不再局限于单一的预订功能，而是延伸至合规风控

2025-10-31 12:16:00

拓竹荣膺《时代》最佳发明，3D打印技术步入主流创新支撑体系

拓竹荣膺《时代》最佳发明，3D打印技术步入主流创新支撑体系

近期，《时代》周刊公布2025年度最佳发明榜单，揭示一个耐人寻味的现象：在300项突破性发明中，仅有4项被明确标注为3D打印创新

2025-10-31 12:19:00