我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

微软连发3款Phi-3.5模型：128K上下文，首用MoE架构，部分性能超GPT-4o mini

类别：科技发布时间：2024-08-22 09:49:00 来源：智东西

智东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！

微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instruct可胜任复杂推理任务，Phi-3.5-vision-instruct则兼具文本与视觉能力。

性能最强大的Phi-3.5-MoE-instruct模型有419亿个参数，在5个示例的MMLU测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。

这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct，而其参数规模还不到Llama-3.1-8B-instruct的一半。

微软本次发布的3款模型的名字中都带有“instruct”，这意味着模型专门针对遵循用户指令进行了优化，这对端侧模型来说是项极为重要的技能。

微软在开源模型库Hugging Face上详细公布了这3款模型的炼制过程，包括数据来源、数据规模、算力等等。3款模型均在MIT协议下开源，开发者可以自由使用、修改或出售软件副本。

项目地址：https://huggingface.co/microsoft/Phi-3.5-mini-instruct

一、连发三款轻量级模型，击败GPT-4o mini与Llama 3.1-8B

微软今天发布的3个Phi-3.5模型包括用于基础快速推理的Phi-3.5-mini-instruct（38.2亿个参数）、性能更为强大的Phi-3.5-MoE-instruct（419亿个参数）和视觉模型Phi-3.5-vision-instruct（41.5亿个参数）。

1、Phi-3.5-mini-instruct：A16芯片本地可跑

Phi-3.5-mini-instruct专为遵守指令而设计，此模型非常适合在内存或算力受限的环境中提供强大推理能力，能胜任代码生成、数学问题和基于逻辑的推理等任务。

尽管参数规模仅有38.2亿，但Phi-3.5-mini-instruct模型在多语言和多轮对话任务中表现出的性能不俗。它在许多基准测试中拥有较为先进的水平，并在长上下文代码理解任务中以明显优势超过了其它模型（Llama-3.1-8B-instruct和Mistral-7B-instruct）。

▲Phi-3.5-mini-instruct在长上下文代码理解任务中优势明显（图源：微软）

微软并未直接阐明Phi-3.5-mini-instruct能否在手机上运行，但与其参数规模的基本一致的Phi-3-mini在经过4位量化后，能在搭载A16仿生芯片的iPhone上流畅运行，生成速度超过每秒12个token。

2、Phi-3.5-MoE-instruct：微软首个专家混合模型

Phi-3.5-MoE-instruct是微软首个专家混合模型。这类模型将多种功能不同的模型组合起来，每种模型专注于特定的任务。

这款模型利用了具有419亿个激活参数的架构，但根据微软在Hugging Face上公布的文档，这一模型仅需66亿激活参数即可运行。

Phi-3.5-MoE-instruct在各种推理任务中表现出色，在代码、数学和多语言语言理解方面具有强大的性能，超过了参数规模更大的其它开源模型。

▲Phi-3.5-MoE-instruct对Python、Java等编程语言的掌握显著好于其它同类模型（图源：微软）

这一模型还在5个示例的MMLU测试中击败了GPT-4o mini。这一基准测试涵盖了科技、工程、数学、人文、社科领域的问题。

▲Phi-3.5-MoE-instruct在5个示例的MMLU测试中以微弱优势击败GPT-4o mini（图源：微软）

MoE模型的独特架构还能使Phi-3.5-MoE-instruct在处理多种语言的复杂AI任务时保持效率。这一模型支持包括中文在内的23门语言。

3、Phi-3.5-vision-instruct：适用于OCR、图表理解与视频摘要

Phi-3.5-vision-instruct兼具文本和图像处理功能。能在算力和内存不足的情况下提供较好的一般图像理解能力、光学字符识别（OCR）、图表和表格理解、多图像比较和多图像或视频剪辑摘要等能力。

这一模型能管理复杂的多帧视觉任务。微软强调，该模型是使用合成和过滤的公开可用数据集的组合进行训练的，专注于高质量、推理密集的数据。

二、训练时间最短不到1周，模型全部开源提供

微软还在Hugging Face上公布了这组轻量级模型具体的训练情况。Phi-3.5-mini-instruct模型用掉了3.4万亿个token的数据，训练算力来自512个英伟达H100-80G GPU，训练耗时10天。

▲Phi-3.5-mini-instruct的Hugging Face页面（图源：Hugging Face）

Phi-3.5-vision-instruct模型训练耗时更短，仅为6天。其数据量为5000亿个token，训练过程中使用了256个英伟达A100-80G GPU。

Phi-3.5-MoE-instruct的参数规模较大，因此训练时长为23天。这款模型使用的训练算力与Phi-3.5-mini-instruct一致，但数据量为4.9万亿个token。

3款Phi-3.5模型都在MIT许可下开源，这符合微软之前对开源社区的承诺。MIT许可证允许开发人员自由使用、修改、合并、发布、分发、再许可或出售软件的副本。

结语：微软轻量级模型再出成果，端侧AI潜力凸显

微软的Phi系列模型一直以轻量级为特点。今年4月底，微软发布了Phi-3系列模型，其能力水平大致与GPT-3.5相当，但运行的成本却远远低于GPT-3.5。仅仅4个月后，微软又将其轻量级模型的表现提升了一个档次。

开发算力要求较低的端侧模型，或许能让微软的AI PC和其它使用Windows系统的设备拥有本地化运行、低延时、高安全性的AI体验。苹果的Apple Intelligence背后也有一系列端侧模型，这显示出即便在模型尺寸越做越大、能力越来越强的现在，兼具性能与成本效益的端侧模型也有巨大潜力。

来源：微软、VentureBeat

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-22 11:45:09

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于上下文,微软,架构,模型,上下,性能的资讯：

GPT-4劲敌，谷歌进入高能+高产模式

...内的大模型而言，只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么？虽然Gemini 1.5 Pro是 Gemini 1

2024-02-21 14:05:00

AMD MI300绝杀英伟达H100？跑GPT-4性能超25

...希望一举打破英伟达的垄断地位。而AMD的MI300，在部署32K上下文窗口的GPT-4模型时，居然比H100效果更好

2023-11-06 15:12:00

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...层，相比 Mamba 可将 KV 缓存减少 32 倍。例如，在 256K 令牌上下文环境中，MixCon 仍能保持较小的 KV 缓存优势（如表 1 所示）

2024-10-16 13:34:00

林达华谈大模型发展之路：未来会有更高效的模型结构出现

大模型的上下文长度快速增长，超长上下文解锁新应用，但推理计算代价高昂，上下文本身对于信息不会进行压缩，不能直接捕捉其中的深层知识和规律。上海人工智能实验室领军科学家林达华。过去一

2024-03-25 10:53:00

微软宣布Team Copilot发布，年内将推出初步预览版

...此类新功能构建的Copilot现在可以利用内存和知识来获取上下文信息、推理操作和输入、根据用户反馈进行学习并在遇到不知道如何处理的情况时寻求帮助

2024-05-22 20:01:00

刚炮轰完GPT模式杨立昆推出首个“世界模型”

...。具体来说，Meta研究人员证明了使用信息（空间分布）上下文预测包含语义信息（具有足够大的规模）的大型块的重要性。▲I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示

2023-06-14 18:02:00

OpenAI为企业客户推出ChatGPT计划，与微软展开直接

...准GPT-4的两倍，并具有扩展的32000个令牌（约25000个单词）上下文窗口。上下文窗口是指模型在生成附加文本之前考虑的文本

2023-08-30 14:12:00

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

...T的DCLM，DCLM-7B模型又进一步过滤出其中的2.5T用于训练。上下文长度为2048，小于Mistral 7B和Gemma 2 9B的8k长度

2024-07-22 09:41:00

挑战Scaling Law，Meta发布移动端350M小模型

...层的参数占到了相当大的比例。比如，125M模型中要使用上下文长度32k、维度512的编码，输入和输出编码层就包含了16M的参数

2024-07-23 09:39:00

更多关于科技的资讯：

年入558亿，中国便利店之王，竟然是它

提起便利店大家脑海中出现的第一个名字是什么？罗森、7-11还是全家，可能每个人的答案都不一样。但如果是广东的朋友，那么答案一定是#美宜佳

2025-08-03 05:41:00

运动品牌营销细分，潮流基因强化圈层认同｜世研消费指数品牌榜V

本次监测周期内，安踏、耐克和斐乐以1.86、1.70、1.68的综合热度位列榜单综合热度前三。图源：世研大消费指数国货运动品牌场景痛点精准拆解

2025-08-03 05:41:00

最没存在感的河北特产，悄悄统治江浙沪？

提到河北衡水，估计不少人脑子里先冒出来的，是让全国学生闻风丧胆的衡水中学，以及一瓶名叫老白干的白酒。但在这两张耀眼名片外

2025-08-03 06:43:00

华立工业园：制造企业落脚海外的“工业唐人街”

过去一百多年来，唐人街是中国移民在海外聚居形成的经济和文化社区，往往也是新移民踏上陌生土地后落脚的第一站。对于许多刚刚“走出去”的中国制造企业

2025-08-03 06:43:00

对话蚂蚁集团张俊杰：AI 如何重塑医疗健康产业？

当大模型从技术奇点跃迁为产业基座，当智能体从实验室走进产线诊室，人工智能的第三次浪潮正以前所未有的锐度重构全球经济肌理

2025-08-03 06:45:00

让机器人拥有智能触觉，「悟通感控」获数千万元融资 | 36氪

36氪获悉，柔性触觉感知科技公司「悟通感控」近日完成数千万元系列融资：Pre-A轮由尚势资本领投、水木创投跟投；Pre-A+轮由广发基金瑞元资本领投

2025-08-03 06:45:00

打工人的终极难题：快乐和健康，我都想要

年轻人的「肠胃焦虑」新解法。撰文｜J封面图源｜《她的城》剧照在这个讲求效率与速度的时代，年轻人似乎比任何时候都更懂健康的重要

2025-08-03 06:45:00

这一次，普通人是主角

一只白鸽突然停在头上，会有什么样的故事发生？静静地等它飞走，留下羽毛扫过的温度。或者，赶快举起手机，记录下这珍贵的一刻

2025-08-03 06:45:00

破晓之光：2025 ChinaJoy AIGC大会圆满召开

2025年8月1日，ChinaJoy AIGC大会在上海浦东嘉里大酒店三层上海宴会厅2召开。大会以“破晓之光”为主题，围统“AI基建与大模型重构的黎明之光”

2025-08-03 07:45:00

绿色动力助推“算力引擎”，江苏银行绿色金融点亮太仓算力版图

7月，在太仓大数据产业园，世纪智联科技发展（苏州）有限公司算力中心项目宛如一条腾跃的巨龙，在江苏银行21亿元绿色授信支持下

2025-08-03 05:14:00

拥有超20亿个神经元，接近猕猴大脑规模全球首台！浙大类脑计

2日，浙江大学脑机智能全国重点实验室发布最新成果，新一代神经拟态类脑计算机——“悟空”问世。这是国际首台神经元规模超20亿的基于专用神经拟态芯片的类脑计算机

2025-08-03 07:46:00

全国产智能体MasterAgent：一句话造专属AI团队，专

MasterAgent坚持核心技术自主研发，确保从底层架构到上层应用的安全可靠如果说大语言模型让全世界看到了AI的潜力

2025-08-03 07:46:00

当一场国际音乐节落地，百威中国如何把握潮流密码？

情绪主导的消费时代里，啤酒行业正努力让每一代年轻人“上头”。情绪消费时代，一场音乐节仍然是年轻人的刚需11月，全球最大规模的电音音乐节Tomorrowland即将首次登陆中国

2025-08-03 07:47:00

用AI破局情境化学习，瓦拉英语发力在线英语教育

大模型时代来临之后，不少教育公司都在尝试使用AI生成课程内容，或利用AI生产高互动性、个性化内容，来提升教育的质量和效率

2025-08-03 07:47:00

建行南京分行：赋能首发经济，激发消费新活力

在消费越来越多元化的今天，首发经济正成为城市经济发展的重要引擎和消费增长的活力源泉。从新商业综合体的落成，到品牌开设首店

2025-08-03 06:44:00

头条订阅服务

微软连发3款Phi-3.5模型：128K上下文，首用MoE架构，部分性能超GPT-4o mini