推理,模型,参数,模型,吞吐量,吞吐头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

DeepSeek的能力，到底从哪里来？

...测中，它的综合能力逼近当时的顶尖大模型，尤其在逻辑推理和数学题上展现出强劲性能，而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的，是它在训练方式上的简化。以往的模型在提升推理能力时，通常依...……更多

2025-05-27 10:23:00里来,能力,模型,训练,推理,能力

用60%成本干80%的事，DeepSeek分享沉淀多年的高性

...包括一些降低计算 - 存储整合网络中信息拥堵的方法、高吞吐量分布式文件系统 3FS 以及一个时间共享式调度平台 HAI Platform。最后，他们验证了这整套设计的稳定性和稳健性。下图总结了他们在 2023-2024 年遇到的内存和网络故障...……更多

2024-09-07 09:44:00高性能,架构,深度,多年,成本,学习

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。用 LTM 数据提升模型能力，使其能够自我进化在传统 LLM 中，更新模型通常需要调整所有参数，而如果目的是处理个体数据，那这种操作明显不切实际。...……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

... Yi-1.0 的持续预训练版本，使用 500B 个 token 来提高编码、推理和指令执行能力，并在 300 万个指令调优样本上进行了精细调整。刚一发布，就已经有开发者跃跃欲试：并收获了好评：与前序模型相比，Yi-1.5 系列模型进一步提升...……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

大模型降价背后，国产大模型的竞争逻辑变了

...市场拱手让人。另一方面，随着大模型产业的快速发展，推理成本飞速下降，也成为终端降价的基础。据百度官方透露，相比一年前，文心大模型的算法训练效率提升到了原来的5.1倍，周均训练有效率达到98.8%，推理性能提升了1...……更多

2024-05-29 09:29:00模型,逻辑,背后,国产,竞争,模型

开源社区分水岭：Meta大模型Llama 3发布，参数最高或

...行业基准测试上展现了最先进的性能，提供了包括改进的推理能力在内的新功能，是目前市场上最好的开源大模型。在架构层面，Llama3选择了标准的仅解码（decoder-only）式Transformer架构，采用包含128K token词汇表的分词器。Llama 3...……更多

2024-04-19 15:58:00分水,分水岭,模型,参数,社区,模型

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...型的参数可能超过数十亿，通常需要显存较大的GPU来加速推理过程。因此，越来越多的研究开始关注如何缩小模型，比如改进训练方法或使用适配器。该领域的一项主要技术被称为量化（quantization）。ML工程师Maarten Grootendorst撰...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

阿里又干了件大事：发布并开源全新推理模型性能比肩DeepS

...天凌晨，阿里巴巴又默默干了件大事：发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果。通过大规模强化学习，它在数学、代码及通用能力上实现质的飞跃，整体性能比肩DeepSeek-R1。在保持...……更多

2025-03-07 07:27:00阿里,推理,模型,大事,性能,全新

滨州移动织就“数字救援网”，赋能红十字演练通信零死角

...时小区21个，实现重点区域网络容量提升4倍，单小区峰值吞吐量达1.2Gbps，确保救援指令传输、无人机视频回传、单兵终端通信等关键业务零延迟、零丢包。智能监控，打造秒级响应中枢：演练期间，滨州移动构建“前后台联动...……更多

2025-10-11 14:44:00滨州,死角,红十字,演练,救援,通信

国产模型指令跟随全球第一！来自LeCun亲推的最难作弊LLM

...训练。故而，Step-2总参数量达到万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。此外，Step-2的训练过程中，阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术，支撑起了整...……更多

2024-11-22 09:54:00指令,模型,国产,全球,模型,模态

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...的开源模型，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯混元系列打造专属应用及服务，能够节约大量人力及算力。同时，各大模型研发团队均可基于腾讯混元模型进行研究与创新，加速行业创新步伐。据技...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

DeepSeek开源惠四方（科技名家笔谈）

...与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。坚持历史视角准确看待价值准确认识DeepSeek的价值和贡献，必须坚持历史视角，将其放在人工智能创新发展的...……更多

2025-02-24 05:52:00四方,名家,科技,人工智能,人工,智能

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...类模型低 75%。端侧友好：量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。统一高清框架，高效能力一拖三：小钢炮的传统优势 OCR 能力延...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升，数学/推理/代码/文创能力提升超过30%。（天工3.0模型参数超越Grok-1，成全球最大开源MoE...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

完美运行DeepSeek-R1 671B：摩尔线程MTT S

...院检测，摩尔线程自主研发的训推一体计算卡MTT S4000，在推理场景下与DeepSeek-R1 671B大模型的适配结果，符合“AI芯片和大模型通过性适配要求”，成功通过中国信通院《AI芯片和大模型适配能力通过性评测软硬件环境及测试细则...……更多

2025-05-07 20:11:00信通,摩尔,适配,线程,中国,芯片

美股异动丨金山云一度涨超13% 小米首个推理大模型MiMo开

...收涨14.2%，报7.4港元。消息面上，今天，小米开源首个为推理(Reasoning)而生的大模型“Xiaomi MiMo”，联动预训练到后训练，全面提升推理能力。在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上，MiMo仅用7B的参数规模，...……更多

2025-04-30 23:41:00金山,异动,小米,推理,模型,金山