腾讯,权重,推理,模型,参数,代码头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...使用了穷举搜索来调整SplitK GEMM内核。因为每个线性层的权重矩阵都有不同的形状，如果要获得最佳性能，就需要针对每种矩阵形状调整Triton内核。Granite-8B和Llama3-8B的线性层权重矩阵规格如下：调整每个线性层后，相比未调整...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

谷歌再出大招，发布最新开源大模型Gemma，笔记本上即可运行

...型，沿用了创建Gemini模型时的技术和架构优势，提供两种权重的模型版本，分别是“Gemma2B”和“Gemma7B”，分别拥有20亿和70亿个参数，其中2B版本甚至能直接在笔记本电脑上运行。性能表现方面，Gemma7B在MMLU（大规模多任务语言...……更多

2024-02-23 09:18:00模型,运行,笔记本,笔记,模型,人工智能

MiniMax进化论：一群「偏执者」的破浪前行

...具使用场景（TAU-bench）中，MiniMax-M1-40k更是领跑所有开源权重模型，甚至超过闭源模型Gemini-2.5 Pro。数据显示，即使在30多轮长链路思考与工具调用任务中，MiniMax-M1-40k依然有极高的稳定性。那么问题来了，既然创新是大模型时代...……更多

2025-07-02 13:31:00一群,进化论,偏执,进化,模型,技术

微软发布旗下最小语言模型phi-2

...写电子邮件和故事，以及总结文本。在常识、语言理解和推理的基准测试中，该模型在某些领域能够跟上多达100亿个参数的模型。微软现在更新发布的Phi-2拥有27亿参数，规模虽然比此前版本翻番，但相比较其它主流语言模型，...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多

2024-11-23 09:42:00推理,模型,思路,原理,推理,模型

阿里万相视频生成大模型重磅开源！消费级显卡也能运行

...用Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在Github、HuggingFace、魔搭社区下载体验。据介绍，14B版本万相模型在指令遵循、复杂运动生成、物理建模、...……更多

2025-02-26 00:34:00阿里,重磅,显卡,生成,模型,运行

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

...需要企业对训练数据进行管理，并同时考虑到模型参数和权重的问题。借助Amazon Bedrock Model Distillation，客户只需针对给定用例选择最佳模型，并从同一模型系列中选择较小的模型，即可以合适的成本提供其应用程序所需的延迟。...……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

腾讯版“GPT-4o”来了！混元Turbo首发并上线，效率翻

腾讯混元又升级了，这次它变得更快、更强、更便宜。科创南方9月5日报道，今天，2024腾讯全球数字生态大会在深圳国际会展中心举行。腾讯集团副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏在现场宣布，混元Turbo已经在...……更多

2024-09-06 10:00:00腾讯,效率,价格,腾讯,模型,企业

pytorchtorchao正式发布,提供了一系列优化工具集

...高效训练。在推理方面，torchao提供多种量化方法，包括权重量化（Weight-OnlyQuantization）和动态激活量化（DynamicActivationQuantization），用户可以自有选择适合的量化策略，以获得最佳的模型推理性能。在稀疏性优化方面，torchao可以...……更多

2024-10-03 02:58:00工具集,工具,模型,可将,训练,推理

百川智能发布baichuan3稳定语言模型

...处理和代码生成领域的强大实力。不仅如此，其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4，是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

中国首个音乐SOTA模型「天工音乐大模型」今日公测

...全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升，数学/推理/代码/文创能力提升超过30%。（天工3.0模型参数超越Grok-1，成全球最大开源MoE...……更多

2024-04-17 15:31:00天工,公测,模型,音乐,中国,天工

算力直降97%，GPT-3存储只用20MB？！这篇新论文火了

...入了1-bit的LLM变体（即BitNet b1.58），其中LLM的每个参数或权重都是三元的{-1, 0, 1}。它在困惑度（perplexity）和最终任务性能上与全精度（FP16或BF16）的Transformer LLM相匹配，同时在延迟、存储、吞吐量和算力消耗方面成本更低。然而...……更多

2024-12-30 09:11:00文火,新论,存储,训练,小哥,模型

李彦宏替马化腾试错？

...彦宏的这一判断，马化腾似乎并不完全同意。就在昨天，腾讯集团召开的公司年会上，腾讯公司董事会主席、首席执行官马化腾这样说道："AI 也是去年一个重点，全行业甚至全世界的重点，我们总算能跟上第一阵列，不能算是...……更多

2024-01-31 21:00:00李彦,模型,腾讯,应用,文心,开发

CPU,正在被AI时代抛弃？

...足任务需求的条件下，提供多种针对网络激活层以及模型权重的低精度和量化方法，大幅度降低访存数据量的同时，充分发挥出英特尔®AMX等加速部件对BF16/INT8等低精度数据计算的计算能力。●多节点并行：支持张量并行（TensorP...……更多

2024-07-11 16:45:00正在,时代,模型,推理,英特,英特尔

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...上内容，还包括基本的图像去噪、边缘提取等能力。模型权重和代码已开源，用户可以自行探索更多 OmniGen 的能力。三、模型OmniGen 的核心设计原则是：简洁和有效。因此，我们最大程度舍弃了各种额外模块。OmniGen 的基本架构...……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...，未来可能还会出现更好的方法。组合 LTM 数据进行实时权重更新，从而实现自我进化当前的 LLM 通常分为训练和推理两个阶段。在推理阶段，模型权重是冻结的，防止模型根据新输入进行调整和学习。这种固定的推理过程会限...……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

...去，如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份，OpenAI 正式公开前所未有的复杂推理大模型 o1，这是一个重大突破，新模型既具有通用的能力，也可以解决比此前的科学、代码和数学模型能...……更多

2024-11-28 10:00:00模型,逻辑推理,中文,推理,逻辑,国产

阶跃星辰CEO姜大昕：强化学习不是AI的尽头，下一步是自主学

...联网工程研究院副院长姜大昕创办，此前获得上海国资、腾讯、五源资本、启明创投等投资，并位列六小龙之列。姜大昕表示，阶跃在成立之初，就规划了实现AGI的路线图，包括模拟世界、探索世界和归纳世界三个阶段。在模拟...……更多

2025-02-21 16:10:00大昕,学习,星辰,应用,大昕,模型

必然的命运：AI大模型冲向“免费轮盘赌”

...E Lite两款主力模型全面免费开放，即刻生效。效仿百度，腾讯云、讯飞星火也开走免费路线。腾讯云在22日将混元-lite模型调整为全面免费，同时宣布万亿参数模型混元-pro的API输入价格从0.1元/千tokens降至0.03元/千tokens。同天，科...……更多

2024-05-24 13:40:00轮盘,模型,必然,命运,模型,价格

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面，Qwen-72B在GSM8K、MATH测评中也领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力也有质的飞跃。△72B模型做数学题 ……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

杨仝团队发布FairyR1模型：5%参数量数学和代码能力超越

...在保证特定任务性能的前提下，大幅降低模型规模和潜在推理成本的可能性。北京大学杨仝教授团队表示：“FairyR1-32B模型是我们探索高效大型语言模型技术路线的阶段性成果。通过对蒸馏和合并方法的改进，我们初步验证了在...……更多

2025-05-28 14:17:00模型,团队,参数,能力,数学,代码

若愚科技推出九天机器人大脑，大模型总参数规模达130亿｜项

...翻译、思维链、工具使用等多种类型的指令数据, 在逻辑推理、关系推理、感知能力上都能呈现出较好的效果。基于自研的基于语言大模型和多模态大模型，若愚科技构建了多模态具身决策大模型，凭借人类世界通用知识和强...……更多

2023-12-26 09:36:00九天,机器人,大脑,模型,机器,参数

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...用与初始预训练相同的自监督算法。通常会涉及所有模型权重，并将一部分原始数据与新数据混合。微调微调是以监督方式使用带注释的数据，或使用基于强化学习的技术，来适配预训练语言模型的过程。与预训练相比，微调有...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...务器推理的开源千亿MoE大模型。开源地址Skywork-MoE的模型权重、技术报告完全开源，免费商用，无需申请。模型架构本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列，是其中的中档大小模型(Skywork-MoE-Medium)，模型的总参数量...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型

...能顶级会议 NeurIPS 2024 录用，目前已开放源代码和预训练权重。论文标题：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes 论文链接：https://arxiv……更多

2024-11-01 09:27:00模型,高质量,训练,数字,个性,模型

1-bit大模型还能再突破！新一代BitNet架构启用4位激

...和前馈网络（FFN）中的线性投影，以从头开始学习1.58 bit权重。对于激活值，采用混合量化和稀疏化策略来减轻异常值维度引入的误差。图2说明了模型大小为7B的BitNet b1.58中，每个模块输入的分布。注意力层和FFN层的输入通常类...……更多

2024-12-06 09:55:00架构,激活,新一代,模型,突破,激活

手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

...要进行混合精度的矩阵乘法运算（mpGEMM），即用低精度的权重和高精度的激活向量进行计算。然而，现有的系统和硬件并不原生支持这种混合精度的矩阵乘法，因此它们通常需要将低精度的权重转换回高精度，这个过程叫做反量...……更多

2024-08-10 09:52:00新技,微软,提速,新技术,模型,手机

谷歌DeepMind推Imagen2；ChatGPT Plu

...网宣布正式发布该模型，名为Mixtral 8x7B，是一个具有开放权重的高质量稀疏专家混合模型（SMoE）。据介绍，该模型采用Apache 2.0许可，在大多数基准测试中的表现都优于Llama 2 70B且推理速度快6倍，测评成绩能与GPT-3.5相媲美，甚至...……更多

2023-12-17 18:40:00模型,硅谷,订阅,监督,模型,融资

2022生成模型进展有多快，新论文盘点9类生成模型代表作

...er模型取得了比扩散模型更好的结果，只有900M参数，但在推理时间上比StableDiffusion1.4版本快3倍，比Imagen-3B和Parti-3B快10倍。下图是Muse与DALL・E2和Imagen的生成效果对比：文本-3D模型生成主要代表作有Dreamfusion、Magic3D……更多

2023-01-30 16:34:00生成,模型,新论,代表作,盘点,进展