• 我的订阅
  • 头条热搜
PyTorch官宣:告别CUDA,GPU推理迎来Triton加速新时代
...使用了穷举搜索来调整SplitK GEMM内核。因为每个线性层的权重矩阵都有不同的形状,如果要获得最佳性能,就需要针对每种矩阵形状调整Triton内核。Granite-8B和Llama3-8B的线性层权重矩阵规格如下: 调整每个线性层后,相比未调整...……更多
谷歌再出大招,发布最新开源大模型Gemma,笔记本上即可运行
...型,沿用了创建Gemini模型时的技术和架构优势,提供两种权重的模型版本,分别是“Gemma2B”和“Gemma7B”,分别拥有20亿和70亿个参数,其中2B版本甚至能直接在笔记本电脑上运行。性能表现方面,Gemma7B在MMLU(大规模多任务语言...……更多
MiniMax进化论:一群「偏执者」的破浪前行
...具使用场景(TAU-bench)中,MiniMax-M1-40k更是领跑所有开源权重模型,甚至超过闭源模型Gemini-2.5 Pro。数据显示,即使在30多轮长链路思考与工具调用任务中,MiniMax-M1-40k依然有极高的稳定性。那么问题来了,既然创新是大模型时代...……更多
微软发布旗下最小语言模型phi-2
...写电子邮件和故事,以及总结文本。在常识、语言理解和推理的基准测试中,该模型在某些领域能够跟上多达100亿个参数的模型。微软现在更新发布的Phi-2拥有27亿参数,规模虽然比此前版本翻番,但相比较其它主流语言模型,...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
阿里万相视频生成大模型重磅开源!消费级显卡也能运行
...用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。据介绍,14B版本万相模型在指令遵循、复杂运动生成、物理建模、...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...需要企业对训练数据进行管理,并同时考虑到模型参数和权重的问题。借助Amazon Bedrock Model Distillation,客户只需针对给定用例选择最佳模型,并从同一模型系列中选择较小的模型,即可以合适的成本提供其应用程序所需的延迟。...……更多
腾讯版“GPT-4o”来了!混元Turbo首发并上线,效率翻倍价格砍半
腾讯混元又升级了,这次它变得更快、更强、更便宜。科创南方9月5日报道,今天,2024腾讯全球数字生态大会在深圳国际会展中心举行。腾讯集团副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏在现场宣布,混元Turbo已经在...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...高效训练。在推理方面,torchao提供多种量化方法,包括权重量化(Weight-OnlyQuantization)和动态激活量化(DynamicActivationQuantization),用户可以自有选择适合的量化策略,以获得最佳的模型推理性能。在稀疏性优化方面,torchao可以...……更多
百川智能发布baichuan3稳定语言模型
...处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...全球最大的开源MoE大模型。「天工3.0」在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域拥有突破性的性能提升,数学/推理/代码/文创能力提升超过30%。 (天工3.0模型参数超越Grok-1,成全球最大开源MoE...……更多
算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
...入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。然而...……更多
李彦宏替马化腾试错?
...彦宏的这一判断,马化腾似乎并不完全同意。就在昨天,腾讯集团召开的公司年会上,腾讯公司董事会主席、首席执行官马化腾这样说道:"AI 也是去年一个重点,全行业甚至全世界的重点,我们总算能跟上第一阵列,不能算是...……更多
CPU,正在被AI时代抛弃?
...足任务需求的条件下,提供多种针对网络激活层以及模型权重的低精度和量化方法,大幅度降低访存数据量的同时,充分发挥出英特尔®AMX等加速部件对BF16/INT8等低精度数据计算的计算能力。●多节点并行:支持张量并行(TensorP...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...上内容,还包括基本的图像去噪、边缘提取等能力。模型权重和代码已开源,用户可以自行探索更多 OmniGen 的能力。三、模型OmniGen 的核心设计原则是:简洁和有效。因此,我们最大程度舍弃了各种额外模块。OmniGen 的基本架构...……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...,未来可能还会出现更好的方法。组合 LTM 数据进行实时权重更新,从而实现自我进化当前的 LLM 通常分为训练和推理两个阶段。在推理阶段,模型权重是冻结的,防止模型根据新输入进行调整和学习。这种固定的推理过程会限...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具有通用的能力,也可以解决比此前的科学、代码和数学模型能...……更多
阶跃星辰CEO姜大昕:强化学习不是AI的尽头,下一步是自主学习,Agent将成超级应用
...联网工程研究院副院长姜大昕创办,此前获得上海国资、腾讯、五源资本、启明创投等投资,并位列六小龙之列。姜大昕表示,阶跃在成立之初,就规划了实现AGI的路线图,包括模拟世界、探索世界和归纳世界三个阶段。在模拟...……更多
必然的命运:AI大模型冲向“免费轮盘赌”
...E Lite两款主力模型全面免费开放,即刻生效。效仿百度,腾讯云、讯飞星火也开走免费路线。腾讯云在22日将混元-lite模型调整为全面免费,同时宣布万亿参数模型混元-pro的API输入价格从0.1元/千tokens降至0.03元/千tokens。同天,科...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面,Qwen-72B在GSM8K、MATH测评中也领先其他开源模型;代码理解方面,Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升,代码能力也有质的飞跃。△72B模型做数学题 ……更多
杨仝团队发布FairyR1模型:5%参数量数学和代码能力超越满血DeepSeek
...在保证特定任务性能的前提下,大幅降低模型规模和潜在推理成本的可能性。北京大学杨仝教授团队表示:“FairyR1-32B模型是我们探索高效大型语言模型技术路线的阶段性成果。通过对蒸馏和合并方法的改进,我们初步验证了在...……更多
若愚科技推出九天机器人大脑,大模型总参数规模达130亿 |项目报道
...翻译、思维链、工具使用等多种类型的指令数据, 在逻辑推理、关系推理、感知能力上都能呈现出较好的效果。 基于自研的基于语言大模型和多模态大模型,若愚科技构建了多模态具身决策大模型,凭借人类世界通用知识和强...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...用与初始预训练相同的自监督算法。通常会涉及所有模型权重,并将一部分原始数据与新数据混合。微调微调是以监督方式使用带注释的数据,或使用基于强化学习的技术,来适配预训练语言模型的过程。与预训练相比,微调有...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...务器推理的开源千亿MoE大模型。开源地址Skywork-MoE的模型权重、技术报告完全开源,免费商用,无需申请。模型架构本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量...……更多
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型
...能顶级会议 NeurIPS 2024 录用,目前已开放源代码和预训练权重。论文标题:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes 论文链接:https://arxiv……更多
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
...和前馈网络(FFN)中的线性投影,以从头开始学习1.58 bit权重。对于激活值,采用混合量化和稀疏化策略来减轻异常值维度引入的误差。图2说明了模型大小为7B的BitNet b1.58中,每个模块输入的分布。注意力层和FFN层的输入通常类...……更多
手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
...要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低精度的权重转换回高精度,这个过程叫做反量...……更多
谷歌DeepMind推Imagen2;ChatGPT Plus恢复订阅;OpenAI提出用小模型监督大模型 | 本周硅谷发生了什么?
...网宣布正式发布该模型,名为Mixtral 8x7B,是一个具有开放权重的高质量稀疏专家混合模型(SMoE)。据介绍,该模型采用Apache 2.0许可,在大多数基准测试中的表现都优于Llama 2 70B且推理速度快6倍,测评成绩能与GPT-3.5相媲美,甚至...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...er模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比StableDiffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。下图是Muse与DALL・E2和Imagen的生成效果对比:文本-3D模型生成主要代表作有Dreamfusion、Magic3D……更多
Manus和DeepSeek的差别是什么 谁更厉害:一文秒懂!
...)和复杂语义解析上表现突出。开源与低成本:开放模型权重,API调用成本仅为同类产品的1/15,支持企业级规模化应用。多模态兼容:可处理高分辨率图像输入,但视觉模块尚未完善。Manus:执行型“全能打工人”技术架构:采...……更多
更多关于科技的资讯:
在杭州城西科创大走廊东首的西湖区紫金港科技城云谷中心,国内最大模型开源社区“魔搭社区”的首个线下实体空间——魔搭社区(杭州)开发者中心(以下简称“开发者中心”)
2025-12-05 08:13:00
眼下,养宠群体逐渐壮大,带来的刚需消费、悦己消费持续升温、充满潜力,宠物经济迅速崛起。最近,省农业农村厅联合省发改委、省商务厅等五部门印发《关于促进宠物经济发展的意见》
2025-12-05 08:13:00
海运到货 福州车厘子上新整体售价稳步回落4日,随着海运而来的智利车厘子到达福州,福州市场上车厘子全面上新,整体售价开始稳步回落
2025-12-05 08:13:00
苏州作为全国数字经济、数字金融的先行城市,始终以敢为人先的魄力,争当保险科技应用的“试验场”与“示范区”。苏州市数字金融高质量发展大会保险科技专题活动在苏州人保财险成功举办
2025-12-05 10:56:00
近日,2025系统医学与健康大会在苏州工业园区举行,四大慢病国家科技重大专项技术总师陈竺,创新药物研发国家科技重大专项技术总师曹雪涛
2025-12-05 11:45:00
《中国电影经济发展研究报告》在海南岛国际电影节首发
孙向辉解读《报告》。中青报·中青网记者 任明超/摄中国青年报客户端讯(李争艳 中青报·中青网记者 任明超)12月4日,《中国电影经济发展研究报告》(以下简称《报告》)在海南岛国际电影节主论坛首发
2025-12-05 11:50:00
近日,由市稳外贸专班主办,苏州市分公司、供应链数字治理研究中心、苏州世标检测有限公司共同承办的“新外贸‘涨’字诀:精通美国知产合规赋能企业竞强价增”活动
2025-12-05 11:54:00
南京企业奋战四季度
进入四季度,南京企业在新品发布与订单签订上成果显著,重点产业创新动能强劲 产业是城市经济发展的基石。进入四季度以来
2025-12-05 12:11:00
AI时代“一人公司”迎来发展良机AI应用爆发前夜,中国第二经济大省江苏的“双子星”——南京、苏州抢先布局“单人成军”的OPC新形态OPC的全称是One Person Company
2025-12-05 12:11:00
潮品、文创、黑科技一站式打卡!河南品牌“秀”出多元消费新体验
大河网讯 蜜雪冰城诠释着国民饮品的亲切感,河南博物院文创产品让厚重历史走入百姓日常生活,力量钻石折射出河南制造闪耀的科技光芒……12月5日
2025-12-05 12:12:00
“智”绘康养,AI上美味!看豫企如何玩“智”变
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 12:12:00
为提升团队惠民保展业能力,夯实业务根基,太湖人保财险成功开展新员工惠民保专项培训,各团队主管全程参与研讨推进,以多维度培训为全体坐席赋能
2025-12-05 12:40:00
解锁服务新玩法!河南品牌靠数智、跨界跑出加速度
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
文创爆品、网红奶茶齐出圈,河南新品牌如何撑起新供给?
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
在当前全球化格局深度调整与数字技术革命交汇的时代背景下,研究生国际联合培养模式的数字化转型,已成为国家教育战略的核心关切
2025-12-05 13:18:00