• 我的订阅
  • 头条热搜
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelli...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务,Phi-3.5-vision-instruct则兼具文本与视觉能力。性能最强大的Phi-3.5-MoE-instruct模型有419亿个参数,……更多
...基座大模型基础上,仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心(OpenAI)开发的o1、中国深度求索公司的DeepSeek-R1等,但此类尝试意味着企业可以较低成本研发出适合自...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...AMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...“天工2.0”MoE大模型,“天工3.0”在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。同时,“天工...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
... Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可……更多
腾讯Angel机器学习平台获世界互联网大会领先科技奖
...腾讯Angel 机器学习平台,突破了万亿级模型分布式训练和推理以及大规模应用部署等难题,率先实现大模型技术从底层硬件到关键软件技术的自主研发,在业务场景广泛应用,显著推动实体产业和数字经济发展,提升社会效率。...……更多
字节豆包团队推出稀疏模型架构UltraMem:推理成本可降83%
...将计算和参数解耦,在保证模型效果的同时,有效解决了推理过程中的访存问题,为人工智能领域带来了新的突破。据了解,UltraMem架构巧妙地将计算与参数分离,不仅确保了模型的卓越性能,更针对推理过程中的访存瓶颈提出...……更多
阿里通义实验室黄斐:开源进入千问时代,即将发布的推理模型会更好用
...开源模型系列,将“很快”放出基于最新模型Qwen2.5-Max的推理模型。2月21日,全球开发者大会(GDC)在上海开幕,在阿里云魔搭社区主办的论坛上,据阿里巴巴通义实验室科学家黄斐介绍,到目前为止,整个通义千问(Qwen)系列...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...考两种模式。对于需要深入思考的复杂问题,模型会逐步推理,经过深思熟虑后给出最终答案。对于速度有要求的简单问题,模型则提供快速、近乎即时的响应,让用户实现对模型思考程度的控制。阿里通义团队认为,这两种模...……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
...。本次新上线了包括:模型训练新基座,支持模型训练、推理、量化、评测等功能。 卓世科技MaaS平台是一款基于知识增强大模型的一站式行业模型训练开发平台。面向开发者和企业提供从基础算力服务、数据服务、模型训练服...……更多
商汤科技sensetime推出“云端边”全栈大模型体系
...产力本次活动现场,商汤还邀请到金山办公、海通证券、小米、阅文集团、华为等多位生态伙伴嘉宾,共同探讨和交流大模型技术在办公、金融、出行等不同领域的应用及前景。自2023年起,商汤与金山办公达成深度合作,基于...……更多
“华米OV”的新战场:手机大模型
...且高调地涌入大模型+手机的赛道。走在前面的是华为和小米。今年8月,华为和小米先后宣布自家手机助手接入大模型。一时间,手机助手也拥有了类似ChatGPT一般的深度对话、自然语言理解以及编程能力。然而,这样依赖云端的...……更多
成都人形机器人创新中心全国首发 R-DDIRM 高速推理模型
...现突破,于近日全国首发基于扩散架构的人形机器人高速推理模型 R-DDIRM(Denoising Diffusion Implicit Robot Model)。这是继今年 5 月推出中国首个基于扩散架构人形机器人任务生成式模型 R-DDPRM(Denoising Diffusion Proba……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...侧处理占比超80%,从而降低推理成本。在个人出行场景,小米汽车SU7智能车舱中应用了商汤大模型技术,基于商汤端云大模型解决方案,小米小爱同学为车主提供智能化交互体验。文生视频平台。“商汤在这么多年做了非常多视...……更多
轻量化模型架构catvton的优势在哪里
...分简洁高效:2个网络模块(VAE+UNet)899.06M总参数量<8G推理显存(输出图像1024×768)轻量化的架构来源于CatVTON对现有方法模块冗余的观察:基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合,结果生硬不自然;...……更多
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
...然没有资本市场那么高亢。技术派更关注FP8在模型训练、推理及生态标准化上的实际价值与挑战。▍FP8是什么,有哪些提升?在AI训练与推理过程中,为提升计算效率,数值精度的降低是一个常见的技术路径。摩尔线程AI Infra总...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI ...……更多
20多家车企接入DeepSeek:为啥没有“蔚小理华米特”
...打通不同设备间接口的工程能力。目前,包括鸿蒙智行、小米、蔚来等拥有多端设备的企业实际已经具备了类似功能。这大概也是为什么华为云宣布和 DeepSeek 融合,但鸿蒙智行旗下车企却暂时没有相关发声的原因。其实,无论...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...,成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face,一点没藏着。实际效果如何呢?目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。API同步开...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外,更重要的是,它揭示了大模型...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
...十亿左右。“做大”,能让大模型具备更强的涌现能力和推理能力,从而适用于难度更高的任务。“做小”,能让大模型获得更优秀的推理能力,从而能被部署到手机、手表、耳机、录音笔等各类小微终端之中。情景学习(ICL,...……更多
...研发中心,专注于算法研发和模型调优,凭借自主创新的推理加速技术,对 DeepSeek全参数版进行软硬件协同深度优化,实现了每秒超6900 Token的超高吞吐率,性能远超行业平均水平,大幅提升了大模型效率。此次入围的算力强基...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...很多不同的GPU型号和显存大小。再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。以上这些限制因素,都让模型规模的选择成为一个非常具有挑战性的问题。总体而...……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备...……更多
空天信息+人工智能 中国科研团队成功研发遥感智能训推一体机
...发成功一款命名为“空天·灵犀”的遥感智能训(训练)推(推理)一体机。“空天·灵犀”遥感智能训推一体机。中国科学院空天院 供图“空天·灵犀”遥感智能训推一体机搭载的高精度、高时效轻量化基础模型,能够在自然资源、...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...含四个主要任务:信息抽取、信息定位、定性分析和数值推理。不同于现有的长文本基准测试,”企鹅卷轴”有以下几个优势:数据多样性:”企鹅卷轴”包含了各种真实场景下的长文本,如财务报告、法律文档、学术论文等,...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...类型的信息:- 仅输入和输出文本,也就是少样本学习- 推理追踪:添加中间推理步骤,可参阅思维链(COT)提示- 计划和反思追踪:添加信息,教LLM计划和反思其解决问题的策略,可参阅ReACT 选择正确的适配方法要决定上述哪...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...型有效训练时长占比达到 98% 以上。TeleChat-52B在OpenCampass推理榜单排名第一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval ……更多
更多关于科技的资讯:
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00
中新经纬11月28日电 北京市广电局网站消息,《北京市促进“人工智能+视听”产业高质量发展行动方案(2025-2029年)》(下称《行动方案》)近日发布
2025-11-28 11:57:00
均胜电子:定位“汽车+机器人Tier1”,双轮驱动进阶智能新时代
全球领先的智能汽车科技解决方案提供商均胜电子(600699.SH / 00699.HK)正以创新驱动和全球协同,在汽车电子
2025-11-28 12:15:00
严禁“带病运行”!河南就政务信息系统开发公开征求意见
大河网讯 为给非涉密政务信息系统的开发建设加上一把“安全锁”,规范全生命周期的安全管控工作,11月27日,省行政审批政务信息管理局起草了《非涉密政务信息系统开发安全管理指南(征求意见稿)》(以下简称《征求意见稿》)
2025-11-28 14:10:00
吉林机场集团门户网站二次升级 打造智慧出行服务新标杆
为持续优化用户体验、丰富服务维度,吉林省民航机场集团有限公司门户网站(https//www.jlairports.com)正式迎来二次重大升级
2025-11-28 14:41:00
商赢酱酒以文化赋能商务社交,重塑“场景思维”新体验
11月25日,一场以“商界链接创富圈层,共享‘商赢酱酒’杯中哲学,解锁中国式商务社交的‘心’语”为主题的交流会在济南成功举办
2025-11-28 14:55:00