• 我的订阅
  • 头条热搜
3天把Llama训成Mamba,性能不降,推理更快!
...尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于...……更多
无惧限制 Intel为中国公司定制了一张AI大模型入场券
...有两层含义,一层含义是对正在四处寻找合适芯片的AI大模型算法公司来说,英特尔的Gaudi2能够成为这些公司发展业务的算力基石,足够的算力大模型竞赛的入场券。另一层含义是对于英特尔来说,拿出的能和英伟达最先进的H100...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...和顶尖的技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。如何解决模型生成幻觉一直是人工智...……更多
谷歌DeepMind推Imagen2;ChatGPT Plus恢复订阅;OpenAI提出用小模型监督大模型 | 本周硅谷发生了什么?
...览本周AI领域涌现多项重要进展。Runway宣布开展通用世界模型研发,旨在通过研究通用世界模型改进其视频生成系统,使其更好地模拟现实世界的互动。谷歌Deepmind推出Imagen 2,一款高质量、逼真的人工智能图像生成器。Mistral AI...……更多
超级推理模型正面对垒:谷歌版o1发布次日,OpenAI o1下一代o3登场
...源:硬AI圣诞节前,人工智能巨头上演了一场精彩的推理模型攻防战。谷歌和OpenAI正面对垒,谷歌刚发布自家的先进推理模型挑战OpenAI的o1,第二天,OpenAI就推出了升级版的最强推理模型o3。美东时间12月20日周五,在为期12个工作...……更多
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
AI时代,存储不仅是数据的栖息之地,更是AI模型训练、落地过程中的坚实底座。在AI开启的存储行业新周期中,众多厂商已将带宽等性能指标卷至新的高度。然而,这种追求似乎将AI这一复杂应用场景简单地“存储化”了。实际...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
...The Information 在最新的报道中披露,两位测试过「草莓」模型的人士表示,OpenAI 可能将在接下来的两周内发布「草莓」模型,并上线 ChatGPT。但不同于 GPT-4o、GPT-4o mini 是在优化使用体验和成本,「草莓」的目标是再一次让大模型...……更多
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多
...里云正式发布通义千问2.5,阿里云方面表示,通义千问2.5模型性能全面赶超GPT-4Turbo。同时,通义千问最新开源的1100亿参数模型在多个基准测评中收获最佳成绩,超越Meta的Llama-3-70B。相比通义千问2.1版本,通义千问2.5的理解能力...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
近日,上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式:SLEICL(基于强模型增强的情景学习,Strong LLM Enhanced ICL),能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...的 AI 浪潮进入第三年,人工智能体(AI Agent)作为大语言模型(LLM)落地应用的关键载体,正受到学术界和产业界的持续关注。实际上,早在 5-6 年前,预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当...……更多
谷歌大模型推理范式,主要分为两个阶段
...出最新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千...……更多
Intel为中国带来Gaudi2 AI加速器:超高性价比!
...,这是一个全民AI的时代。如果你不能张口ChatGPT、闭口大模型,都不好啥意思跟人打招呼。如果你不在AI上搞点东西,都不好意思说自己是科技企业。当然了,AI的历史其实相当悠久,远不只是对个话、做个图那么简单。无论是...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型。比如驴,正是有了这样的世界模型,它们才能找到更省力的负重登山方法。近日,LeCun 团队发布了他们在世界...……更多
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
【新智元导读】o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。OpenAI的理念,居然被国内公司抢先践行了?比起OpenAI,这家公司的idea...……更多
谷歌和微软两位“印度老乡”CEO,正面硬刚
12月6日夜间,谷歌发布了其最新一代的AI大模型Gemini。谷歌的印度籍CEO Sundar Pichai亲自为这项发布站台,在公开信中将Gemini描述为:“我们迄今为止最强大、最通用的模型,它在许多领先的基准测试中都展现出了最先进的性能。...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...整报告。 图源:OpenAI这个强大功能由即将推出的OpenAI o3模型的特制版本提供支持,该版本经过专门优化,适配网页浏览和数据分析场景。它能够运用推理能力,在互联网上搜索、解读和分析海量的文本、图像和PDF文件,并能根...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...引入思想链(CoT,Chain of Thought)的概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。OpenAI对此曾表示:通往AGI的路上,已经没有任何阻...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型(MLLMs)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
...和子榜两项第一,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0 同样...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...新闻网2023年4月17日,昆仑万维发布自研双千亿级大语言模型“天工1.0”。即将到来的2024年4月17日,在“天工”大模型一周年之际,昆仑万维重磅宣布,“天工3.0”正式开启公测!“天工3.0”采用4千亿级参数MoE混合专家模型,并...……更多
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE
...转自:中国新闻网6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多
CPU,正在被AI时代抛弃?
...对话可以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大...……更多
戴尔以技术创新推动AI基础架构升级
...蓬勃发展的AI应用背后离不开底层基础设施的支持。以大模型的训练和推理为例,大模型的参数量已经从数十亿增加到几百亿、几万亿甚至更高,更大的模型带来了更大的AI算力需求。有数据显示,AI所消耗的算力平均每3至4个月就会...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首次对...……更多
阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误
...日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还...……更多
Meta大模型LLaMA 3即将登场,参数量或达1400亿
在推出开源大模型LLaMA2近一年之后,Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中,Meta确认计划在下个月内首次发布LLaMA3。据了解,该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多
科大讯飞申请推理方法相关装置及推理系统专利,具有较高的推理速度
...理加速技术领域,推理方法包括:云端服务器通过对第一模型进行模型蒸馏得到第二模型,通过复制第二模型得到影子模型,将第二模型发送至终端;终端在本地部署第二模型,利用本地的第二模型对用户请求进行推理;终端将...……更多
更多关于科技的资讯:
产学研齐聚杭州 共话AI赋能香氛行业发展新未来
为深入探讨人工智能技术在香氛产业中的应用前景与创新路径,推动香氛行业与前沿科技的深度融合,促进产业升级与高质量发展,8月7日至8日
2025-08-10 10:44:00
日前,在华锐动能科技(丽水)有限公司的样车试验场地,公司总经理陈锋和研发团队忙着调试新研发的山地滑板车,对样品车开展续航
2025-08-10 07:40:00
河北日报讯(记者刘英)8月8日,南方润泽科技数据中心封闭式基础设施证券投资基金(基金代码:180901)在深圳证券交易所正式上市
2025-08-10 07:47:00
迅路创新获得数千万元融资,推出定价超五万的高端智能E-cargo bike|36氪首发
作者 | 张子怡编辑 | 彭孝秋36氪获悉,E-cargo bike(载货电助力自行车)厂商迅路创新完成新一轮数千万元融资
2025-08-09 09:26:00
GPT-5快抢走打工人饭碗了
作者:宋思杭GPT-5,终于来了。北京时间8月8日凌晨1点,OpenAI CEO Sam Altman 没有爽约。在发布会前一天
2025-08-09 11:33:00
跻身第一方阵后,合肥还想要更多
作者:李 杭今年年初,DeepSeek的爆火点燃了AI产业与城市发展的新一轮讨论。一个共识逐渐清晰:抓住AI产业风口,城市便能迎来新的增长
2025-08-09 19:56:00
浙江日报讯 (记者 翁云骞 通讯员 邵滢) 最近,墨西哥电子元器件展突然被慈溪外贸企业热捧,参展企业从过去的三五家暴增到四五十家
2025-08-09 09:10:00
汇通达与头部公共云服务商达成全栈AI全面合作宁企牵手阿里云,共拓“AI+产业”新生态□南京日报/紫金山新闻记者张甜甜当AI浪潮涌向乡镇街头巷尾的小店
2025-08-09 09:56:00
江苏南京:“小视”不可小视,一双“慧眼”识世界
十年深耕人工智能视觉领域,让机器“看得懂、想得透、做得准”“小视”不可小视,一双“慧眼”识世界扫一扫,看视频□南京日报/紫金山新闻记者江芬芬站在南京生命科技小镇5号楼的落地窗前
2025-08-09 09:57:00
创新金融服务!交行青岛分行助力青岛“88购物嘉年华”
齐鲁晚报·齐鲁壹点记者 尚青龙消费是拉动经济增长的“主引擎”。8月8日,在2025年青岛“88购物嘉年华”启动之际,交通银行青岛分行以“活水”浇灌消费市场
2025-08-09 11:46:00
8月9日00时31分,“3、2、1,点火!”随着指令落下,熊熊烈焰喷涌而出,托举着捷龙三号运载火箭冲破海天之间的云雾。同一时间
2025-08-09 12:14:00
肥城市消费品以旧换新工作专题新闻发布会召开
新闻发布会现场(鲍文昭 供图)大众网记者 郝晓华 肥城报道近日,肥城市消费品以旧换新工作专题新闻发布会召开。肥城市商务局相关负责人员出席发布会
2025-08-09 15:43:00
国外客户多次登门求购 镇宁破碎机闯全球
“这个月来了三四波国外客商了,刚走的西班牙客户订了1000多万元的设备。”日前,在安顺市镇宁产业园,贵州启黔重工科技有限公司(以下简称“启黔重工”)负责人王大林一边忙着安排生产
2025-08-09 16:11:00
聊城市茌平区聚焦“创新人才”培养的核心命题,在初中物理教学中构建起“一核·三维·五阶”创新素养培育体系。该体系以创新素养为核心
2025-08-09 16:16:00