• 我的订阅
  • 头条热搜
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...些解答或慢点思考。OpenAI ο1 模型的发布掀起了人们对 AI 推理过程的关注,甚至让现在的 AI 行业开始放弃卷越来越大的模型,而是开始针对推理过程进行优化了。今天我们介绍的这项来自 Meta FAIR 田渊栋团队的研究也是如此,其...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
... Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可……更多
最强服务器CPU来了!AI性能直接翻倍
...器的重要性可谓是不言而喻,无论是对于大规模的训练、推理,亦或是RAG等任务,都对其提出了更高的要求。 也正如综合市场预测数据从侧面反应出来的那般: >AI服务器市场规模已经达到了211亿美元,预计2025年达到317.9亿...……更多
搞医学影像,为什么都青睐于CPU?
...ACS/RIS产品中,就采用了基于CPU的方案运行三维可视化、AI推理等工作负载。在三维可视化加持下,融合影像分析等技术,让医务人员通过旋转、缩放、分割、图像增强等操作,从多角度清晰了解到医学影像中各结构之间的空间位...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...类型的信息:- 仅输入和输出文本,也就是少样本学习- 推理追踪:添加中间推理步骤,可参阅思维链(COT)提示- 计划和反思追踪:添加信息,教LLM计划和反思其解决问题的策略,可参阅ReACT 选择正确的适配方法要决定上述哪...……更多
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
...成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务,每个级别都有其独特的难点和解决方案,需要不同的技术和方法来优化性能。受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...较长的小说了。更重要的是,LLM真的能在这个长度上进行推理吗?近日,有两篇独立研究分别表明:长上下文水分很大!LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员,推出了一项针对性...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
...框架降低了大模型训练的门槛,目前正在做大模型分布式推理加速,希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里,像郑辉这样为大模型浪潮默默贡献自己力量的开发者不胜枚举。他们还不是...……更多
大模型步入推理Scaling时代,SambaNova如何挑战英伟达的霸主地位
...震。o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。在性能跃升之外,更重要的是,它揭示了大模型...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...据集而在零样本场景中表现不佳。 C3. 将大型语言模型的推理能力扩展到时空预测领域:时空数据的独特性质与大型语言模型中编码的知识之间存在显著差异。如何缩小这种差异,进而构建一个在广泛的城市任务中具有卓越泛化...……更多
百川智能发布baichuan3稳定语言模型
...处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”技术...……更多
超擎数智重磅发布擎天、锋锐、元景系列AI服务器,打造人工智能新质生产力强劲引擎
...擎天、锋锐、元景系列AI服务器产品,为大规模数据训练和推理提供强劲性能,帮助AI用户高效构建AI基础设施和应用环境,满足AI场景下的多元算力需求,为AI新质生产力提供强劲引擎。擎天系列L20 AI服务器,4U8卡PCle擎天系列L20 AI服务...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
...今年正式投产。据了解,新的芯片将被应用于数据中心的推理任务,与英伟达等供应商的GPU一起协同工作。Meta发言人之前表示:我们相信,我们自主开发的加速器将与市面上的GPU相得益彰,为Meta的任务提供最佳的性能与效率平...……更多
国产大模型第一梯队玩家,为什么pick了CPU?
...占绝对大头的因素——算力。 现在提及大模型的训练和推理,很多人的第一反应或许就是想到了GPU。诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。何以破局?国产大模...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”他们表示,后期...……更多
o1核心作者分享:激励AI自我学习,比试图教会AI每一项任务更重要
...绍下Hyung Won Chung,从公布的o1背后人员名单来看,他属于推理研究的基础贡献者。资料显示,他是MIT博士(方向为可再生能源和能源系统),去年2月加入OpenAI担任研究科学家。加入OpenAI之前,他在Google Brain负责大语言模型的预训...……更多
超星未来梁爽:软硬件协同优化,赋能AI 2.0新时代
...任务,这一基础模型应该具备感知万物、知晓常识和理解推理的能力,智能驾驶、机器人的基础模型本质上是同一类基础模型。 端到端与大模型上车进行时 智能汽车是迈向通用机器人的必要阶段 近年来,智驾系统正在从传统...……更多
AI真·炼丹:整整14天,无需人类参与
...能上有着显著的增强,还结合大容量末级缓存使AlphaFold2推理过程中关键的张量吞吐获得了大幅提升。 英特尔®至强®CPUMax系列处理器其次,由于AlphaFold2所采用的深度学习模型规模巨大,推理过程中的张量运算不仅量大,且维度...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...:「算力这块,你可以用别的芯片,但是这些芯片用来做推理还 OK,做训练的话还要等几年的样子,英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案,比如在同一个演讲中,李沐还提到了...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...9月12日,人工智能(AI)巨头OpenAI发布代号“草莓”的AI推理模型OpenAI o1系列,包括OpenAI o1-preview以及小版本的o1-mini。据OpenAI介绍, o1会花更多时间思考问题,然后再做出反应,就像人一样。通过训练学会了完善自己的思考过程...……更多
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...、输入文本,还能查找代码错误、自动搜集信息填表。AI推理已至瓶颈,下一个爆破点,就是AI操作电脑!Claude 3.5深夜迎来重磅升级!不出所料,Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku,全新升级版Claude 3.5 Sonnet也来...……更多
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
...智元导读】RAG通过纳入外部文档可以辅助LLM进行更复杂的推理,降低问题求解所需的推理深度,但由于文档噪声的存在,其提升效果可能会受限。中国人民大学的研究表明,尽管RAG可以提升LLM的推理能力,但这种提升作用并不是...……更多
智启新元年:PC成为AI落地首选终端
...了具备高性能计算能力的通用加速芯片,是大模型训练、推理的主要算力来源;云计算的发展和普及,则使软硬件充分解耦,大模型开发者可以以相对低的成本调用大规模的算力、存储和网络资源,开发进程大大加快;同时,Tra...……更多
为AI加速而生 英特尔第五代至强CPU带来AI新表现
...来概括它的特点,那就是——AI味道越发得浓厚。以训练、推理大模型为例:• 与第四代相比,训练性能提升多达29%,推理性能提升高达42%;• 与第三代相比,AI训练和推理性能提升高达14倍。什么概念?现在若是将不超过200亿参数的模型...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
...本更低。能解决迷宫、推箱子等复杂问题。通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。由此能形成更简洁的思维链(CoT)。从结...……更多
更多关于科技的资讯:
CBD 新地标:Z3,未来办公引擎登场
北京,2025年9月24日——北京 CBD 核心区再添重磅力作!今日,备受瞩目的 Z3 超甲级写字楼项目正式揭开神秘面纱
2025-09-25 13:43:00
中国电信-海信日立联合实验室揭牌,共筑智慧家电产业新高地
9月19日,中国电信山东公司、天翼物联科技公司与青岛海信日立在青岛举行联合实验室揭牌仪式,标志着三方战略合作迈入全方位深度融合的新阶段
2025-09-25 13:43:00
2025云栖大会直击:云深处科技机器人矩阵亮相,多场景展示行业引领性!
9月24日至26日,全球云计算与 AI 领域年度旗舰盛会 ——2025 云栖大会在杭州云栖小镇盛大启幕。本届大会以“云智一体・碳硅共生”为核心主题
2025-09-25 13:44:00
为落实《个人征信电子授权安全技术指南》(JR/T 0299—2024)金融行业标准,规范金融机构在个人征信电子授权中的技术操作
2025-09-25 13:44:00
文玩新经济浪潮奔涌,2025全国文玩大会重塑行业生态与消费图景
秋意渐浓,北京迎来一场文玩行业盛会。9月24日至28日,以“国潮觉醒 文玩新生”为主题的2025全国文玩大会于潘家园市场(西区)盛大举行
2025-09-25 13:46:00
如今,微短剧已然从“内容新贵”成长为拉动数字经济的重要力量。因为“轻、快、密”的内容节奏,短剧得以迅速占领用户的碎片时间
2025-09-25 13:46:00
三榜齐登、实力认证!网易有道连续五年入选“北京民营企业百强”
日前,北京市工商联、通州区人民政府联合召开2025北京民营企业百强发布会。会上,网易有道凭借持续的创新能力和稳健的业绩表现
2025-09-25 10:06:00
济南爱尔眼科实施全国首批龙晶PR型有晶体眼人工晶状体植入术
近日,首批龙晶PR型有晶体眼人工晶状体植入手术在济南爱尔眼科医院完成,作为“尝鲜吃螃蟹”的人,患者脸上洋溢着发自内心满意的微笑
2025-09-25 11:20:00
观赛有了更佳的趣味性与沉浸感金科院数字科技赋能国际赛艇大赛南报网讯(通讯员陆慧记者姜静实习生黄佳琪)2025南京·大学生国际赛艇公开赛近日在外秦淮河畔举行
2025-09-25 07:38:00
提升“双盲”模式下的评标质效雄安新区面向评标专家智能问答系统正式上线河北日报讯(见习记者康晓博)只需轻点鼠标,远在外地的评标专家就能获得精准指引
2025-09-25 07:58:00
大模型算出爆款,红枣变致富“金枣”
大模型算出爆款,红枣变致富“金枣”——看沧县红枣及干坚果食品加工产业如何实现数字化转型9月18日,河北华聚食品有限公司的工人忙着打包红枣产品
2025-09-25 07:59:00
9月17日,兴业银行信用卡中心与美团企业版在上海签署战略合作协议,共同打造“金融+生活”开放生态。根据协议,双方将基于开放共享
2025-09-24 07:24:00
金洽会上51个重点产业项目签约,计划投资802.21亿元——一串串数字,见证企业对南京的高度认可□南京日报/紫金山新闻记者张甜甜9月23日
2025-09-24 08:11:00
5项科技创新成果案例发布芯片设计迎“超强大脑”多癌早筛一管血“搞定”南报网讯(记者张安琪)9月23日,2025南京金洽会开幕式重点发布环节
2025-09-24 08:12:00
在今年国庆、中秋双节消费旺季来临之际,济南122站以“客户体验感”为核心,从“环境优化、商品管理、客户拓展”三大维度精准发力
2025-09-24 08:50:00