• 我的订阅
  • 头条热搜
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
...做个假设,如果把GPT-4(大约有1万亿参数)以50tokens/s的推理速度部署在生活中,你需要什么样的硬件?答案是1亿个H100 GPU。别说是移动设备了,家里都放不下。那如果降低标准,用LLaMA-v2 7B这样的模型,再加上8-bit量化呢?简单...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...考两种模式。对于需要深入思考的复杂问题,模型会逐步推理,经过深思熟虑后给出最终答案。对于速度有要求的简单问题,模型则提供快速、近乎即时的响应,让用户实现对模型思考程度的控制。阿里通义团队认为,这两种模...……更多
专精特新下半场:AI算力驱动竞争力升级|专精时氪直播回顾
...卡、多机互联就需要大流量的互联能力;第四,对于存储吞吐量的要求变得非常高。为了支撑上述变化,底层的基础设施也正在发生不小的改变。北京华恒盛世科技有限公司副总经理王文星指出,算力、调度和服务是AI基础设施...……更多
AI改变京东618:1.4万智能体上岗、1.7万数字人直播,超6亿消费者和百万商家受益
...,相比通用大模型,能大幅降低训练所需算力、提升推理吞吐量。基于JoyIndustrial的应用,可以实现99.3%的技术降本和32%的合规降本。长期以来,京东持续优化和创新“产品、价格、服务”,为消费者带来又好又便宜的商品、为商...……更多
...、避让、停靠等操作。 “作为智慧零碳码头,C段码头年吞吐量超200万标箱,相比同规模的传统自动化码头,集装箱倒运环节减少了50%,人员减少60%。”在数百米外的码头智控中心,天津港第二集装箱码头系统优化师范春奇向记...……更多
阿里通义实验室黄斐:开源进入千问时代,即将发布的推理模型会更好用
...开源模型系列,将“很快”放出基于最新模型Qwen2.5-Max的推理模型。2月21日,全球开发者大会(GDC)在上海开幕,在阿里云魔搭社区主办的论坛上,据阿里巴巴通义实验室科学家黄斐介绍,到目前为止,整个通义千问(Qwen)系列...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
春节假期济宁大安机场旅客吞吐29828人
...2024年2月17日),济宁大安机场安全保障航班229架次,旅客吞吐量29828人;旅客吞吐量同比2023年春节假期增长52.82%,完成了春节假期保障任务,为全年安全平稳运行开好局、起好步,实现了济宁民航2024年“开门红”。人气旺!加密...……更多
DeepSeek“朋友圈”不断扩围:10家国内外云厂商宣布接入,供用户按需部署
...eepSeek-R1。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。截至2月5日,国内外已有众多云平台宣布上线DeepSeek- R1大模...……更多
...达1000AITOPS处理能力和128GB统一内存,实现无缝模型开发和推理先进架构:NVIDIA?GB10GraceBlackwell超级芯片配备BlackwellGPU、20核ArmCPU和NVLink-C2C?技术,可有效提升AI工作负载扩展互联:配置为独立或私有云系统,以在桌面上驱动AI……更多
首发!优刻得云平台上新DeepSeek-V3-0324模型
... 不仅将模型参数量由原版的671B提升至685B,编程、数学等推理思考能力大幅提升,性能表现可以与Claude3.5/3.7Sonnet相媲美。同时,模型的开源协议升级为更宽松的MIT许可,进一步降低了商业应用门槛。 优刻得云平台始终密切关注A...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
《永劫无间》手游首次将具有18亿参数的大语言模型引入终端侧
...可以大幅提升腾讯混元大模型在终端侧的运行效率,端侧推理实现首个token生成时延达到150ms,解码速率达到超过 30tokens/秒。腾讯混元大模型已为腾讯内部超过700个业务场景和C端应用提供底层技术支持,在骁龙8至尊版芯片上部...……更多
年少财富自由,拒绝过盖茨、马斯克、奥特曼,传奇程序员的AGI之路
...性,可以随上下文长度的增加线性扩展,具有5倍的推理吞吐量,基于该架构的语言模型表现超越了Transformer架构的模型。图源:Tri Dao X 账号最近,原作者带队的Mamba-2架构正式发布,在训练速度和任务执行方面都有了更大提升。...……更多
AMD发布最强AI芯片,对标英伟达Blackwell,2025年上市
...能、带宽和规模提高了两倍。AMD Pensando Salina DPU 支持 400G 吞吐量,可实现快速数据传输速率,是 AI 前端网络集群中的关键组件。AMD Pensando Pollara 400 搭载了 AMD P4 可编程引擎,是业界首款支持 UEC(Ultra Ethernet……更多
amd推出10亿参数语言模型系列amdolmo
...ens进行预训练,让模型在处理自然语言任务时具有强大的推理能力。IT之家援引新闻稿,OLMo模型采用解码器(decoder-only)架构,并通过下一个标记预测(next-tokenprediction)进行训练,这种架构在生成文本和理解上下文方面表现出...……更多
AI PC处理器“此芯P1”发布;李想疑在朋友圈回应车企抵制周销榜
...求,可运行100亿参数以内的端侧大模型,运行大语言模型吞吐量可达30tokens/s以上。其他方面,“此芯P1”最高支持64GB LPDDR5 6400Mbps内存、4K 120帧显示+最多10路外接显示;接口支持4 x USB-C、PCIe 4.0、AI加速卡、2 x GMAC等。此芯科技表……更多
成都人形机器人创新中心全国首发 R-DDIRM 高速推理模型
...现突破,于近日全国首发基于扩散架构的人形机器人高速推理模型 R-DDIRM(Denoising Diffusion Implicit Robot Model)。这是继今年 5 月推出中国首个基于扩散架构人形机器人任务生成式模型 R-DDPRM(Denoising Diffusion Proba……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...含四个主要任务:信息抽取、信息定位、定性分析和数值推理。不同于现有的长文本基准测试,”企鹅卷轴”有以下几个优势:数据多样性:”企鹅卷轴”包含了各种真实场景下的长文本,如财务报告、法律文档、学术论文等,...……更多
...展的“头号工程、核心工作”。工程按照满足2030年旅客吞吐量8300万人次、货邮吞吐量100万吨,飞机起降59.5万架次的目标进行设计,机场工程总概算批复469.29亿元,占地11992.5亩。在数字、智能建造的加持下,“长安圣殿、丝路...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
首个国产单池万卡液冷算力集群投入运营,满足万亿级大模型训练需求
...企业提供从算力供给、算力输送、算力调度到模型训练及推理应用的一站式服务。会上,八家合作伙伴宣布将作为首批用户入驻临港国产算力池,其中既有通用语言大模型公司百川智能、稀宇科技、思必驰科技、天壤智能,也有...……更多
轻量化模型架构catvton的优势在哪里
...分简洁高效:2个网络模块(VAE+UNet)899.06M总参数量<8G推理显存(输出图像1024×768)轻量化的架构来源于CatVTON对现有方法模块冗余的观察:基于Warping的方法依靠几何匹配对服装进行形变再利用试穿模块融合,结果生硬不自然;...……更多
谷歌发布gemma2大语言模型,共有两种大小
...亿参数(27B)两种大小。Gemma2大语言模型相比较第一代,推理性能更高、效率更高,并在安全性方面取得了重大进步。谷歌在新闻稿中表示,Gemma2-27B模型的性能媲美两倍规模的主流模型,而且只需要一片英伟达H100ensorCoreGPU或TPU...……更多
星凡科技与国星宇航战略合作,解锁太空算力“天地同算”新篇章
...集群产品,在同等算力规模下具备建设成本低优势,以及吞吐量及并发量、功耗等性能优势,为客户以极高性价比搭建及极低成本运营智算中心提供保障。通过地面智算中心与太空AI卫星互联,实现天地数据实时互通、实施计算...……更多
微软推出14b参数“最先进”小型语言模型
...i-4,除了传统的语言处理外,它还擅长数学等领域的复杂推理。Phi-4是Phi系列小型语言模型的最新成员,官方表示其展示了微软继续探索SLM边界的可能性。官方表示,得益于多方面的技术进步,包括采用高质量的合成数据集、精...……更多
「运气使然」英伟达,压得英特尔喘不过气
...运。图/ MIT「Jensen(英伟达 CEO 黄仁勋)非常努力地拥有吞吐量,最初主要用于图形,然后变得非常幸运(extraordinarily lucky),」基辛格还强调,人工智能并不是英伟最初 GPGPU 或 GPU 算力通用化计划的一部分。 更劲爆的论点在于...……更多
东营港智慧管理调度平台试运行 浪潮智慧科技赋能港口高效协同发展
...复审批环节,港口作业效率大幅提升,2024年东营港货物吞吐量达9115万吨,同比增长26.4%,新增港口企业数量同比增长20%,市场活力显著增强。数字孪生与智能算法 驱动决策科学化依托浪潮智慧科技研发的智能调度算法,平台综...……更多
英特尔AI PC半年“答卷”:三大AI引擎驱动
...有着更强的性能和并行处理能力,则适合需要高性能、高吞吐量的AI应用,如AIGC的文生文或者文生图。 凭借CPU+NPU+GPU异构式架构方案,酷睿Ultra为终端提供强劲本地AI算力,在 AI PC 不联网的情况下,即可正常运行200 亿参数...……更多
更多关于科技的资讯:
【宅男财经|专家面对面】人工智能全面融入人类的生活,还有多久能够实现?工业和信息化部电子科技委主任王江平12月16日接受宅男财经采访时表示
2025-12-16 16:52:00
《科学智能生态报告》于腾冲科学家论坛发布——我国科学智能生态培育取得6项进展
12月5日至8日,由云南省人民政府和中国科学技术协会共同主办的2025腾冲科学家论坛在腾冲举行。论坛期间上海财经大学数字经济研究院与新华网融媒体未来研究院在“未来之问”可持续发展
2025-12-16 15:20:00
6.5折、每日5张!第九届雪博会优惠力度拉满了
12月18日至22日,第九届吉林冰雪产业国际博览会将在长春东北亚国际博览中心盛大启幕,以“购物最低享6.5折+1亿元冰雪消费券+企业特惠”等多重福利组合拳
2025-12-16 16:06:00
借势“疯狂动物城”热潮,叮当快药携手百多邦开启家庭健康新“城”事
伴随动画电影《疯狂动物城2》11月26日起全球热映,叮当健康旗下专业送药平台叮当快药与皮肤健康专业品牌百多邦,开展了一场覆盖线上线下的深度跨界合作
2025-12-16 14:03:00
从濒临倒闭到业绩暴增!“沸点计划”成功模型引爆区域代理签约潮
“沸点计划”上海合生汇店以一组硬核数据印证了其商业模型的爆发力:单日营业额最高突破6万元,平均翻台率稳定在5轮,远超行业平均水平
2025-12-16 14:04:00
中国消费者报南宁讯(杨霞 记者顾艳伟)知识产权纠纷曾是不少“出海”企业面临的难题。12月12日,记者从广西壮族自治区桂林市市场监管局了解到
2025-12-16 11:07:00
河北沧州:一张操作指南卡破解企业信息填报难题
中国消费者报石家庄讯(谭鑫 记者李建)记者近日从河北省沧州市标准化所获悉,今年以来,该所紧扣行风建设,以“群众易懂、流程畅通
2025-12-16 11:07:00
江苏省消保委调查货运平台发现:价格不透明、信息掺水、服务保障差等乱象突出
中国消费者报报道(记者薛晶晶)随着网络货运市场规模持续扩容,相关平台已成为货主发货、司机找活的核心渠道,但其背后的乱象也让消费者苦不堪言
2025-12-16 11:07:00
中国消费者报报道(记者李燕京)12月8日,《疯狂动物城2》在中国内地的票房突破30亿元。数据显示,截至11月30日,2025年度国产片票房已达403
2025-12-16 11:07:00
中国消费者报报道(记者桑雪骐)中央经济工作会议12月10日至11日在北京举行。在部署明年重点任务时,会议提到了“优化‘两新’政策实施”
2025-12-16 11:07:00
海尔集团与歌尔集团达成战略合作,新时达将助力歌尔深化智能制造领域布局
12月11日,海尔集团与歌尔集团正式签署战略合作协议,双方将聚焦智能家电、工业互联网、新能源及人工智能等领域展开深度合作
2025-12-16 11:33:00
于琛刚刚过去的这个“双十二”,除了各电商平台推出的促销活动,抖音出台严打“假揭黑真带货”等违规行为的多项举措,也成为人们热议的话题
2025-12-16 11:02:00
近日,全国首家“现代骑手学院”正式揭牌,该学院设在广州职业技术大学,为在职外卖骑手和快递员提供学历和技能“双提升”通道
2025-12-16 08:07:00
12月12日“双十二”购物节当天,西湖区黄龙国际中心K-lab广场人气高涨,“疯狂碰友日·西湖首发季”2025西湖区新消费活动在此启动
2025-12-16 08:30:00
为加快培养适应人工智能时代发展需求的高水平创新人才,10月底,《浙江省中小学人工智能通识教育指导意见》发布。此前,杭州将人工智能通识课程纳入中小学各学段地方课程
2025-12-16 08:31:00