• 我的订阅
  • 头条热搜
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?随着OpenAI o1的爆火,最近CoT也成了圈内热议的高频词。靠着CoT的强力加持,o1...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...息时可能出现的错误回答,以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水,但在进一步的推理中,部分模型并不能意识到其与头孢药物共用的潜在风险。图7 模型在涉及安全问题的推理中出现...……更多
实现从“知道”到“懂得”的性能飞跃东大发布深度推理法律垂域大模型南报网讯(记者何洁通讯员毕胜)近日,东南大学法学院数字法学团队依托东南大学大数据计算中心,正式发布国内高校首个深度推理法律垂域大模型—...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并行能...……更多
特斯拉,不仅仅是芯片
...sla 因其模型架构、训练基础设施和包括 HW 4.0 在内的边缘推理而产生的独特需求。D1训练芯片的故事是一个漫长而艰辛的故事。它面临着从芯片设计到电力传输的问题,但现在特斯拉声称它已经准备好成为众人瞩目的焦点并开始...……更多
科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...15日,科大讯飞发布了当前全国产算力平台上唯一的深度推理大模型——讯飞星火X1。该模型中文数学能力国内第一,并率先应用于教育、医疗等刚需场景。同时,讯飞星火4.0 Turbo底座能力再次迎来全新升级,图文、数学和长文...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多
...司利用自主研发的训练框架和量化算法显著提升了训练和推理速度,并优化了模型精度与推理吞吐量;在智能安全保障上,公司采用RLHF方案对齐安全认知,创新的热修复技术确保了大模型的安全性,提供安全、可靠的用户体验...……更多
NeurIPS 2024|水印与高效推理如何两全其美?最新理论:这做不到
... sampling)结合,在为大语言模型加入水印的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。这项研究发表在了 Nature 杂志上,给出了两种具体的结合方法,分别在水印检测效果和生成速度上达到了现有最...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...题任务,要求模型在代码执行后对结果进行理解、归纳和推理,提供有价值的观点。尽管 Tapilot-Crossing 已经是规模较大、且较为全面的测试集,其构建成本也低于 100 美元,显示了利用虚拟多智能体容器生成复杂、高质量数据集...……更多
深夜登顶,全网刷屏!来自杭州的DeepSeek震惊硅谷
...上。”不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、...……更多
...每天40亿段视频。另外一款处理器则是该公司的Meta训练和推理加速器(MTIA)家族中的首款芯片,其目的是帮助Meta处理各种专门的人工智能任务。新的MTIA芯片专门处理“推理”,也就是利用已经训练好的人工智能模型做出预测或...……更多
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...算力来源,二是如何在大模型产生的高昂计算成本压力下极致高效地利用算力。从已有进展来看,百舸 AI 异构计算平台做到了「两手抓、两手都要硬」。在去年 12 月的 2023 百度云智大会・智算大会上,百舸 3.0 已经展现了业界...……更多
提质降价,国产大模型加速奔跑
...据方面实现多模态统一,持续突破人工智能感知、理解和推理世界的能力边界。这些,拓展着大模型与各行各业融合的深度和广度。“如今,芯片制造商、数据供应商、模型研发企业、应用开发商等方面协同合作正日益增强,共...……更多
AI圈又炸锅了!Claude 4突然发布:连跑7小时不带喘气
...指令做出迅雷不及掩耳的近乎即时响应,满足你对效率的极致追求;也能在遭遇那些盘根错节的复杂问题时,沉稳地切换到“扩展思维”模式,投入更多算力进行更深层次、更耗时间的细致推理,力求挖掘出最周全、最精准的解...……更多
...层涟漪。3月1日,DeepSeek在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章,全面揭晓V3/R1 推理系统背后的关键秘密。最为引人注目的是,文章首次披露了DeepSeek的理论成本和利润率等关键信息。据介绍,假定GPU租赁成本为2...……更多
“AIGC智算之道”圆桌对话: 浪潮信息+百川+快手+金山办公
...,下半场(今年下半年开始到明年)大家的焦点可能会转移到推理成本上。模型训练能够做得很大,但推理时的成本成为关键。怎样控制好推理成本,甚至推理成本能够比别人做得更低,可能会是未来决胜的另一个关键点。刘凌志:训练...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具有通用的能力,也可以解决比此前的科学、代码和数学模型能...……更多
AI大算力芯片行业报告:百舸争流,创新者先
...况下,实现更优性能和更低功耗,基于此,满足了企业对极致算力和能效的追求。所以当时的厂商们,多以捆绑合作为主:大多芯片厂商寻找大客户们实现“专用场景”落地,而有着综合生态的大厂选择单打独斗。地平线、耐能...……更多
小红书技术副总裁王晓博:大模型让AI越来越像人,更懂小红书的内容与用户
...数据对用户和内容进行建模,会导致新笔记分发难,缺乏推理能力导致信息茧房等问题。在小红书的推荐系统中,率先将大模型作为笔记的语义编码器来使用,通过语义压缩提示词(prompt)结合对比学习技术,让大模型能够把笔...……更多
杨浦建全球最大用户量级智能体场景,让AI“飞入”寻常百姓家
...了三代智能体的革新,最终选定了在电商行业落地,追寻极致的交易转换效率。”李智友表示。 2017年,公司发布了第一代智能体产品“瞬知智荐智能卡”,拥有了全球技术专利,现已成为淘宝、京东、拼多多等电商平台最重要...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
... 2此次提供的90亿(9B)和270亿(27B)参数的两个版本,其推理性能和效率均优于第一代,并具有显著的安全性改进。事实上,270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争,并且提供了此前只有专有模型才能实...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...2.5%,表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练,文中对模型能力(理解、知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4...……更多
第二代骁龙8的高通AI引擎荣获2023世界人工智能大会SAIL奖
...硬件和软件组件组成,用于在骁龙移动平台上为终端侧AI推理加速。它采用异构计算架构,包括高通Hexagon处理器、Adreno GPU、Kryo CPU和传感器中枢,共同支持在终端上快速而有效的运行AI应用程序。其关键核心Hexagon处理器拥有一系...……更多
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
...题通常需要复杂的领域知识、世界知识、精确计算和语义推理的组合。为了解决这一问题,该研究提出了 TAG 系统,其实现主要包含三个步骤:查询合成、查询执行和答案生成。TAG 模型很简单,但功能强大,由以下三个方程定义...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。先来看一张其乐融融的图片(一眼AI):右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。至于到底能不能其乐融融,咱就不管了,之所以有此场景...……更多
五福节成AI互动应用练兵场 支付宝技术迭代提速
...说道,在这过程中,他发现传统的技术已经无法解决一些极致场景业务中存在的问题,这倒逼了支付宝技术的不断迭代。过去十几年,蚂蚁通过双11锤炼的安全科技的能力、分布式计算存储的能力已经非常成熟,并且处于国际领...……更多
很强也很贵!OpenAI12天12场直播收官,官宣最新推理模型o3
...,和网友猜测的一样,人工智能(AI)巨头OpenAI发布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奥特曼(Sam Altman)就曾发文提到三个“o”暗示了o3的到来。为何新模型跳过了o2直接命名o3?奥特曼表示是为了避免和英国电...……更多
具身智能竞速时刻,百度百舸提供全栈加速方案
...地的机器人产品?这背后,是研发团队对模型迭代速度的极致追求。企业亟需突破算力瓶颈、简化工程复杂性、缩短从数据到部署的闭环周期。百度百舸·AI 异构计算平台,致力于成为具身智能企业加速大模型落地、赢得市场先...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
更多关于科技的资讯:
天眼记者Vlog|2025数博会抢先体验
8月27日下午两点,中国国际大数据产业博览会(以下简称“数博会”)专业展在贵阳市国际会议展览中心隆重举行开馆仪式,正式拉开2025数博会的序幕
2025-08-28 06:03:00
清晨7:30,当手机铃声准时响起,拿起手机查看天气预报与空气质量指数——这是一天中我们与大数据的第一次相遇。一次手机支付
2025-08-28 06:03:00
LV美妆精品全球首店落户南京上半年我市共开出首店超200家,其中江苏及以上首店超43%南报网讯(记者黄琳燕)南京首店上新
2025-08-28 07:37:00
大多降价千元左右,有的品牌降了四五千元中高档自行车价格:从“居高不下”到“集体跳水”□南京日报/紫金山新闻记者王国俊近年来
2025-08-28 07:37:00
南报网讯(通讯员张炎张烨陶炎记者徐宁)记者昨天从扬子石化获悉,该公司不久前成功通过裂解炉燃料系统回收碳四,实现资源循环再利用
2025-08-28 07:37:00
河北日报讯(张辉、王继军)日前,由阿特钚锐秦皇岛科技有限公司(以下简称“阿特钚锐公司”)自主研制的国内最大振幅三质体电磁振动给料机发往上海
2025-08-28 07:51:00
首届炒菜机器人大赛精彩回顾 添可食万星厨彰显智能烹饪科技实力
近日,一场汇聚了政、产、学、研顶尖力量“首届中国炒菜机器人大赛暨首都共享中央厨房产业峰会”在北京平谷隆重举行。本次大赛由中国食品工业协会与北京市平谷区人民政府联合主办
2025-08-27 08:54:00
山推(德州)公司:靠“智造”省出大效益!成本降30%销售额反增15%
鲁网8月26日讯(记者 赵洪斌 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:02:00
欧瑞电子:全国60%超算中心都用它!三年营收增速超40%
鲁网8月26日讯(记者 吴美琳 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:03:00
吉镜头|高清大图!第十五届中国—东北亚博览会展馆一一看过来
第十五届中国—东北亚博览会开幕在即A2馆内的吉林市展馆 A2馆内的延边展馆A2馆内的辽源展馆 小米汽车展馆布置完毕特斯拉赛博越野旅行车已经抵达现场 印度尼西亚展馆正在进行最
2025-08-27 09:13:00
近 日 ,DeepSeek发 布DeepSeek—V3.1,基于下一代国产芯片训练。DeepSeek—V3.1采用UE8M0FP8精度训练
2025-08-27 09:14:00
从家庭式代工坊到“厦门品牌” 厦门制造“衣”鸣惊人
独立设计师王在实位于红顶艺术社区的工作室。时装工作室的师傅在制作样衣。(设计师 供图)“金顶奖”设计师曾凤飞的时装作品
2025-08-27 09:22:00
厦门软件园:人工智能企业在这里“拔节生长”
厦门软件园已形成从基础层、技术层到应用层的人工智能全产业体系。(厦门软件园 供图)厦门软件园企业美图公司应用人工智能技术
2025-08-27 09:22:00
从普惠金融看厦门消费金融服务体系
今年5月,“中情中意 消费一夏”购在厦门消费季活动吸引超20万人次打卡,金融活水与企业让利深度融合,吸引市民游客共赴这场夏日消费盛宴
2025-08-27 09:22:00
ZWO振旺联合格林尼治天文摄影大赛,共创全球天文盛事
国内独家冠名赞助,聚焦全球星空影像2025 年 8 月,中国天文摄影领军品牌 ZWO 振旺宣布,正式成为英国格林尼治皇家天文台主办的"第 17 届格林尼治天文摄影师大赛"(Ast
2025-08-27 09:55:00