范式,推理,模型,阶段,两个,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...微调，(4) LLM 的上下文扩展，以及 (5) 长监督微调。对于推理，MM-SP 解决了 KV 缓存内存使用率的挑战，这在处理非常长的序列时会成为瓶颈。通过使用 LongVILA 增加视频帧数，实验结果表明该研究在 VideoMME 和长视频字幕任务上的...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...一致的模型，也是迄今为止我们最好的推理模型，这是新范式的开始。”推理能力吊打GPT-4o，数学编程能力“爆表”新模型到底有多强？它在需要深入思考和逻辑推理的专业任务上不仅吊打GPT-4o，还超过了拥有博士学位的人类专...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

收入占比40%、电话会议点名16次，英伟达：推理端的需求被低

...让人印象深刻的是，英伟达在财报电话会议的一个观点：推理端的爆发，可能很多人还是低估了。据英伟达电话会议披露，公司全年数据中心里已经有40%的收入来自推理业务，超出了绝大部分人预期。而在这次财报电话会议里，...……更多

2024-03-02 13:38:00英伟,电话会议,推理,收入,需求,端的

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...示了Yi-Lightning在不同场景上的能力。Yi-Lightning主打一个“推理速度更快，生成质量更好”。相比上半年Yi-Large，Yi-Lightning首包速度提升1倍，推理速度也提升了4成。像是翻译下面这种文学作品，Yi-Lightning不仅速度更快：而且用词...……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

大模型追不上了？不妨尝试把主战场放在垂直模型

...对此，Greylock指出：“现在是 AI 垂直软件最好的时代”。范式转变：AI绕过“前SaaS”阶段长期以来，国内SaaS的疲软不能全怪环境，因为其本身就是投入长，见效慢，增长速度受限。专注SaaS投资的Point Nine Capital 创始人Christoph Janz...……更多

2024-02-27 14:00:00模型,主战场,主战,尝试,模型,数据

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...含四个主要任务：信息抽取、信息定位、定性分析和数值推理。不同于现有的长文本基准测试，”企鹅卷轴”有以下几个优势：数据多样性：”企鹅卷轴”包含了各种真实场景下的长文本，如财务报告、法律文档、学术论文等，...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

腾讯3D大模型全面开源，文本图像10秒转3D资产

...验中，Hunyuan3D-1.0定性定量评估均超越此前SOTA开源模型，推理性能提升很大，轻量版A100 GPU上生成时间约10秒，标准版约25秒。目前Hunyuan3D-1.0模型权重、推理代码、模型算法等，已全部开源。量子位童鞋在发布现场，还拿到了3D生...……更多

2024-11-06 09:43:00腾讯,模型,图像,文本,资产,生成

金融大模型LightGPT升级版亮相

...作为一项新技术，也将带来财富资管领域业务形态和逻辑范式的革新。 ……更多

2023-11-06 03:06:00模型,恒生,金融,应用,新技,智能

同时登顶中美下载排行榜，DeepSeek凭啥超越GPT？看它

...，DeepSeek R1没有使用业内普遍使用的监督微调（SFT）训练范式，而是直接通过强化学习让模型自主进化出复杂的推理能力，包括反思和长链思考等能力。这种方法不仅提高了训练效率，还减少了对昂贵计算资源的依赖。1月24日，...……更多

2025-01-27 23:15:00中美,同时,排行榜,文锋,模型,训练

补齐Transformer规划短板又不放弃快速思考，Dual

...些解答或慢点思考。OpenAI ο1 模型的发布掀起了人们对 AI 推理过程的关注，甚至让现在的 AI 行业开始放弃卷越来越大的模型，而是开始针对推理过程进行优化了。今天我们介绍的这项来自 Meta FAIR 田渊栋团队的研究也是如此，其...……更多

2024-10-17 09:47:00优势,规划,推理,轨迹,模型,慢速

DeepSeek：开源破垄断，中国AI定义科技博弈新规则

...业铁律。这一突破不仅是技术层面的胜利，更是一种发展范式的重构：AI竞赛的胜负不再单纯依赖资本堆砌，而是转向技术原创性与工程化能力的综合较量。开源生态：一场“技术平权”的革命DeepSeek选择全面开源，堪称中国科...……更多

2025-02-25 11:06:00中国,规则,科技,技术,中国,模型

文心大模型4.0 Turbo来了！百度推出文心快码2.5，已

...考虑到大模型和异构多芯发展趋势，为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片，飞桨与文心联合，在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说，动静统一的自动并行能...……更多

2024-07-01 09:21:00文心,快码,程序员,模型,程序,文心

$IDC：中国大模型推理市场爆发，九章云极以\\\$

IDC：中国大模型推理市场爆发，九章云极以\"普惠算力\"领

近日，IDC发布《2025中国大模型推理算力市场分析报告》指出，大模型与生成式AI的推理算力建设已成为当前产业发展的关键环节。报告预测，2024年中国生成式AI基础设施市场规模将达到2091.9亿元。九章云极凭借在AI基础设施市场...……更多

2025-08-08 20:05:00普惠,赛道,中国,推理,基础设施,模型

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...湖大学工学院助理教授（研究）杨林易。o1 作为 OpenAI 在推理领域的最新模型，大幅度提升了 GPT-4o 在推理任务上的表现，甚至超过了平均人类水平。o1 背后的技术到底是什么？OpenAI 技术报告中所强调的强化学习和推断阶段的 Sca...……更多

2024-10-15 09:56:00框架,团队,联合,模型,过程,步骤

字节、阿里云大降价之后，百度：两款主力大模型全面免费

...是百度自研的轻量级大语言模型，兼顾优异的模型效果与推理性能，适合低算力AI加速卡推理使用。ERNIE Speed则是百度的自研高性能大语言模型，通用能力优异，适合作为基座模型进行精调，能更好地处理特定场景问题，同时具...……更多

2024-05-21 17:30:00云大,阿里,字节,主力,模型,模型

腾讯大模型混元Turbo：御气升昺云，梓桐金鼎开

...模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升 100%，推理成本降低 50%，解码速度提升 20%，效果在多个基准测试上对标GPT-4o。最新第三方测评在国内位居第一。腾讯混云大模型已经落地腾讯700+个业务场景...……更多

2024-09-14 14:04:00金鼎,腾讯,模型,腾讯,模型,推理

20多家车企接入DeepSeek：为啥没有“蔚小理华米特”

...上叫我给他们讲讲 AI 是怎么回事。由于同时具备强大的推理能力及开源模型两个特质，导致几乎所有科技公司都在研究怎样和 DeepSeek「深度融合」一下。华为、腾讯、百度、字节等互联网巨头，尽管都有各自自研的模型，但不...……更多

2025-02-14 12:52:00米特,接入,多家,模型,推理,智能

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既然模型可以通过海量语料学会生成文本，那...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

...了许多研究成果的验证（实际上当今的大多数 LLM 都是 AR 范式），但在图像领域，这算是一个有些让人意外的结果，毕竟掩码机制似乎和图像任务有着天然的亲和力。在此基础上，云天励飞团队更进一步，初步发现了 AR 模型在...……更多

2024-11-27 13:32:00潜力,模型,图像,起点,领域,还是

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

...了一种全新的思路。研究团队提出了轨迹基础模型的构建范式，旨在通过其模型架构设计和数据集支撑的流程，克服现有方法的局限性，实现跨任务、跨区域的泛化能力，并在不同数据质量下保持鲁棒性。具体来说，研究团队首...……更多

2024-11-23 09:42:00轨迹,模型,驱动,基础,全球,轨迹

【浪潮星锐】商广勇：关于我职业生涯关键词的三次进化

...为产业数字化转型提供了以社会价值驱动商业价值的实践范式。大模型+N，“我们一定能行”2021年，根据集团安排，我开始负责工业互联网领域的研发工作。面对日益激烈的竞争态势，我意识到，要想在众多竞争对手中脱颖而出...……更多

2025-03-06 23:27:00浪潮,职业生涯,进化,关键词,生涯,关键

吴泳铭官宣3800亿投入后，阿里云如何打AI这场硬仗？

...发布新的模型，最重要的方向主要是两个，一个是Reasoning推理，一个是Omin全模态融合。”刘伟光提到。在应用方向上，这次大会，阿里云宣布推出AI Agent Store，从生成式AI向代理式AI发展，并表示将首先推动阿里旗下所有服务走...……更多

2025-04-10 17:12:00硬仗,阿里,投入,模型,阿里,模态

Claude 3大模型引起学界关注，业内人士：或将开启科研新

...可能性，有望重塑认知行为合作模式，开启科学研究的新范式，加速 AGI 的内在可持续、自我价值进化的到来。（我们团队首次在 2023 年做过大模型是否具备假设提出能力的验证[1]，很初步，但是个有意思的尝试。）”此外，也...……更多

2024-03-12 10:59:00范式,学界,业内人士,模型,业内,科研

国产大模型加速落地，争夺“中国版ChatGPT”心智定位

...技等也分别推出全新的大模型产品。李开复表示，大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段，今年会迎来“大模型应用爆发元年”。他同时预测，明年下半年，随着大模型推理成本的大幅度下降，人们...……更多

2024-05-07 18:33:00心智,中国,落地,模型,定位,国产

小米开源首个推理大模型Xiaomi MiMo：7B参数就超越

...快科技4月30日消息，小米官方今天正式宣布，开源首个为推理（Reasoning）而生的大模型——Xiaomi MiMo。据介绍，Xiaomi MiMo在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo仅用7B的参数规模，超越了OpenAI的闭……更多

2025-04-30 10:36:00小米,推理,模型,参数,训练,推理

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

...发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法，根据给定的prompt难度，动态地分配测试时（Test-Time）的计算资源。结果发现这种方法在一些情况下比单纯扩展模型参数更经济有效。换句话说...……更多

2024-09-12 09:58:00模型,参数,模型,训练,测试,时计

DeepSeek开源惠四方（科技名家笔谈）

...与OpenAI发布ChatGPT3.5相提并论。DeepSeek以高效率、低成本的推理模型和开源的商业模式走出一条发展人工智能的新路。坚持历史视角准确看待价值准确认识DeepSeek的价值和贡献，必须坚持历史视角，将其放在人工智能创新发展的...……更多

2025-02-24 05:52:00四方,名家,科技,人工智能,人工,智能

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型，也是首个支持用单台409...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑