• 我的订阅
  • 科技

大模型推理与训练的边界之争

类别:科技 发布时间:2024-11-07 20:18:00 来源:鲁网

随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限,但从技术角度来看,这两个阶段的划分并未发生本质改变。

汤雄超指出,o1模型之所以展现出强大的“推理”能力,实际上是由于其背后巨大的计算量消耗。这种计算量的增加,使得模型能够获得更高质量的回答。然而,这并不意味着推理和训练的边界正在变得模糊,而是推理阶段的计算需求正在增加。

清程极智认为,推理和训练需要差异化的系统设计和实现方式。随着推理计算量的增长,未来不仅在训练阶段,推理阶段也将需要集群规模的算力系统支持,而非目前的小规模单卡或单机算力系统。这预示着行业可能需要不同配置的算力集群,以分别应对训练和推理业务的需求。

清程极智的技术背景基于高性能计算,尤其在超算方面拥有深厚的技术积累。在超大规模国产集群进行大模型训练方面,清程极智有着经典的案例。例如,清程极智的大模型训练系统“八卦炉”能够扩展到10万台服务器的超大规模集群,用于训练百万亿参数量的模型,这一成就在行业内具有里程碑意义。

除了在训练领域的卓越表现,清程极智也始终关注推理的重要性。其推理侧的技术和产品已经服务于多家大模型企业。清程极智的推理引擎软件“chitu”能够支持多种模型、不同芯片、提供多种接口形式,如OpenAI API(文本对话)/HTTP API(文生图),满足不同场景下的推理需求。

随着大模型在各行各业的广泛应用,推理和训练的算力需求都在不断增长。清程极智预测,未来行业将需要更多专业化、定制化的算力解决方案,以适应不断变化的业务需求。这种趋势要求AI Infra厂商不仅要在技术上保持领先,还要在服务上提供更高的灵活性和定制化能力。

综上所述,尽管大模型的推理和训练在计算需求上呈现出一定的融合趋势,但从技术实现和系统设计的角度来看,两者的边界依然清晰。随着技术的不断进步和市场需求的日益增长,期待,未来AI Infra将为大模型的发展提供更加坚实的支撑。

声明:发布该信息旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。

责任编辑:吴英兰

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-07 23:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...数亿用户。 “草莓”模型为何重要?或重新定义AI能力边界,为GPT 5提供高质量合成训练数据OpenAI首席执行官奥特曼(Sam Altman)曾在今年早些时候表示
2024-09-11 09:55:00
...模型,仍需强化学习技术。刘知远说,就推动大模型能力边界而言,“知识蒸馏”技术意义不大,未来仍需探索大规模强化学习技术,以持续激发大模型在思考、反思、探索等方面的能力。AI模型
2025-02-27 05:08:00
谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍
...够轻松扩展他们的人工智能模型,超越单个TPU集群的物理边界。也就是说,单个大型人工智能工作负载可以跨越多个物理TPU集群,扩展到数万个芯片,并且经济高效。“在云GPU和云TP
2023-08-31 10:04:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...出了解决思路,而且还在编写完代码之后针对整体逻辑和边界条件进行了检查:把这个代码直接提交了一下,结果真的通过了。 国外网友也都称赞不已:中国公司的进步速度太快了!在推理中自
2024-11-29 09:27:00
...关系;通过概念延伸、条件明确、后果探讨、实务应用、边界探讨五大追问维度,构建了包含150万条数据的多轮对话数据集;通过多轮对话内容借助DeepSeek-R1构建得到深度思考数
2025-03-19 08:25:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...诊断皮肤癌可以达到专业医生水平,但都是在需求明确、边界清晰、逻辑简单的前提下,也就是概念模型较为简单的前提下,人工智能可以利用算力优势超过人类,但当时人工智能在复杂逻辑推理、
2024-09-18 15:01:00
...天文学、生命科学、材料科学等多个领域,成为打破学科边界、激发创新思维的“科研伙伴”。地学领域模型GeoGPT-VL支持图像描述总结、图像信息提取、地理空间推理、地学分析推理四
2025-12-19 08:54:00
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...能力的KRE(知识-推理-执行)三层架构,突破大模型能力边界。”徐立表示,“日日新SenseNova 5.0”(以下简称“日日新5
2024-04-24 09:32:00
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...算法。create 子句将节点(由后续坐标表示)添加到搜索边界中,close 子句将节点添加到该闭集。每个子句(create 或 close)后面都跟着 token x
2024-10-17 09:47:00
更多关于科技的资讯:
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00
戛纳世界人工智能大会探讨“音乐人工智能”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)2026戛纳世界人工智能大会(WAICF 2026),近日在法国戛纳举办
2026-02-21 12:10:00
杭州一家高科技创业公司员工 每人领一个陪伴机器人回家过年
春节去各地见见世面长长“脑子”这个春节,大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司,却有一群特殊的“员工”在忙着长“脑子”
2026-02-21 08:11:00
建设一流创新生态 激发创新投资需求杭州日报讯 日前,浙江(杭州)知识产权创新产业园内,一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行
2026-02-21 08:11:00
新春佳节,浙江不少企业春节“不打烊”,抢订单、赶交付、跑海外,把年过在了车间里和海外展台前。走进宁波这家科技企业,工作人员正紧盯屏幕
2026-02-20 15:04:00
马年春节,杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈,覆盖潮玩
2026-02-20 07:31:00
大年初三,杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳,多为全家同行的家庭顾客,虽不似年前拥挤
2026-02-20 08:01:00
“库迪咖啡竟然涨价了,9.9元的咖啡以后还能闭眼冲吗?”春节前最后一个工作日,东北姑娘小乔中午赶到杭州火车东站,准备坐高铁回老家
2026-02-20 08:01:00
潮声丨从“Made in”到“Design by”,浙江品牌出海记
新春,义乌老板们已经忙碌起来。这几天,24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展,带着新品抢订单、拓市场
2026-02-19 16:24:00
新春走基层|“解码”潮玩盲盒:Z世代用情绪消费点亮团圆年
中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时,特意去了环球影城附近的泡泡玛特,店内挤满了年轻人
2026-02-19 12:05:00