• 我的订阅
  • 科技

国产大模型,也分「武当」和「少林」 | 直击WAIC 2023

类别:科技 发布时间:2023-07-10 09:54:00 来源:36氪

文 | 周鑫雨

编辑 | 苏建勋

图 | 未特别标明均为作者拍摄

国产大模型,WAIC(世界人工智能大会)来了半壁江山。

这也是ChatGPT技惊四座大半年后,30多个国产大模型第一次在同一个舞台上,接受不同背景参会者的审视。

能明显感受到,相较于半年前效仿OpenAI大炼通用语言模型的热潮,如今WAIC呈现出的国产大模型图景,已经大致分为“增值派”和“聚焦派”两大路径。

所谓的“增值派”,指的是不仅研发通用大模型基座,还基于基座提供模型API、算力、训练、部署等配套服务的厂商,典型案例是推出MaaS(Model as a Service)平台、携“通用大模型、行业大模型、云、芯片”等全家桶到场的云厂商们。

带着全套模型服务方案入场的大厂们

而“聚焦派”则恰恰相反,找准少量应用场景深挖,推出垂直领域的大模型,是他们的策略。这些厂商往往是资源能力和服务范围有限的创企,比如聚焦在金融等四个领域的澜舟科技,或者是原有业务的应用场景十分聚焦。

这两天被不少学生和家长围观的网易有道则是后者的典型案例。他们在教育领域推出的“子曰”大语言模型,参数规模为200亿,在一众动辄上千亿的通用大模型中并不算大。

基于网易有道“子曰”大模型的虚拟人口语教练。

即便派系分化,但对大模型感到“脸盲”,仍是不少观展者给36氪的反馈:不同厂商呈现出的大模型能力和服务体系大同小异——“增值派”厂商将大模型和云、部署等服务打包售卖,“聚焦派”厂商则是两手抓:一边卖行业模型服务,一边卖自身被AI升级后的应用。

“逛了一圈大模型,感觉都差不多,没有留下太深的印象。”一名7月6日开幕当天就蹲守在的电器公司销售经理,背着上司“改造公司OA系统”的指标来到WAIC,但现实与理想仍有差距。

有ChatGPT珠玉在前,多数厂商背负了不小压力。即便在部分任务的表现能力能与GPT-4掰手腕,但大部分厂商都承认,通用大模型的表现与目前赛道的“天花板”GPT-4,依然存在不小差距。

好与坏,难判断

数十家大模型企业,上百款产品,怎么合作?如何落地?不少参会者迷失在巨大的上海WAIC展馆里。

对大模型判断失准,症结首先出在难以统一的模型能力评判标准上。

旷视科技多次在公开采访中表示,会持续在大模型技术方向进行投入。旷视CTO唐文斌告诉36氪,模型的测评分为学术和业务两个标准,更易证明的是前者,但对落地最有价值的在于后者。

若是让旷视站在客户的角度选模型合作方,一定得在实际业务中长期跑起来后,结合ROI、效益等指标综合评判,“应用价值是检验大模型能力的最好标准”。

“学术和工程之间隔着鸿沟。”第四范式联合创始人、首席架构师胡时伟说,模型的算法、参数都是学术“肌肉”,但能不能给客户解决实际问题,需要考验模型厂商本身对具体行业、具体业务的认知。模型的实用价值并非是静态、单维的。

他直言WAIC不是一个拉客户的场合:“这里你怎么在短时间内给客户证明模型的业务价值?”

大模型让人脸盲的另一个现实原因则在于,目前不同厂商的模型能力仍然没有拉开差距,尤其是通用大模型与GPT-4存在明显差距。

一个典型的例子是,对于C端应用场景明晰且有数据积累的有道而言,在通用大模型的基础上精调是捷径,但有道依然选择了自训“子曰”大模型的荆棘路。“国产通用大模型的能力满足不了垂直场景需求”就是有道的工作人员给36氪列举的其中一个原因。

沿着Transformer的训练路径,目前GPT-4就是面世模型中的能力天花板,也给国内厂商提供了行之有效的技术路线参考。但在今年3月36氪的专访中,百度CEO李彦宏认为创企做类似ChatGPT的大语言模型是“重复造轮子”:“创业公司重新做一个ChatGPT其实没有多大意义。”

“这个阶段国内大部分厂商只能做重复造轮子的工作。”面壁智能联合创始人兼CTO曾国洋对36氪说道,“GPT-4也被证明与AGI(通用人工智能)有差距,但国内公司先得追上GPT-4,才有资格开始造车。”

在他看来,造轮子不等于没意义,而是在模型发展初期需要做的“Dirty Work”。曾国洋打了个比方,就像学数学,现阶段厂商是洗数据、堆参数、调试代码的小学生,需要打好10以内数学运算的基础;等到上了大学,厂商才有可能去碰线性代数、微积分等更高维的东西,跳出造轮子的阶段去做创新。

用B端的生意打磨轮子

现阶段,C端场景的价值并不大——这是不少模型厂商的共识。

真金得用火炼,但不少C端场景都不够复杂,对模型能力的打磨效果不显著。“用模型直接做toC应用,满足的基本是生成功能,这是一个交付流程很短的场景。”商汤的工作人员对36氪表示。

再者,即便C端能带来大量的用户反馈数据,但企业还需面对“多数据、低质量”的问题。一名网易有道的工作人员告诉36氪,训练“子曰”最可用的数据来自于试题和标准答案,靠用户反馈的数据依然需要大量的人工清洗和标注。

因此,靠B端业务获得营收,并在业务场景中用较高质量数据资源提高工程能力,是不少模型厂商如今的发力点。

极少公开露面的AI“当红炸子鸡”MiniMax,这次特地来为合作方金山办公站了台,顺势推出了自研通用大模型Abab的5.0版本。这两家公司在今年5月携手推出了“中国版办公Copilot”——自动生成PPT大纲和模板、PDF文档重点提取等热门功能,在WPS的展位大屏上循环播放。

国产大模型,也分「武当」和「少林」 | 直击WAIC 2023

WPS AI的功能。图源:WPS

“高质量的标注数据,依然是稀缺资源。”MiniMax技术总监刘启君对36氪直言。对2022年就储备了一批显卡的MiniMax而言,算力还不算卡脖子的问题,但想要让模型能力更上一层,高质量的标注数据必不可少。

为了用最低的成本获取高质量数据,和B端的头部厂商合作是MiniMax所选的捷径。刘启君分析与WPS合作的理由:“一是WPS积累的数据足够高质,可以直接拿来用;二是WPS的业务场景涉及图片、文字识别、提取、转换等复杂的场景,可以借此打磨模型能力。”

不过具体到对B端场景的选择,“增值派”和“聚焦派”选择的是截然不同的两条路径。

“拿着锤子找钉子”,即场景的横向扩张,多年来是具有丰富客户资源、的“增值派”大厂的标配。

“(大厂商)最主要的考量是用大模型业务带动大厂的其他业务,比如云、芯片。”一名参加展会的券商告诉36氪。比如,对于BTA、华为等具有云计算优势的厂商而言,将通用大模型的API服务与云计算结合,就能做训练、微调和部署等端到端的好生意。

不过,捆绑销售的策略也意味着“增值派”的服务对象往往是本身具有雄厚经济实力的政府和国央企——客户只需拿出数据,企业就能提供模型精调、部署等全套服务。36氪从阿里云工作人员和多个咨询客户的口中了解到,通义千问的私有化部署方案,目前给出的参考价格高达百万、甚至千万元一年。

与之相对的,“聚焦派”则往往从B端企业的细分需求切入,除了能在较短时间内创收,也能与相继发布通用模型的BTA等云厂商打差异化策略。

比如第四范式和澜舟科技布局的重点,往往都延续了之前就有客户积累和工程经验的B端场景。第四范式这次WAIC带来了“式说”大模型的一些行业进展,其中一个行业案例是与一家零售企业的合作,此前,决策类的AI技术已经被广泛应用在电子菜单推荐系统的开发,如今基于大模型的生成式AI,开始逐渐被应用于对门店管理系统的改造。

在谈及周围“厂均”抛出十多个行业模型方案,胡时伟告诉36氪,他并不担心大厂造成的竞争压力,因为先找到钉子比拿着锤子更重要:“我要再次强调,模型研发和落地之间有鸿沟。”

而企业瞄准B端发力的目的,最终是让造轮子和造车两条腿一起走起来。

与大部分厂商一样,MiniMax仍然有对标OpenAI的野心。“我们只做一个通用大模型基座,不做分开做行业大模型。”刘启君觉得现阶段MiniMax这样资源有限的企业需要集中算力、数据和金钱资源办大事,即提升通用模型的能力。他透露,目前MiniMax能够按周迭代模型能力。

7月6日的WAIC开幕式上,“深度学习之父”杨立昆重申“LLM不会是那条通往人类智能的道路”。这也让许多厂商尝试跳脱出Transformer的框架,去做创新。“做创新性的研究,包括和学界合作是国内厂商今年开始很重要的命题。”胡时伟说。

欢迎交流!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-07-10 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...异构算力平台,全系列、多方案支持适配DeepSeek R1开源大模型,实现AI模型在训练及推理侧的高性能、低成本及可用性的进一步优化,满足不同规模参数量模型的需求。在提供多元
2025-02-09 09:58:00
...将主要用于人才梯队组建,产品研发和市场落地。早在大模型浪潮席卷之前,高推理延迟、高推理成本、高资源占用这“三高”,以及算力层的硬件适配,一直是困扰模型落地的最后一公里。尤其在
2024-06-03 15:23:00
国产手机2024年加速进击高端市场 AI或将成为主战场
...的再度发力和强势崛起。同时,国内主流手机厂商的AI大模型、操作系统均已落地手机端,新技术、新品类蓄势待发。部分厂商近日更是纷纷喊出借AI技术向高端手机、人形机器人等方向拓展。
2024-02-01 23:13:00
从狂热到理性:大模型训练三堵墙,一场少数人的游戏 | 钛媒体深度
...PU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不
2023-06-29 12:00:00
OpenAI加强使用区域限制,中国大模型厂商推出“免费搬家”服务
...,不少中国开发者的工作或受到影响。与此同时,国产大模型厂商们也抓住机会,推出免费,迁移辅助等措施,争抢市场。6月25日,智谱AI推出OpenAI API用户特别搬家计划,帮助
2024-06-27 09:46:00
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算领域,与国内主流AI芯片厂商深度合作,共同搭建的
2024-06-27 19:01:00
事关DeepSeek!连续涨停后,多家上市公司提示风险
...系、提示风险。优刻得发布异动公告称,DeepSeek为开源大模型,各家厂商均可根据自身需求对其进行模型的适配与本地化部署,任何用户可免费基于该模型开展相关业务。公司近期也与D
2025-02-07 06:55:00
本文转自:解放日报20款国产大模型角逐“最强王者”查睿本报记者 查睿近日,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大
2024-06-02 05:34:00
...果、微软,苹果推出Apple Intelligence AI系统等等。而在AI大模型方面,最主要事件则是OpenAI推出多模态大模型ChatGPT-4o
2024-12-26 21:56:00
更多关于科技的资讯:
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00