• 我的订阅
  • 科技

连发两款模型“补课”,百度AI成色如何?

类别:科技 发布时间:2025-03-20 11:38:00 来源:搜狐科技

连发两款模型“补课”,百度AI成色如何?

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

没有发布会、没有李彦宏,百度近日低调发布两款大模型——文心4.5和深度推理模型文心X1,免费。

两年前的3月,百度发布了对标ChatGPT的文心一言。这是全球大厂中首个生成式AI产品,也让外界看到百度相对迅速的先手布局。

不过,百度后来采取的收费策略,缺乏突出亮点的产品性能,以及模型迭代放缓,文心一言(APP端为文小言)并未出圈。相较后起之秀,如豆包、Kimi等更是逊色。

DeepSeek的爆火让百度反思起内部AI战略。早前,百度宣布文心一言不再收费,同时还会开源新一代模型。按照计划,文心大模型4.5将在6月30日起开源。

同时,行业还掀起新的大模型技术竞赛——以OpenAI、DeepSeek为代表的企业在深度推理模型开启竞争,压力给到百度。

经历了两年多的大模型技术浪潮,百度AI成色如何?

连发两款模型“补课”

这次更新的文心4.5,相较文心4.0-Turbo过去了8个月,相较文心4.0过去了15个月,百度到底拿出了什么压箱底的技术实力?

按百度说法,文心4.5定位新一代原生多模态基础大模型,在多个基准测试中超过GPT-4o,得分最高的则是DocVQA,该基准主要测试文档图像的问答能力。

连发两款模型“补课”,百度AI成色如何?

在文本能力方面,文心4.5则在多个主流基准测试中超过DeepSeek-V3、GPT-4o,部分基准(如大规模多任务语言理解基准MMLU-Pro、生物、物理和化学学科基准GPQA、代码生成基准HumanEval+)得分则不及GPT-4.5,但综合成绩超过GPT-4.5。

连发两款模型“补课”,百度AI成色如何?

在具体能力方面,文心4.5支持文字、图片、音频、视频等多模态内容的上传和理解,相较文心4.0-Turbo新增视频、语音输入和联网搜索功能(网页版)。

连发两款模型“补课”,百度AI成色如何?

百度还首次推出深度推理模型文心X1。虽然相较OpenAI发布o1已经过去半年,但百度还是打出自己的差异化特色——支持多模态(包括图像理解和图像生成),并能调用工具。

百度表示,文心大模型X1性能对标DeepSeek-R1,具备长思维链,擅长中文问答、文学创作、逻辑推理等。不过,百度并未公布有关基准测试和DeepSeek-R1、o1等同类模型的对比。

搜狐科技注意到,文心大模型X1默认启用联网搜索、代码解释器、文档问答、图片理解、AI绘图等工具,还有网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询、词云生成等工具供使用。

连发两款模型“补课”,百度AI成色如何?

目前,这两款模型均已在文心一言官网免费上线,文小言APP则将两者合二为一。同时,这两款模型面向企业和开发者也有较大价格优势。

文心4.5的API输入价格为4元/百万tokens,输出为16元/百万tokens,相较文心4.0-Trubo综合价格下降78%。

同时,该价格约为GPT-4.5的1%,GPT-4o价格的五分之一,且均为DeepSeek-V3(标准时段)的一半。但相较通义、豆包主力模型,文心4.5还是贵出好几倍。

文心X1的输入价格为2元/百万tokens,输出为8元/百万tokens,均为DeepSeek-R1(标准时段)的一半。同时,相较OpenAI的o1价格优势更大,不到其2%。

和DeepSeek对比有优有劣

说了这么多,百度最新模型到底如何?首先看看此前难倒不少模型的测试。对于9.11和9.8哪个大的问题,文心X1则表示首先需要明确数字的具体含义,并考虑了多种可能,最终从作为小数、日期和时间进行了比较。

连发两款模型“补课”,百度AI成色如何?

DeepSeek则没有想这么多,直接视为数值进行比较,给出了正确答案,并写出了非常清晰的步骤解析。

连发两款模型“补课”,百度AI成色如何?

接下来看看语言生成能力。“啄木鸟公司被今年315晚会点名,假如你现在是他们公司的公关,需要写一封公关声明,用自嘲的风格,你会怎么写?”这个有一定难度,要求用自嘲风格写,很容易翻车,大模型能胜任吗?

连发两款模型“补课”,百度AI成色如何?

作为消费者,看完这两份声明,会更容易接受哪个呢?不过,这种危机公关可能并不适合用自嘲的风格,但从要求的风格看,文心X1自黑程度感觉比DeepSeek狠,但却把本该严肃的道歉信写得过于“活泼”。

连发两款模型“补课”,百度AI成色如何?

文心X1还具备多模态和调用工具能力,以百度去年四季度财报为例,要求这两个模型提取四季度的营收、净利润等关键数据,并用图表形式呈现。这个任务挺复杂,涉及到图片的内容识别、文本翻译,以及图表生成。

连发两款模型“补课”,百度AI成色如何?

文心X1则在思考和行动过程中调取了图片理解,对图片进行识别,然后调用代码解释器,用python写了生成图表的代码。

连发两款模型“补课”,百度AI成色如何?

最终文心X1输出了这张图片的数据解读,从营收数据、净利润数据和其它关键信息进行了罗列。不过,认真对比后发现不少错误,比如去年四季度营收数据的环比变化,实际略有增长,净利润数据则搞错GAAP和非GAAP和相应的增长情况。

连发两款模型“补课”,百度AI成色如何?

最终生成的图表,则把营收、净利润及其增长情况进行了“一锅炖”,没有分门别类,进行清晰地对比呈现。

连发两款模型“补课”,百度AI成色如何?

再来看看DeepSeek的表现,首先用表格清晰地展示了四季度营收、净利润及其增长情况,并将原来的单位百万转换成亿,更符合阅读习惯,而且全文输出的数据基本没有错误,还补充了对增降变化的分析。整体来看,图片识别理解和内容归纳能力相对文心X1更好。

连发两款模型“补课”,百度AI成色如何?

不过,由于DeepSeek并没有图像生成能力,因此无法输出可视化图表,但给出了设计逻辑,把营收和净利润数据设计为柱状图,把增速设计为折线图,思维相当清晰。

此外,文心X1还具有树图功能,适用于复杂的逻辑关系。比如《红楼梦》中的人物非常之多,贾宝玉作为核心,可以说有着非常复杂的人际关系网,这时候就可以让X1来进行梳理,可以选择TreeMind 树图,它就会生成贾宝玉的人际关系网。如果不满意,还可以点击编辑。

连发两款模型“补课”,百度AI成色如何?

从这些初步测试来看,虽然文心X1号称对标DeepSeek-R1,但它在某些方面,比如图片识别理解、思维过程逻辑等方面稍有逊色,但它具备图像生成、工具调用等功能,一定程度有点Agent的感觉了。

不过,某种程度看,这些工具更像是文心X1的“外挂”,且导向百度旗下的其它产品,比如百度学术检索、商业信息查询、加盟信息查询,分别指向百度学术、爱企查、加盟星等产品。

百度AI想翻身还要再等等

在百度发布这两款模型后,反响一般。有使用过的AI业内人士表示,百度的这两款模型并没有特别大的惊艳之处。还有人批评称,文心4.5像个半成品。

不过,这在海外引发了一些讨论。知名风投机构Benchmark合伙人Bill Gurley转发百度推文评论到:“美国AI公司应将100%的时间用于开发和创新,而不是在华盛顿特区游说寻求保护以躲避竞争。”

他说的可能是OpenAI这样的公司,此前该公司发文攻击DeepSeek,称其模型会带来“重大风险”,并要求美国政府采取行动。

百度原计划文心4.5要等到6月底才会开源。目前,百度仅初步透露了多个层面的技术优化,包括注意力机制、模型架构、模型幻觉等方面。

据介绍,文心4.5采用自研的FlashMask动态注意力掩码,降低了计算冗余和存储开销,可提升模型长序列建模能力和训练效率,优化了长文处理能力和多轮交互表现。

这和DeepSeek-V3在Transformer框架之上,通过MLA(多头潜在注意力)降低算力成本,有着异曲同工之处。

作为多模态大模型,文心4.5还采用了多模态异构专家扩展技术,这是一种将多模态数据处理与混合专家模型(MoE)相结合的架构。

在多模态训练中,文本、图像、视频等不同模态对模型参数更新速度或幅度存在不均衡的情况,可能导致某些模态形成主导,其它模型贡献较弱,从而影响模型训练效果和最终性能。

文心4.5通过引入MoE架构,根据不同模态建立专家模型,并设计自适应模态感知的损失函数,动态调整不同模态的权重(降低过高模态的权重,提高过低模态的权重),从而解决不均衡问题,提升多模态融合能力。

对注意力算法和MOE架构的优化已经成为业内关注的方向之一。此前,豆包大模型团队就开源了一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。

视频上传和理解,是文心4.5区别其它多数大模型的差异化能力,如GPT-4o支持实时视频通话,并不支持视频上传。拥有这类能力的还有阿里通义模型,其支持单个最大6G的视频,而文心4.5仅支持12M的单个视频,在高分辨率的情况下可能只有10秒左右。

对于图片和视频的理解,文心4.5则采用了时空维度表征压缩技术,提升对多模态数据的训练效率。比如,对于视频数据,可以降低帧率(时间维度)和分辨率(空间维度),从而减少数据规模和复杂度,提升训练效率。

在推理模型方面,文心X1则采用递进式强化学习(不断调整和优化对模型进行反馈)、基于思维链和行动链的端到端训练等关键调优技术,大幅降低推理成本。

目前,国内外都在探索强化学习的潜力。阿里此前推出的QwQ-32B,就借助大规模强化学习,实现整体性能比肩DeepSeek-R1,并实现可在消费级PC上部署。

对于有着研发、资金,以及基础设施和应用生态优势的百度来说,面对新一轮的大模型技术竞赛,还需要提高技术进步的速度。

“坚决投入大模型和生成式人工智能的技术研发。”这是李彦宏此前的多次表态。但在态度背后,百度还需要交出达到外界期待的兑现成果。

今年下半年,百度将推出文心5.0。届时,百度是否会像OpenAI一样,推动多模态大模型和推理模型的融合,值得关注。返回搜狐,查看更多

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-03-20 14:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

百度发布两款大模型,对标DeepSeek、聚焦多模态
...日,在文心一言正式发布两周年后,百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4
2025-03-16 14:03:00
百度CTO王海峰:文心大模型的底色和成色
...复杂任务的同时,还可以在环境中持续学习、自主进化。成色几何?用户“用脚”投票8月31日,知识增强大语言模型“文心一言”面向全社会开放。仅40多天时间,文心一言的用户规模就已达
2023-10-19 05:50:00
百度史上最好!文心大模型4.5/X1正式发布:免费用
快科技3月16日消息,今日,百度正式发布文心大模型4.5和文心大模型X1,目前,两款模型已在文心一言官网上线,免费向用户开放。同时,文心大模型4.5已上线百度智能云千帆大模型平台
2025-03-16 09:53:00
GPT-4撞上文心一言,百度压力骤增:多模态和中文能力受关注,或多种方式落地
...一言发布前夕,OpenAI抢先发布了功能更为强大的多模态大模型GPT-4,巨大的压力给到了百度。前后脚发布,高调宣传的百度难免会被拿来对比,或将面临发布即落后的尴尬。毫不夸张
2023-03-15 21:00:00
百度发布深度思考大模型文心X1:性能对标R1,API调用价格减半
百度发布文心大模型4.5、文心大模型X1。3月16日,百度(Nasdaq:BIDU,09888.HK)正式发布文心大模型4
2025-03-16 11:07:00
李彦宏:大模型场景下开源是最贵的,多模态是通往AGI的必经之路
...是尽可能为大家提供所需的开发工具,这包括了1个基础模型系列和三大AI开发工具,“今天的中国,有10亿互联网用户,有强大的基础大模型,有足够多的AI应用场景,有全球最完备的产业
2024-04-16 17:57:00
百度文心一格总架构师肖欣延:历程坎坷但未来已至,大模型赋能智能内容生成|WISE2023颠覆AIGC产业发展峰会
...上,百度文心一格总架构师肖欣延发表了题为《跨模态大模型赋能智能内容生成》的主题演讲。在肖欣延看来,生成式人工智能时代已经到来,内容生成将成为新一代生产方式,带来行业发展的新机
2023-05-26 15:52:00
国内首个!百度文心大模型X1 Turbo斩获信通院最高评级证书
...21日消息,在5月20日的百度AI Day 上,中国信通院公布了大模型推理能力评估结果。百度文心大模型X1 Turbo在24项能力评估中
2025-05-21 07:20:00
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...中知识增强具备5500亿的知识图谱的事实,叠加生成式大模型后,可以检查生成内容和事实是否吻合,同时检索增强可以及时总结出来高时效的信息和内容,从而大幅度提升事实性问题的准确率
2023-03-17 10:00:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00
“中国脑机谷”落户新奥新智感知产业园 政企研协同构建脑机接口产业新生态
河北新闻网讯(张新)9月26日,脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上,由新奥集团旗下的天津新智感知科技有限公司
2025-10-01 08:40:00
国网三明供电公司:守护灯火庆华诞 主动运维显担当
国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。(纪长添 摄)东南网10月1日讯 9月28日
2025-10-01 09:19:00
9月26日,由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位
2025-10-01 09:56:00
平望实小承办吴江区骨干教师(数学)讲学团活动
为进一步发挥吴江区骨干教师的示范和辐射作用,推进课堂教学改革,有效提升教师教学业务能力。2025年9月24日,由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师(数学)讲学团活动在平望实验小学举行
2025-10-01 09:58:00
AI技术让抗战文物“活起来”,人民日报数字传播联合百度推抗战文物智能体
9月30日,由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年,80件》智能体和3D文物词条正式上线
2025-10-01 10:00:00
新时达2025工博会圆满落幕 | STEP 2.0战略引领智能制造新篇章
2025年9月23日至27日,第二十五届中国国际工业博览会在国家会展中心(上海)盛大举行。新时达以"智拓无界 共创未来"为主题
2025-10-01 10:00:00
从课堂到产线,河北工大学子开展智慧物流与“地狼”系统自动化技术实训
河北新闻网讯(胡广涛)组装调试机器人、体验智慧仓储系统、探索自动化技术前沿……近日,河北工业大学人工智能与数据科学学院2022级自动化专业全体学生在廊坊分校
2025-10-01 11:12:00
中国青年报客户端讯(中青报·中青网记者 夏瑾)9月30日,由湖州师范学院音乐学院、湖州市音声数据挖掘与智能服务重点实验室主办的“1617系列明代魏氏乐虚拟乐器音源”全球发布会在浙江省杭州市举办
2025-10-01 14:11:00
“智慧武当”给游客带来数字文旅新体验
十堰广电讯(通讯员 汪伟 周琼 耿宇)“一部手机游武当”预约购票、AI导游、《入境武当》VR大空间、问道武当数字客厅……国庆假日
2025-10-01 18:35:00
津云文旅电商版块上线 首发“笑漾海河”优选线路 扫码阅读手机版
10月1日,天津鹏欣水游城14周年庆暨津云新媒体“笑漾海河”文旅电商线路首发仪式成功举办。近年来,随着“文旅+电商”模式的快速发展
2025-10-01 18:55:00
陕西数字贸易闪耀第四届数贸会 数字贸易合作成果丰硕
9月29日,为期5天的第四届全球数字贸易博览会(以下简称“数贸会”)在浙江杭州大会展中心圆满落下帷幕。此次盛会,陕西代表团表现亮眼
2025-10-01 18:58:00
高德扫街榜国庆提醒:全国十大吃货友好高铁站看这里
2025年国庆节与中秋节叠加,全国铁路预计发送旅客2.19亿人次。赶高铁如何吃饱吃好?今天,高德扫街榜发布“十大吃货友好高铁站”
2025-10-01 20:19:00
能效提升15%,山东港口日照港顺岸式全自动化码头再迎新突破
9月29日,在山东港口日照港全自动化集装箱码头,随着A23自动化轨道吊精准将集装箱吊起、转运,标志着日照港研发的新一代双悬臂轻量化轨道吊投产试运行
2025-10-01 23:08:00
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00