• 我的订阅
  • 科技

王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

类别:科技 发布时间:2023-10-30 15:02:00 来源:钛媒体APP
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

搜狗创始人、百川智能创始人兼CEO 王小川

国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。

钛媒体获悉,10月30日上午,王小川创立的 AI 大模型公司“百川智能”宣布,推出Baichuan2-192K大模型,其上下文窗口长度高达192K,能够处理约35万个汉字。

百川智能称,Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍(1400%)。这不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

据悉,Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户。目前百川智能已经启动该大模型的API内测,并开放给法律、媒体、金融等行业的核心合作伙伴。

王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

据悉,百川智能成立于2023年4月10日,由搜狗公司创始人、前CEO王小川创立。其核心团队由来自搜狗、Google、腾讯、百度、华为、微软、字节等知名科技公司的AI顶尖人才组成。目前,百川智能的团队规模170余人,其中硕士及硕士以上学历员工占比近70%,研发人员占比超80%。

过去200多天,百川智能平均每28天发布一款大模型,已连续Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型及Baichuan-53B、Baichuan2-53B两款闭源大模型,在写作、文本创作等领域能力已达到行业较好水平。目前,Baichuan-7B/13B两款开源大模型在多个权威评测榜单均名列前茅,累积下载量超过600万次。

对于建立 AI 大模型公司,王小川曾表示,其团队已有的技术工具可以用来建造大模型,公司的竞争对手就是大公司的开源方案。王小川还认为,整个团队不用太大,百人足够。

8月31日,百川智能率先通过国家《生成式人工智能服务管理暂行办法》备案,是首批八家公司中唯一一家今年成立的大模型初创公司,并于9月25日开放Baichuan2-53B API接口,正式进军To B企业端领域,开启商业化进程。

10月17日,百川智能宣布已完成A1轮3亿美元的战略融资,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参投了本轮。加上天使轮的5000万美元,百川智能累计融资额已达3.5亿美元(约合人民币25.43亿元)。

百川智能未透露当前具体估值,仅表示本轮融资后,公司跻身于科技独角兽行列。根据一般定义,独角兽估值超过10亿美元(约合人民币72.66亿元)。

此次发布的Baichuan2-192K,百川智能表示在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型,全面领先Claude2。

百川方面指出,扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。而本次百川发布的Baichuan2-192K通过算法和工程的优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,在保证分辨率的同时增强了模型对长序列依赖的建模能力,而且当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强;工程方面,在自主开发的分布式训练框架基础上,百川智能整合优化多个技术,独创了一套全面的4D并行分布式方案,能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

Baichuan2-192K便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。比如它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展等。

目前,Baichuan2-192K以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,称不久后将全面开放。

王小川团队表示,百川智能Baichuan2-192K在算法和工程上针对长上下文窗口进行创新,验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。同时,其更长的上下文还将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

(本文首发钛媒体App,作者|林志佳)返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-30 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...型——baichuan-7B,参数量为70亿。百川智能是搜狗创始人王小川于2023年4月成立的新AI公司,36氪此前也曾做报道
2023-06-15 16:53:00
...问题,是其落地千行百业必须要面对的挑战。百川智能CEO王小川说,搜索增强是大模型落地应用的关键,能够有效解决幻觉、时效性差、专业领域知识不足等阻碍大模型应用的核心问题。王小川
2023-12-20 05:06:00
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...硬盘。而基于搜索增强技术推出的API系列,用百川智能CEO王小川的话来说:“就像硬盘一样,让大模型可以挂上外部知识库。”大模型成为AI时代的基础设施底座,已成为行业不少人的共
2023-12-21 15:32:00
王小川公布最新530亿百川大模型,阿里腾讯等超150家企业已使用
百川智能创始人兼CEO 王小川成立120天,王小川的大模型公司百川智能又有了新动作。钛媒体App获悉,8月8日下午,百川智能在北京发布530亿参数通用大模型Baichuan-53B
2023-08-09 15:00:00
GPT革命:王小川向左,Sam Altman向右|钛媒体焦点
...创业风潮。4月10日下午,身着橙色帽衫的搜狗公司创始人王小川,走进搜狐网络大厦二层一间近30平米的会议室,在这里他宣布了自己即将投入创业的大模型新项目,名叫“百川智能”,旨在
2023-04-14 14:00:00
OpenAI举办“AI春晚”;李开复大模型破纪录 | 图灵周报
...轮融资,由阿里云领投。点评:继杨植麟的moon shoot.ai、王小川的Baichuan2-192K大模型之后,李开复的Yi系列模型再次刷新上下文窗口长度纪录——参数量达340亿的Yi-34B
2023-11-13 15:48:00
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...2024世界人工智能大会“大模型五虎”之一百川智能的CEO王小川,则是开源派的拥趸,其认为开源与闭源并非对立关系,两者并存互补或许才是更优解。他预计,未来80%的企业会用到开
2024-08-13 09:50:00
对话王小川:国内在技术理想上拼不过OpenAI,但应用落地会跑得更快
... | 搜狐科技作者 | 梁昌均6月15日、7月11日、8月8日。这是王小川自4月10日官宣创办百川智能入局AI大模型创业以来
2023-08-09 15:00:00
王小川:大模型创业挺快乐,最好的大模型未必来自大厂
...潮中,王慧文成立的光年之外就在这里办公;而原搜狗CEO王小川,则将百川智能的创业地选在了与其一路之隔的赛尔大厦。站在这里,甚至可以看清对楼窗边的办公环境。不到一年时间,大模型
2023-08-17 17:45:00
更多关于科技的资讯:
近日,国际顶级学术期刊《自然》发表了我国科学家在储热技术领域的一项重要突破。浙江大学能源工程学院研究员范利武团队与其合作者提出全新的“滑移强化接触熔化”机制
2026-01-12 08:22:00
企业深度访谈对象:北京分形科技有限公司媒体:企业家日报在数字化转型浪潮中,高端网站建设已从单纯的信息展示,升级为集品牌形象
2026-01-12 08:56:00
我用AI造轮胎——“车间里的AI”系列报道之一
在中策橡胶临江制造工厂,轮胎生产制造全程由机器人完成。 本报记者 曹坚 摄当你走进一家传统的轮胎制造工厂,会看到什么?可能是轰鸣的机器
2026-01-12 09:23:00
双十一卖爆,连续五年天猫销冠!这个国货卸妆凭什么?
近年来,随着护肤步骤精细化与彩妆使用日常化,卸妆已成为中国美妆市场中增长最为迅猛的赛道之一。在这一充分竞争的市场中,衡量品牌实力的标尺日益清晰
2026-01-12 09:26:00
烟台毓璜顶医院专家直播1月15日开讲:直面卵巢功能减退,科学助力好孕梦想
胶东在线1月12日讯(记者 栾雪 通讯员 李成修 王婧)备孕路上,你是否也曾被“卵巢功能减退”的诊断打乱节奏?是否一边焦虑卵子质量
2026-01-12 10:37:00
超清晰视觉,全球共鉴,高德智感ApexVision闪耀CES 2026
冬日的拉斯维加斯星光熠熠,全球目光持续聚焦一年一度的科技盛会——CES美国国际消费电子展。来自中国的红外热成像领军企业高德智感Guide Sensmart(展位号
2026-01-12 09:26:00
近日,苹果应用商店一款名为“死了么”的App受到关注,据悉,该应用是为独居人群打造的轻量化安全工具,用户需要设置紧急联系人并签到
2026-01-12 09:28:00
因为AI的快速发展,过去一年里内存、硬盘和显卡都经历了显著上涨,对硬件终端的影响也终于爆发。开年以后,许多人发现多个品牌的笔记本电脑迎来了意想不到的涨价
2026-01-12 07:52:00
贯通生态,链接未来:ISPO Beijing 2026在京盛大开幕
2026年1月9日,亚太地区运动生活方式产业的开年风向标,ISPO Beijing 2026亚洲运动用品与时尚展于北京国家会议中心隆重启幕
2026-01-12 07:56:00
新年伊始,奋进正当时,在“十五五”开局的关键节点,山西转型综改示范区锚定发展目标抢订单、抓生产、拓市场,全力冲刺第一季度“开门红”
2026-01-12 07:05:00
近年来,音效设计行业在技术介入程度上的讨论不断增加。机器学习、区块链等技术的应用,使行业内部出现了关于“声音设计是否需要标准化
2026-01-09 14:49:00
“山情海韵 创见未来”青岛市崂山区第三届文创设计大赛作品火爆征集中,入围即享孵化赋能!
鲁网1月9日讯在黄海之滨、崂山脚下,千年文脉与现代潮流在此交融共生。为推动中华优秀传统文化创造性转化、创新性发展,助力崂山文旅高质量发展提质增效
2026-01-09 16:45:00
安徽人文讲坛丨人工智能:向新、向深、向未来
大皖新闻讯 人工智能正以前所未有的速度重塑人类社会,成为驱动全球科技革命、产业变革与国家竞争的核心力量。从历史纵深审视
2026-01-11 17:59:00
“返本还原第四回——小尺幅版画作品展”在省美术馆展出
江南时报讯(记者 钱海盈)由江苏省美术馆主办、江苏版画院(水印版画材料与技术研究文化和旅游部重点实验室)承办的“返本还原第四回——小尺幅版画作品展”正在江苏省美术馆展出
2026-01-11 15:13:00
邦德激光SK高速款激光切管机,引领高效切割技术新高度
在金属管材加工中,如何让设备在真正“高速”运行时,仍能保持“高精度”与“高稳定性”?单纯提升单项参数往往顾此失彼。邦德激光认为
2026-01-11 15:47:00