• 我的订阅
  • 科技

王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

类别:科技 发布时间:2023-10-30 15:02:00 来源:钛媒体APP
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

搜狗创始人、百川智能创始人兼CEO 王小川

国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。

钛媒体获悉,10月30日上午,王小川创立的 AI 大模型公司“百川智能”宣布,推出Baichuan2-192K大模型,其上下文窗口长度高达192K,能够处理约35万个汉字。

百川智能称,Baichuan2-192K是目前全球最长的上下文窗口,也是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍(1400%)。这不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

据悉,Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户。目前百川智能已经启动该大模型的API内测,并开放给法律、媒体、金融等行业的核心合作伙伴。

王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点

据悉,百川智能成立于2023年4月10日,由搜狗公司创始人、前CEO王小川创立。其核心团队由来自搜狗、Google、腾讯、百度、华为、微软、字节等知名科技公司的AI顶尖人才组成。目前,百川智能的团队规模170余人,其中硕士及硕士以上学历员工占比近70%,研发人员占比超80%。

过去200多天,百川智能平均每28天发布一款大模型,已连续Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型及Baichuan-53B、Baichuan2-53B两款闭源大模型,在写作、文本创作等领域能力已达到行业较好水平。目前,Baichuan-7B/13B两款开源大模型在多个权威评测榜单均名列前茅,累积下载量超过600万次。

对于建立 AI 大模型公司,王小川曾表示,其团队已有的技术工具可以用来建造大模型,公司的竞争对手就是大公司的开源方案。王小川还认为,整个团队不用太大,百人足够。

8月31日,百川智能率先通过国家《生成式人工智能服务管理暂行办法》备案,是首批八家公司中唯一一家今年成立的大模型初创公司,并于9月25日开放Baichuan2-53B API接口,正式进军To B企业端领域,开启商业化进程。

10月17日,百川智能宣布已完成A1轮3亿美元的战略融资,阿里、腾讯、小米等科技巨头及多家顶级投资机构均参投了本轮。加上天使轮的5000万美元,百川智能累计融资额已达3.5亿美元(约合人民币25.43亿元)。

百川智能未透露当前具体估值,仅表示本轮融资后,公司跻身于科技独角兽行列。根据一般定义,独角兽估值超过10亿美元(约合人民币72.66亿元)。

此次发布的Baichuan2-192K,百川智能表示在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型,全面领先Claude2。

百川方面指出,扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。而本次百川发布的Baichuan2-192K通过算法和工程的优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。

算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案,在保证分辨率的同时增强了模型对长序列依赖的建模能力,而且当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强;工程方面,在自主开发的分布式训练框架基础上,百川智能整合优化多个技术,独创了一套全面的4D并行分布式方案,能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

Baichuan2-192K便能够与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。比如它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科员人员快速浏览大量论文,总结最新的前沿进展等。

目前,Baichuan2-192K以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,称不久后将全面开放。

王小川团队表示,百川智能Baichuan2-192K在算法和工程上针对长上下文窗口进行创新,验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。同时,其更长的上下文还将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。

(本文首发钛媒体App,作者|林志佳)返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-10-30 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线
...型——baichuan-7B,参数量为70亿。百川智能是搜狗创始人王小川于2023年4月成立的新AI公司,36氪此前也曾做报道
2023-06-15 16:53:00
...问题,是其落地千行百业必须要面对的挑战。百川智能CEO王小川说,搜索增强是大模型落地应用的关键,能够有效解决幻觉、时效性差、专业领域知识不足等阻碍大模型应用的核心问题。王小川
2023-12-20 05:06:00
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...硬盘。而基于搜索增强技术推出的API系列,用百川智能CEO王小川的话来说:“就像硬盘一样,让大模型可以挂上外部知识库。”大模型成为AI时代的基础设施底座,已成为行业不少人的共
2023-12-21 15:32:00
王小川公布最新530亿百川大模型,阿里腾讯等超150家企业已使用
百川智能创始人兼CEO 王小川成立120天,王小川的大模型公司百川智能又有了新动作。钛媒体App获悉,8月8日下午,百川智能在北京发布530亿参数通用大模型Baichuan-53B
2023-08-09 15:00:00
GPT革命:王小川向左,Sam Altman向右|钛媒体焦点
...创业风潮。4月10日下午,身着橙色帽衫的搜狗公司创始人王小川,走进搜狐网络大厦二层一间近30平米的会议室,在这里他宣布了自己即将投入创业的大模型新项目,名叫“百川智能”,旨在
2023-04-14 14:00:00
OpenAI举办“AI春晚”;李开复大模型破纪录 | 图灵周报
...轮融资,由阿里云领投。点评:继杨植麟的moon shoot.ai、王小川的Baichuan2-192K大模型之后,李开复的Yi系列模型再次刷新上下文窗口长度纪录——参数量达340亿的Yi-34B
2023-11-13 15:48:00
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...2024世界人工智能大会“大模型五虎”之一百川智能的CEO王小川,则是开源派的拥趸,其认为开源与闭源并非对立关系,两者并存互补或许才是更优解。他预计,未来80%的企业会用到开
2024-08-13 09:50:00
对话王小川:国内在技术理想上拼不过OpenAI,但应用落地会跑得更快
... | 搜狐科技作者 | 梁昌均6月15日、7月11日、8月8日。这是王小川自4月10日官宣创办百川智能入局AI大模型创业以来
2023-08-09 15:00:00
王小川:大模型创业挺快乐,最好的大模型未必来自大厂
...潮中,王慧文成立的光年之外就在这里办公;而原搜狗CEO王小川,则将百川智能的创业地选在了与其一路之隔的赛尔大厦。站在这里,甚至可以看清对楼窗边的办公环境。不到一年时间,大模型
2023-08-17 17:45:00
更多关于科技的资讯: