• 我的订阅
  • 科技

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线

类别:科技 发布时间:2023-06-15 16:53:00 来源:36氪

作者 | 邓咏仪

编辑 | 苏建勋

36氪获悉,6月15日,百川智能公司正式推出中英文预训练大模型——baichuan-7B,参数量为70亿。

百川智能是搜狗创始人王小川于2023年4月成立的新AI公司,36氪此前也曾做报道。baichuan-7B则是新公司成立两月后发布的第一个大模型。

据百川智能,为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个权威中文评估测试中进行了综合评估,均获得了优异成绩,其测试结果位于国内中文大模型的前列。

在MMLU英文权威评测榜单上,baichuan-7B也超过了Meta旗下的LLaMA-7B。MMLU是由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线

在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分

王小川新公司「百川智能」发布首个开源中英文大模型,开源免费可商用 | 最前线

来源:百川智能

C-Eval评测基准则是由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。 在中文C-EVAL评测中,baichuan-7B的综合评分达到了42.8分,

而AGIEval评测基准则是由微软研究院发起,意在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。在AGIEval的评测里,baichuan-7B综合评分达到34.4分,超过LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。

目前,baichuan-7B已经在Hugging Face、Github以及Model Scope平台发布。

本次发布也遵循开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

开源内容包含推理代码、INT4量化实现、微调代码,以及预训练模型的权重。其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用。在预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。

在成立短短两月后即发布了第一个开源大模型,百川智能是如何做到的?

训练语料对大模型的训练结果至关重要。百川智能表示,在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。

而在数据质量上,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。

这样的结果是,相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。

训练又是另一个重要的工程壁垒。baichuan-7B整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信高效重叠,进而加速了训练小懒虫,在千卡集群上训练的吞吐速度达到180+Tflops——这也相较业界平均水平要高。

本次百川开源的的预训练模型也将开源模型窗口进行扩展,开放了4K的上下文窗口。当前,已有的开源模型窗口长度在2K以内——对一些长文本建模任务,以往模型的处理效果可能会有所制约。在需要引入外部知识做搜索增强的场景,延展到4K后,模型在训练与推理阶段就能捕获越多的上下文信息,从而让模型的应用场景更广泛。

而对于大模型的“幻觉”问题,baichuan-7B也对模型训练流程进行深度优化,在这一问题上有所改善。据百川智能团队介绍,训练中,百川采用了更稳定的训练流程和超参数选择,使baichuan-7B模型的收敛速度大大提升。和同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

本次开源后,百川智能团队与北京大学与清华大学两家进行落地合作,两家高校未来也将和百川智能进行共创。

附项目开源地址:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-15 17:45:32

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...源模式 可免费商用】《科创板日报》15日讯,搜狗创始人王小川创立的百川智能公司,宣布推出了70亿参数量的开源中英文预训练大模型——baichuan-7B
2023-06-15 14:51:00
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
搜狗创始人、百川智能创始人兼CEO 王小川国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。钛媒体获悉,10月30日上午,王小川创立的 AI
2023-10-30 15:02:00
王小川公布最新530亿百川大模型,阿里腾讯等超150家企业已使用
百川智能创始人兼CEO 王小川成立120天,王小川的大模型公司百川智能又有了新动作。钛媒体App获悉,8月8日下午,百川智能在北京发布530亿参数通用大模型Baichuan-53B
2023-08-09 15:00:00
百川智能完成3亿美元A1轮融资,阿里、腾讯、小米等巨头参投
... 每经编辑:叶峰《每日经济新闻》记者获悉,10月17日,王小川旗下百川智能官宣已完成A1轮战略融资,融资金额3亿美元,阿里、腾讯、小米、深创投等科技巨头及多家顶级投资机构参投
2023-10-17 16:54:00
百川智能王小川:相信明年国内会产生大模型超级应用 【百川智能王小川:相信明年国内会产生大模型超级应用】《科创板日报》31日讯,百川智能创始人兼CEO王小川2023云栖大会上表示,
2023-10-31 12:45:00
对话王小川:国内在技术理想上拼不过OpenAI,但应用落地会跑得更快
... | 搜狐科技作者 | 梁昌均6月15日、7月11日、8月8日。这是王小川自4月10日官宣创办百川智能入局AI大模型创业以来
2023-08-09 15:00:00
GPT革命:王小川向左,Sam Altman向右|钛媒体焦点
...创业风潮。4月10日下午,身着橙色帽衫的搜狗公司创始人王小川,走进搜狐网络大厦二层一间近30平米的会议室,在这里他宣布了自己即将投入创业的大模型新项目,名叫“百川智能”,旨在
2023-04-14 14:00:00
王小川:大模型创业挺快乐,最好的大模型未必来自大厂
...潮中,王慧文成立的光年之外就在这里办公;而原搜狗CEO王小川,则将百川智能的创业地选在了与其一路之隔的赛尔大厦。站在这里,甚至可以看清对楼窗边的办公环境。不到一年时间,大模型
2023-08-17 17:45:00
让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低
...硬盘。而基于搜索增强技术推出的API系列,用百川智能CEO王小川的话来说:“就像硬盘一样,让大模型可以挂上外部知识库。”大模型成为AI时代的基础设施底座,已成为行业不少人的共
2023-12-21 15:32:00
更多关于科技的资讯:
成安“一品一播”赋能工业企业发展主播带货推动工业品线上热销河北新闻网讯(记者刘剑英)因一场直播,前不久,一名新疆卡车司机跨越3000多公里
2025-12-25 11:29:00
海尔×牛客AI面试:用技术重塑候选人体验,让招聘更有温度
效率与品质并行的时代,AI正在改写招聘的底层逻辑。从校招高峰到全球人才争夺战,越来越多企业正让AI深度介入招聘流程,让人才筛选像生产一样精准
2025-12-25 12:27:00
百度AI营销 × 茅台酱香:以岁月记忆沉淀品牌温度,打造全链路沟通范式
那些关于奔赴与抵达的足迹,那些串联起奋斗与团圆的旅程,不仅是时光的印记,更藏着一整年的热爱与坚守。当这些珍贵的生活轨迹被温柔唤醒
2025-12-25 12:29:00
不只是杯壶!新华社文创·哈尔斯“必胜”系列正式上线
近日,新华社文创与头部杯壶品牌哈尔斯携手推出“必胜”系列杯壶产品,该系列产品的策划灵感,源自纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会受阅现场划破长空的铿锵口号
2025-12-25 12:29:00
鸿蒙星火,桃李芳华:2025 HarmonyOS人才布道师年度论坛凝聚生态向心力
12月20日,“2025 HarmonyOS人才布道师年度论坛”于重庆举行。本次论坛不仅是一场对2025年度HarmonyOS人才发展的最新进展与成果的集中展示
2025-12-25 12:31:00
TPACK框架赋能高中英语教师信息化教学设计:现状、挑战与路径
摘要: 本研究基于TPACK框架,采用混合方法调查河南省高中英语教师信息化教学现状。结果显示:教师总体能力尚可(3.85)
2025-12-25 13:19:00
中新经纬12月25日电 “携程黑板报”公众号25日发布关于用户关切问题的郑重声明。针对近日大家高度关注的用户数据安全等问题
2025-12-25 14:01:00
长白时评评论员 久泰平近日,中国人民大学“书记严选”文创羽绒服热销火爆全网,源自中国人民大学党委书记张东刚在小红书社交平台上发帖推荐该校近期上新的人大超绒羽绒服
2025-12-25 14:06:00
Soul App联合复旦发布2026社交趋势十大关键词
近日,社交平台Soul App旗下Just So Soul研究院联合复旦大学传播与国家治理研究中心、复旦大学价值认知传播与人智协同治理交叉创新团队
2025-12-25 14:13:00
腾讯扣叮发布2026新品,助力人工智能教育普及
12月22日,2025腾讯扣叮渠道生态大会暨2026年新产品推介会在深圳举行。会上,腾讯扣叮宣布“快叮岛”迎来全新升级版本
2025-12-25 14:13:00
北京惠诚律师事务所举办律师品牌建设主题沙龙
12月5日下午,由北京市惠诚律师事务所与北京律页网络科技有限公司联合主办,百度百科、百度智能体、律视微言共同支持的“律业IP·惠诚赋能——律师品牌建设的创新路径”主题沙龙在惠诚律师事务所成功举办
2025-12-25 14:13:00
卡游:架设国潮文化和青少年之间的桥梁 ——“文化赋能,育心育人” 学术研讨会在京举办
12月20日,由央广传媒集团主办、浙江卡游动漫有限公司公益支持的“文化赋能,育心育人——中华优秀传统文化促进青少年心理健康学术交流活动”在北京举行
2025-12-25 14:43:00
中新经纬12月25日电 25日,公安部举行新闻发布会。会上,公安部经济犯罪侦查局局长华列兵表示,金融领域“黑灰产”已形成一套完整的产业链条
2025-12-25 14:48:00
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)“未来音乐研讨会暨国家社科基金艺术学重大项目《音乐与人工智能协同创新发展理论研究》学术研讨会”
2025-12-25 15:49:00
在唐山,金融服务正跳出传统柜台,上演着一场场生动的“现场作业”。曹妃甸经开区一家手握多项专利的科技企业,一周内获得了急需的发展资金
2025-12-25 15:56:00