• 我的订阅
  • 科技

「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发

类别:科技 发布时间:2023-06-07 13:04:00 来源:36氪

作者 | 邓咏仪

编辑 | 苏建勋

36氪获悉,6月7日,虎博科技正式发布并开源其自研大模型TigerBot。同时,虎博科技还发布了大模型应用开发所需的全套API,以及多领域专业数据。

虎博科技成立于2017年,是一家专注于深度学习及NLP(自然语言处理)技术的AI公司,36氪曾多次报道。此前,经过多年技术探索和积累,虎博科技已经拥有包括智能搜索、智能推荐、机器阅读理解、总结、翻译、舆情分析及撰稿在内的关键技术,亦有全球各行业的专业信息数据积累。

2022年11月,OpenAI发布ChatGPT,掀起了全球的AI大模型科技浪潮,中国市场也出现了不少团队自研AI大模型的尝试,虎博科技也是其中之一。

本次虎博科技所发布的自研大模型TigerBot,是一个多语言多任务大规模语言模型,经历3个月的封闭式开发和超过3000次实验迭代,当前已经迭代出第一个MVP版本。

从功能上,Tigerbot已经包含大部分生成和理解类的能力,具体包括几大部分:内容生成:辅助用户解决创作类问题,快速生成营销文案、评论、新闻稿等等。另外,Tigetbot也支持图片生成——模型可以实现文生图,进行插图创作等

「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发

图片生成开放问答:用户向Tigerbot提出问题,比如烹饪攻略、长文本总结、文本理解、角色对话、润色等等

「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发

开放式问答提取信息:比如有目的地获取关键信息、提取数字、主要内容等等

长文本解读

在3个月封闭开发背后,是一支精干的团队。虎博科技创始人兼CEO陈烨对36氪表示,在大模型研发上,虎博团队致敬了硅谷经典的“车库创业”模式,团队开始只有5个人,CEO同时担任首席程序员及首席AI科学家。

“在大模型的研发上,我们坚信顶尖团队能起到的作用,团队规模不必太大,但技术需要过硬。在我们从0到1的研发过程中,我们核心的研发团队一直保持在4-5个人,以及密切合作的研发状态。”陈烨表示。

从模型效果上看,虎博Tigerbot根据OpenAI InstructGPT论文的公开 NLP数据集上进行评测,TigerBot-7B对应OpenAI同等规模的6B版本,其综合表现能够达到OpenAI效果的96%。

「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发

以OpenAI-instruct GPT-6B-SFT为基准,归一化并平均各模型的得分情况 来源:虎博科技

在过去三个月中,虎博科技主要基于GPT和BLOOM两个开源模型基础上,在模型架构和算法侧做了一系列优化。陈烨对36氪表示,虎博科技在技术突破上,主要集中在原创的监督和微调方法上。“从整个技术角度来说,监督微调的方法是大模型这件事的核心,能够影响模型效果的七到八成。”

比如,大模型浪潮来临后,困扰业界的一个难题在于大模型的“幻觉”——即大模型输出的结果,和人类说的话一样自然,但在事实层面会“胡说八道”。

陈烨以实际案例举例,针对这一问题,虎博应用了一些经典的监督学习方法,如Ensemble和Probabilistic Modeling,结合到大模型中。

“假设人类在问模型一个事实性问题,Tigerbot不会只是简单地生成自然语言,而是同步利用更少量的数据就能知道人类意图——在回答上,则会更好的权衡事实性和创造性。”陈烨补充。这样的结果是,机器在训练模型中算力和数据的消耗,会比同等档次模型要小。

针对中文语境,虎博科技从分词器(Tokenizer)到训练算法等方面做了针对性算法优化,使得模型更懂中文指令,提高了问答结果的中国文化属性。(注:这里调后了一段,因为在模型里,事实性和创造性决定了它是不是会胡说八道,中文环境的针对性算法优化,可以让它更懂中国人的交流,类似于几个同学在一起,总有1个比其他人文学底蕴更好一点)

而在并⾏训练上,虎博的大模型团队也突破了比如 deep-speed 等主流框架中若⼲内存和通信问题,使得在千卡环境下,可实现训练数⽉⽆间断。

虎博科技在大模型研发上选择走开源路线。此次开源内容包含模型、代码、数据三部分,包含TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research等多个模型版本;基本训练且覆盖双卡推理 180B 模型的量化和推理代码;以及达100G的预训练数据、监督微调1G/100万条数据。

目前,这些内容已经全部在Github中发布(链接见此)。之所以选择开源路线,陈烨表示,推进人类文明的技术变革往往源于本能、直觉和偶然性,拥有自由的创新精神是根本。

“大模型技术就像是一门新兴学科,是颠覆式且长周期的,未来的可能性超越PC和互联网。现阶段过早和过于理性地探讨产品、应用、场景和商业化或许没有必要,更重要的是推广这一人工智能基础设施的原创突破,促进技术的发展和更新。”

出于上述的考虑,虎博除了一部分积累的预训练数据集,也同时开源了系统性的中文数据搜集和清洗方法论。陈烨并不认为数据会成为壁垒:“更重要的是团队对于数据清洗的理论和系统性的高度,这是一个长期的系统工程。”

虎博科技自成立之初就专注在中文NLP的技术和产品研发上,积累了大量高质量的中文预训练数据,本次发布的100G预训练数据,就是其中的一部分。未来,虎博还将开放大量的金融、法律、百科等领域专业数据,供应用开发者使用。

此前几年,虎博科技基于NLP,开发了主要面向泛金融领域的NLP产品,如舆情监测、搜索、知识图谱等,也已经用api的方式服务B端客户。本次大模型的发布也会与虎博的业务相结合——当前,虎博科技已经面向老客户提供包括内容生成类的功能模块。陈烨表示,大模型技术浪潮来临后,在市场侧感觉“客户决策速度比以前更快,产品落地速度也更快。”

未来,虎博科技将持续投入力量到大模型的研发和落地中。陈烨谈及了正在研发或者正在完善的一些功能,如研究助手TigerDoc、文创和营销工具等,虎博科技也正在内测部分面向个人的类助手产品。

欢迎交流

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-07 15:45:33

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模
2024-08-08 16:23:00
商汤科技sensetime推出“云端边”全栈大模型体系
...办技术交流日活动,发布行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求,并且全新升级“日日新SenseNova5
2024-04-25 01:02:00
解密星辰大模型·软件工厂 软件开发迈入智能化全流程新阶段
...是最早布局 AI 领域的一家,从去年至今,从星辰语义大模型到星辰多模态大模型和星辰语音识别大模型,中国电信旗下大模型始终保持着快速迭代,且完成了语义、语音、视觉、多模态的全模
2024-07-15 19:52:00
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...款基于AI的自然语言处理工具。ChatGPT使用的人类反馈强化模型技术使用人类偏好作为奖励信号来微调模型,能够通过学习和理解人类的语言进行对话,像人类一样聊天交流,甚至能完成
2023-02-19 10:00:00
若愚科技推出九天机器人大脑,大模型总参数规模达130亿 |项目报道
...受瞩目的热门话题。在若愚科技CEO孙腾看来,机器人是大模型最理想的落地载体和应用平台,大模型的引入彻底改变了机器人仅能在单一场景下执行单一任务的困境,使机器人智能化水平显著提
2023-12-26 09:36:00
Gemini引领多模态AI热潮,产业发展有望加速
...涨9.96%,宣亚国际(300612.SZ)涨9.7%。消息面上,GoogleAI大模型Gemini近日发布,Gemini是Google到目前为止规模最大
2023-12-11 15:01:00
百模大战又添新势力!李未可科技将发布自研AI大模型
近期,36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》,文中基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。其中
2024-03-29 15:00:00
连发两款模型“补课”,百度AI成色如何?
...杨锦没有发布会、没有李彦宏,百度近日低调发布两款大模型——文心4.5和深度推理模型文心X1,免费。两年前的3月,百度发布了对标ChatGPT的文心一言。这是全球大厂中首个生成
2025-03-20 11:38:00
紫东.太初再进化,揭秘全模态大模型的想象力
...内部分享中,奇绩创坛创始人陆奇直言:他已经跟不上大模型时代的“狂飙”速度了。在ChatGPT引发的现象级讨论下,千亿级大模型的军备竞赛愈演愈烈,不少企业赶趟儿式的交出了自家的
2023-05-12 06:00:00
更多关于科技的资讯:
蔡高民:颠覆认知!打破西方理论垄断!中国老年学自主知识体系诞生
《全生命周期养能力发展与医养结合:理论和实践》的核心突破,在于建构“养”的元概念、定义与内涵外延,并以此为基础构建了逻辑自洽的三大理论体系
2026-01-04 20:15:00
编者按:周期更迭,变量叠加。站在“十五五”开局之年的关键节点上,各行业如何调整节奏、校准路径、寻找增量?中新经纬广邀多领域学者
2026-01-04 20:21:00
春节临近,年味渐浓。在贵阳,一场不同于传统年货市集的新春活动正在酝酿——它以“创意游乐场”为定位,融合在地风物、潮流文化与青年创造力
2026-01-04 21:50:00
不经意晃动手机,软件立即跳转购物页面。最近,记者实测发现,备受诟病的“摇一摇跳转”广告乱象依然时有发生,困扰着不少用户
2026-01-04 17:59:00
2025年度帆书APP经典热搜榜,精准解锁经典中的成长指南
当“信息过载”成为常态,“选择困难”深入骨髓,我们比任何时候都更需要一个清晰的信号:什么才是值得投入时间的真知?近日,帆书APP根据全年用户收听数据发布的“经典热搜榜”
2026-01-04 14:25:00
黄鹤权据光明网报道,英国《剑桥词典》将2025年年度词汇定为“准社交”,形容个体单方面与名人、虚拟角色或聊天机器人产生的密切连接感
2026-01-04 14:25:00
飞晟科技入选海南省儋州市中小企业数字化转型城市试点服务商
近日,海南省儋州市科学技术和工业信息化局对外公示《儋州市中小企业数字化转型城市试点服务商拟纳入名单(第一批)》。公示名单显示
2026-01-04 15:28:00
抖音生活服务联合南京德基广场落地“心动街区”,电视台直播+明星见面会+打卡活动助力商圈消费
12月30日,抖音生活服务“心动街区”活动联合江苏电视台城市频道零距离栏目发起“心动德基24h·南京跨年在德基”美食专场直播
2026-01-04 15:30:00
浪潮卓数大数据旗下公司入围多项2025年山东省大数据产业“三优两重”项目
近日,山东省工业和信息化厅正式公布2025年山东省大数据产业“三优两重”项目名单。浪潮卓数大数据旗下天元征信公司、浪潮(山东)大数据科技有限公司
2026-01-04 15:31:00
华麟数科推出联盟生态链“麒麟链”,加速数字经济深度融合与转型
【中国,2026年1月】 —— 在数字经济浪潮席卷全球、深入渗透各行各业的关键阶段,华麟数科(广东)有限公司(以下简称“华麟数科”)正式宣布
2026-01-04 15:31:00
以具身智能赋能教育未来----开普勒机器人助力高校产学研融合创新
在新一轮科技革命与产业变革加速演进的背景下,人工智能正从"算法与算力"的竞争,走向"智能体与真实世界深度融合"的新阶段
2026-01-04 15:33:00
中国首个!新奈发布“智能呼吸工程体系”,破解家用呼吸设备长期安全难题
在睡眠与呼吸健康领域,真正的改变往往不是某一功能的增加,而是背后那套长期支撑它持续进化的技术体系。2025年12月,新奈 Synaire 对外发布年度科研成果
2026-01-04 15:33:00
中国科技定义未来运动 HURA超现实远程赛车亮相世界未来运动会
2025年12月18日至23日,全球体育科技前沿的目光齐聚阿联酋首都阿布扎比国家展览中心。在这里举办的2025世界未来运动会(Games of the Future 2025)上
2026-01-04 15:33:00
京东健康深化政企协同 助力吉林人参产业发展提质增效
元旦假期期间,人参等滋补品在节庆送礼与家庭健康消费中的需求集中释放。京东健康的消费数据显示,近一个月以来,人参等滋补品类销售同比增长55%
2026-01-04 15:59:00
稳送万物,乘势而上:顺丰同城交出2025年度答卷
2025年,即时零售的“东风”依旧猛烈,市场规模逼近万亿大关,“餐饮+非餐”品类单量均刷新了历史纪录,验证即时零售的天花板远未见顶
2026-01-04 13:55:00