• 我的订阅
  • 科技

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

类别:科技 发布时间:2023-05-18 18:00:00 来源:砍柴网

【每日科技网】

随着ChatGPT和GPT4.0的相继问世,拉开了大语言模型和生成式AI产业蓬勃发展的序幕。国内外各大企业和科研机构对ChatGPT的持续跟进,加速推进大语言模型的研发和产品化。

目前市面上出现了诸多类ChatGPT大模型,功能层面也从通用领域扩展到垂直应用领域。例如,百度推出的“文心一言”,腾讯的“混元”,阿里的“通义千言”,360、华为、商汤、京东、科大讯飞、字节跳动等巨头企业也动作频频,形成了全新的产业格局。

ChatGPT大模型背后是人工智能算法、算力和数据的再一次融合升级。简单来说,应用要高效运行起来,就需要强大算力的支持,而要让应用背后的算法更为聪明,则离不开高质量数据资源。

而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的实际需求,这就会造成所训练的模型对于中英文问题的回答质量并不一致。

以的Common Crawl数据集为例,中文数据占比仅有4.8%。此外,一些对模型能力提升巨大的语料里面,中文占比甚至会更低,例如在源代码的备注里面,英文语料占比高达90%,在专业科研论文审稿意见里,英文占比95%。

因此,“中国版ChatGPT”如果要把中文回答做好,就需要大量高质量的中文语料。基于此,标贝科技启动了大模型技术的非平衡专业语料的构建工作,将于近期陆续推出一系列高质量的数据集,持续解决多领域的GPT大模型非平衡语料问题 。

标贝非平衡专业语料库

标贝科技的非平衡专业语料库是基于多年累积的专业数据增强技术和经验,针对优质中文数据资源稀缺的领域、话题和人机交互方式等方面,补全当前开源基础数据的偏差或失衡,构造的一系列增强语料库,来提高中文GPT类模型的泛化能力和鲁棒性。

以标贝科技第一批专业语料——编程辅助数据集为例 。现有的公开数据中可以获得的高质量的带有中文注释的代码数据极少,预训练的基础语言模型可能无法在稀缺的中文描述、源代码实现的关联中学习到别的代码逻辑。所以目前公开的大多数中文类GPT模型都无法满足高性能的编程请求。

针对这个场景,标贝科技发布了高质量的中文注释代码数据集。该数据集是一个大体量的开放代码学习的数据集,从真实的Github开源项目中收集而来,超过百亿字符,包括高质量代码的中文注释内容以及对应的原始编码,可以用于继续微调(Further pretraining)大型语言模型,以辅助计算机编程和相关教学任务。

标贝科技编程辅助数据集样例

C源代码:左侧为原始代码数据,右侧为增强后的带有中文注释的代码数据

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

python源代码:左侧为原始代码数据,右侧为增强后的带有中文注释的代码数据

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

标贝科技编程辅助数据集特点

(1)数据集包含多种类型的代码和文本,包括真实的开源项目、常见的框架、语言等。

(2)数据集由开源社区作者或知名公司提供,具有广泛的功能实现和编程范式。

(3)数据集包含各种复杂度和难度等级的代码,以支持不同层次的用户进行训练。

标贝科技致力于为大语言模型提供终身学习语料

ChatGPT的大规模语言模型浪潮兴起伊始,对数据也提出了全新的要求。如何为大语言模型提供的、多样化高质量语料,成为行业面临的共同挑战。

作为行业的AI数据解决方案提供商,标贝科技坚持数据服务的创新,积极探索如何满足大规模预训练语言模型的需求,增加数据使用的价值。在对话大模型优化数据设计方案上,标贝科技不仅提供最基本的数据采集和清洗技术服务,还拥有一系列高效处理数据、优化模型的技术能力,持续推动以GPT为代表的大模型技术及应用的创新引领。

接下来,标贝科技还将逐步推出专业审稿意见数据、中文推理链数据、中文视频的VQA数据等多个专业领域的数据语料 。同时,我们还可以根据垂直领域需求,提供相应的语料定制服务。欢迎对以上数据集感兴趣的行业伙伴联系我们。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-18 19:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智驭未来,浪潮科技重磅推出“焱宇”行业大模型服务平台V1.0
...更高质量、更高效率的数字化转型。“焱宇”聚焦高质量语料的精细化梳理和模型轻量化、可移动化,通过高质量数据治理、模型增强调优及自动化部署发布,让大模型在私有化环境的部署效率提升
2024-11-21 18:00:00
上海:发力语料,建设“模都”
...从2小时缩减至10分钟,居民回访满意度再提升。“这样的技术应用,真是实实在在为基层减负。”卜丹凤感慨道。 协同区域发展、构建智慧城市、重塑商业密码、打造数字文娱……在上海,
2024-07-06 13:16:00
24万股民要嗨?千亿巨头突然放话:里程碑式的技术革命,重磅新品将发布!
...律法规前提下,在多年应用推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用,为训练实现达到人类专家水平的行业认知大模型提供了海量行业文本语料和用户反馈数据
2023-02-22 05:00:00
易联众发布民生信息服务大模型平台,助推民生事业提质增效
...求意见稿)》,提出以科学数据支持大模型开发,建设高质量语料库和基础科学数据集,加速通用大模型与垂直大模型的应用落地。民生领域中,人力资源和社会保障、医疗保障、卫生健康等服务在
2024-03-18 10:00:00
...话,多重AI技术互补,大模型与小模型搭配,专业知识和语料为支撑。这套打法说起来容易,但做起来一点儿也不简单,这需要对产业有极深的理解和实践,对技术有极高的储备。以服务某金融机
2024-04-10 17:31:00
中国联通重磅发布“联通元景大模型MaaS平台 ”全力助推新型工业化
5月25日,在第七届数字中国建设峰会上,联通数字科技有限公司总裁、中国联通人工智能创新中心主任朱常波正式发布中国联通元景大模型MaaS平台。该平台将为企业提供更懂行业的MaaS服
2024-05-27 08:48:00
上海:加速实施“模塑申城”
...的AI生态圈探营现场。人民网记者 董志雯摄在AI应用中,语料质量直接决定了模型的性能。库帕思正专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。库帕思成立于2024年
2025-02-20 15:49:00
共建上海大模型语料繁荣生态,全球开发者先锋大会“语料筑基 智生时代”论坛在沪举办
2月22日,2025全球开发者先锋大会“语料筑基 智生时代”主题论坛在上海市徐汇区正式拉开帷幕。论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公
2025-02-23 08:49:00
2024金智维大模型应用暨新品发布会成功举办,AI Agent新品K-Agent重磅发布
...能应用开发等方面的重大突破。在本次发布会上,金智维重磅发布AI Agent类新品K-Agent,并基于K-Agent平台打造金智维Kopilot——一个面向千行万业的智能助手(Copilot)应用集群
2024-03-22 02:00:00
更多关于科技的资讯: