• 我的订阅
  • 科技

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

类别:科技 发布时间:2023-05-18 18:00:00 来源:砍柴网

【每日科技网】

随着ChatGPT和GPT4.0的相继问世,拉开了大语言模型和生成式AI产业蓬勃发展的序幕。国内外各大企业和科研机构对ChatGPT的持续跟进,加速推进大语言模型的研发和产品化。

目前市面上出现了诸多类ChatGPT大模型,功能层面也从通用领域扩展到垂直应用领域。例如,百度推出的“文心一言”,腾讯的“混元”,阿里的“通义千言”,360、华为、商汤、京东、科大讯飞、字节跳动等巨头企业也动作频频,形成了全新的产业格局。

ChatGPT大模型背后是人工智能算法、算力和数据的再一次融合升级。简单来说,应用要高效运行起来,就需要强大算力的支持,而要让应用背后的算法更为聪明,则离不开高质量数据资源。

而摆在“中国ChatGPT”面前的问题,首当其中就是中文语料库的不足。当前GPT大模型主流数据集和评估基准多以英文为主,缺少中文特点、文化,难以满足关键行业应用选型和优化的实际需求,这就会造成所训练的模型对于中英文问题的回答质量并不一致。

以的Common Crawl数据集为例,中文数据占比仅有4.8%。此外,一些对模型能力提升巨大的语料里面,中文占比甚至会更低,例如在源代码的备注里面,英文语料占比高达90%,在专业科研论文审稿意见里,英文占比95%。

因此,“中国版ChatGPT”如果要把中文回答做好,就需要大量高质量的中文语料。基于此,标贝科技启动了大模型技术的非平衡专业语料的构建工作,将于近期陆续推出一系列高质量的数据集,持续解决多领域的GPT大模型非平衡语料问题 。

标贝非平衡专业语料库

标贝科技的非平衡专业语料库是基于多年累积的专业数据增强技术和经验,针对优质中文数据资源稀缺的领域、话题和人机交互方式等方面,补全当前开源基础数据的偏差或失衡,构造的一系列增强语料库,来提高中文GPT类模型的泛化能力和鲁棒性。

以标贝科技第一批专业语料——编程辅助数据集为例 。现有的公开数据中可以获得的高质量的带有中文注释的代码数据极少,预训练的基础语言模型可能无法在稀缺的中文描述、源代码实现的关联中学习到别的代码逻辑。所以目前公开的大多数中文类GPT模型都无法满足高性能的编程请求。

针对这个场景,标贝科技发布了高质量的中文注释代码数据集。该数据集是一个大体量的开放代码学习的数据集,从真实的Github开源项目中收集而来,超过百亿字符,包括高质量代码的中文注释内容以及对应的原始编码,可以用于继续微调(Further pretraining)大型语言模型,以辅助计算机编程和相关教学任务。

标贝科技编程辅助数据集样例

C源代码:左侧为原始代码数据,右侧为增强后的带有中文注释的代码数据

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

python源代码:左侧为原始代码数据,右侧为增强后的带有中文注释的代码数据

重磅|标贝科技非平衡专业语料上线 助推GPT大模型技术应用落地

标贝科技编程辅助数据集特点

(1)数据集包含多种类型的代码和文本,包括真实的开源项目、常见的框架、语言等。

(2)数据集由开源社区作者或知名公司提供,具有广泛的功能实现和编程范式。

(3)数据集包含各种复杂度和难度等级的代码,以支持不同层次的用户进行训练。

标贝科技致力于为大语言模型提供终身学习语料

ChatGPT的大规模语言模型浪潮兴起伊始,对数据也提出了全新的要求。如何为大语言模型提供的、多样化高质量语料,成为行业面临的共同挑战。

作为行业的AI数据解决方案提供商,标贝科技坚持数据服务的创新,积极探索如何满足大规模预训练语言模型的需求,增加数据使用的价值。在对话大模型优化数据设计方案上,标贝科技不仅提供最基本的数据采集和清洗技术服务,还拥有一系列高效处理数据、优化模型的技术能力,持续推动以GPT为代表的大模型技术及应用的创新引领。

接下来,标贝科技还将逐步推出专业审稿意见数据、中文推理链数据、中文视频的VQA数据等多个专业领域的数据语料 。同时,我们还可以根据垂直领域需求,提供相应的语料定制服务。欢迎对以上数据集感兴趣的行业伙伴联系我们。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-18 19:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智驭未来,浪潮科技重磅推出“焱宇”行业大模型服务平台V1.0
...更高质量、更高效率的数字化转型。“焱宇”聚焦高质量语料的精细化梳理和模型轻量化、可移动化,通过高质量数据治理、模型增强调优及自动化部署发布,让大模型在私有化环境的部署效率提升
2024-11-21 18:00:00
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
...东数字文化集团(以下简称山东数文集团)与人民网共建语料库合作签约暨项目推进会在济南举行,山东数文集团与人民网正式签约,共建全国首个主流文化语料库。什么是主流文化语料库?它的建
2025-08-25 16:46:00
上海:发力语料,建设“模都”
...从2小时缩减至10分钟,居民回访满意度再提升。“这样的技术应用,真是实实在在为基层减负。”卜丹凤感慨道。 协同区域发展、构建智慧城市、重塑商业密码、打造数字文娱……在上海,
2024-07-06 13:16:00
24万股民要嗨?千亿巨头突然放话:里程碑式的技术革命,重磅新品将发布!
...律法规前提下,在多年应用推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用,为训练实现达到人类专家水平的行业认知大模型提供了海量行业文本语料和用户反馈数据
2023-02-22 05:00:00
易联众发布民生信息服务大模型平台,助推民生事业提质增效
...求意见稿)》,提出以科学数据支持大模型开发,建设高质量语料库和基础科学数据集,加速通用大模型与垂直大模型的应用落地。民生领域中,人力资源和社会保障、医疗保障、卫生健康等服务在
2024-03-18 10:00:00
中国联通重磅发布“联通元景大模型MaaS平台 ”全力助推新型工业化
5月25日,在第七届数字中国建设峰会上,联通数字科技有限公司总裁、中国联通人工智能创新中心主任朱常波正式发布中国联通元景大模型MaaS平台。该平台将为企业提供更懂行业的MaaS服
2024-05-27 08:48:00
...话,多重AI技术互补,大模型与小模型搭配,专业知识和语料为支撑。这套打法说起来容易,但做起来一点儿也不简单,这需要对产业有极深的理解和实践,对技术有极高的储备。以服务某金融机
2024-04-10 17:31:00
上海:加速实施“模塑申城”
...的AI生态圈探营现场。人民网记者 董志雯摄在AI应用中,语料质量直接决定了模型的性能。库帕思正专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。库帕思成立于2024年
2025-02-20 15:49:00
共建上海大模型语料繁荣生态,全球开发者先锋大会“语料筑基 智生时代”论坛在沪举办
2月22日,2025全球开发者先锋大会“语料筑基 智生时代”主题论坛在上海市徐汇区正式拉开帷幕。论坛由全球开发者先锋大会组委会指导,由上海库帕思科技有限公司承办,漕河泾开发区总公
2025-02-23 08:49:00
更多关于科技的资讯:
“景德镇鸡排哥”用一碗香辣鸡排撬动全网关注,这座千年瓷都再次被推上流量风口。草根摊主的日常片段在网络掀起打卡热潮,小众街巷因一条短视频迎来客流井喷
2025-11-03 12:25:00
乘AI之势,筑电子产业之基,CPCA Show Plus 2025 圆满闭幕,2026再相见!
2025年10月28日-30日,电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(以下简称:CPCA Show Plus)在深圳国际会展中心(宝安)盛大举办
2025-11-03 12:43:00
培育钻值得购买吗?超全选购攻略一篇搞定,附头部品牌深度测评
当越来越多的年轻人开始琢磨“如何高性价比的结个婚”,培育钻石凭借着价格优势、环保理念,正成为暗潮涌动的钻戒市场的新宠。据统计
2025-11-03 12:45:00
未来,AI有望打造口感逼真的植物蛋白
大河网讯 “人工智能(AI)正以前所未有的速度加速食品创新,它不仅能打造口感逼真的植物蛋白、通过文本生成全新食品配方,还能辅助设计个性化营养食品
2025-11-03 13:10:00
2025 年,Facebook 依托 Meta 生态的 29.8 亿全球月活用户(Statista 数据),仍是企业海外拓客的关键阵地
2025-11-03 12:46:00
彰显国际范科技范 第十七届厦门国际动漫节圆满落幕
角色扮演者在金海豚动漫游戏嘉年华现场打卡。厦门游戏企业展台带来多样互动活动。游路演活动现场,企业展开对接。(动漫节组委会 供图) 厦门网讯(文/厦门日报记者 林露虹 通讯员 洪慧敏 图/厦门日报记者 林铭鸿 除署名外)昨日傍晚
2025-11-03 08:55:00
报告:亲身体验“在地风物”成年轻人出行新理由
近日,中国旅游研究院(文化和旅游部数据中心)与马蜂窝联合召开“旅游目的地探索系列报告发布会”,发布该系列最新研究成果——《中国风物报告》
2025-11-03 09:28:00
几何之厦落子广州白云机场T3,以“文化坪效”重塑机场商业价值
(2025年10月30日,广州电) 今日,广州白云国际机场T3航站楼正式通航,与这座未来年客流量超千万级航空枢纽一同启幕的
2025-11-03 09:59:00
固安:“共享工厂”赋能特色产业集群高质量发展
河北新闻网讯(万倩、王智钢)走进汉旗电子科技(固安)有限公司的生产车间,企业新升级的智能化生产线正在高效运转。这里不仅是企业自身的生产基地
2025-11-03 10:00:00
梦启未来!2025年“兴火·燎原”创新马拉松公开赛火热报名中
创新驱动发展澎湃潮涌,“数字中国”建设如火如荼。年年相约,再启新程,2025年“兴火·燎原”创新马拉松公开赛正式开放报名
2025-11-03 10:29:00
阿宽食品以品类创新引领发展:从红油面皮到土豆泥泥面、魔芋系列
10月27日至28日,四川省预制食品产业高质量发展推进会在眉山市召开。当天,阿宽食品作为代表企业设展,重点展示了包括红油面皮
2025-11-03 10:29:00
浪潮计算机生态发展大会圆满举办
10月31日,以“潮涌水城 链动未来”为主题的浪潮计算机生态发展大会圆满举办。浪潮集团党委副书记、总经理刘继永,聊城市委副书记
2025-11-03 10:56:00
工信部公布产才融合应用场景19个典型案例 软件谷入选国家级名单,南京唯一南报网讯(通讯员林园园记者于洁尘)10月28日
2025-11-03 07:37:00
平价社区超市“跑马圈地”,半年连开20家 超盒算NB在南京一天开4店南报网讯(记者张希)10月31日,盒马旗下硬折扣超市品牌超盒算NB在南京4店同开
2025-11-03 07:38:00
今日关注数字21.9%关键词新动能前三季度,全市基础设施投资同比增长4.2%,其中本年新开工项目投资同比增长21.9%
2025-11-03 07:38:00