• 我的订阅
  • 科技

huggingface开源ai训练数据集

类别:科技 发布时间:2024-02-24 03:23:00 来源:浅语科技

2月23日消息,HuggingFace近日开源了一款名为“Cosmopedia”的AI训练数据集,号称是目前世界上最大的合成数据集。

注意到,该数据集内容均由Mixtral7b模型汇总生成,其中收录3000万以上文本文件,包含大量教科书、博客文章、故事小说、WikiHow教程等内容,共计250亿个Token。

huggingface开源ai训练数据集

据悉,Cosmopedia数据集除了收录上述文本文件外,还为每条文件提供了标注信息,其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集Cosmopedia-100k,供用户轻松管理和使用。

huggingface开源ai训练数据集

HuggingFace表示,这次开源的数据集为0.1版本,未来团队还将持续更新该数据集,推进业界AI训练发展,感兴趣的小伙伴可以点此访问项目地址。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-24 09:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集
...最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集,供开发者开发和训练 AI 模型使用
2024-09-10 12:03:00
huggingface公布“smollm”小语言模型家族
...参数模型。据介绍,这些模型号称是以精心策划的高质量训练数据集训练而成,号称在Python程序编写性能上相当强大,团队指出他们重点优化了模型所需的RAM用量
2024-07-21 01:19:00
「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
【新智元导读】人工智能系统依靠充足、高质量的训练数据来获得高性能,但MIT等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着GenAI产品开发和研究变得
2024-08-14 09:40:00
常见电子邮件分类算法的性能分析
...,将文本转化为数值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析
2024-08-26 09:59:00
教人工智能读懂专业文件(新职业新故事)
本文转自:人民日报人工智能训练师帮助学习模型识别“有用”信息——教人工智能读懂专业文件(新职业新故事)本报记者 黄晓慧《 人民日报 》( 2024年08月27日 第 13 版)杨
2024-08-27 06:09:00
OpenAI反击纽约时报侵权诉讼:操纵证据还雇黑客黑入系统
...毁任何使用到《纽约时报》版权材料的聊天机器人模型和训练数据。当时,作为证据,《纽约时报》在诉讼中引用了几个案例,显示包括ChatGPT在内的聊天机器人向用户提供的内容与《纽约
2024-02-28 12:14:00
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,
2024-06-16 10:27:00
优惠力度加大!关于贵州算力券管理办法的政策问答
...策,加大了优惠力度,并探索将国产算力适配服务和模型训练服务纳入“算力券”政策的激励范围。现将有关内容解答如下。问题一:出台管理办法的背景是什么?答:一是落实国家要求的具体举措
2024-11-18 19:53:00
为训大模型不择手段的 AI 公司,打破了这个古老的互联网协议
...越多的 AI 公司用爬虫抓取你的网站数据,提取数据集,训练大模型和相关产品,但他们并不像搜索引擎那样回馈以流量,甚至根本不承认有你存在,你的数据就像肉包子打狗一样有去无回。很
2024-02-20 15:28:00
更多关于科技的资讯: