• 我的订阅
  • 科技

权威AI开源标准1.0版发布:Llama也不算开源

类别:科技 发布时间:2024-10-30 09:52:00 来源:机器之心Pro

权威AI开源标准1.0版发布:Llama也不算开源

大模型开源的口号,不是随便说说的。

该来的终于来了。

本周,人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会(Open Source Initiative,OSI)发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

值得关注的是在此机制下,一直以来开源大模型的标杆 Llama 3 也不符合本规则。

权威AI开源标准1.0版发布:Llama也不算开源

长期以来,OSI 一直为开源软件的构成设定行业标准,但人工智能系统包含传统许可未涵盖的元素,例如模型训练数据。现在,要使 AI 系统被视为真正的开源系统,它必须提供:

可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建; 用于构建和运行 AI 的完整代码; 训练中的设置和权重,帮助 AI 产生相应的结果。

这一定义直接直击 Meta 推动的 Llama 大模型。虽然在生成式 AI 领域里,Llama 一直被广泛宣传为最大的开源 AI 模型,Llama 的使用条款中支持公众下载和使用,但其商业用途受到一定限制(对于拥有超过 7 亿用户的应用程序),且不提供对训练数据的访问,这导致其不符合 OSI 的无限制使用、修改和共享自由标准。

对此,Meta 发言人 Faith Eischen 对此表示,虽然「在很多事情上都同意合作伙伴 OSI 的观点」,但 Meta 不同意这一定义。不应该设置单一的开源 AI 定义,人们此前对于开源的定义没有涵盖当今快速发展的 AI 模型的复杂性。

不过,无论技术的定义如何,Meta 表示仍将继续与 OSI 和其他行业组织合作,以负责任的方式推动 AI 朝着可访问和免费的方向发展。

在「开源」这件事上,非营利组织 OSI 一直扮演着重要的角色。OSI 维护了一个被业内认可的许可证列表,其定义的开源包括十余个关键条款,如自由再分发、源代码可获得、允许修改和衍生作品等。自 1998 年定义「开源」标签并成立以来,OSI 对开源软件的定义已被开发人员广泛接受。

如今,随着人工智能重塑格局,科技巨头们面临着一个关键选择:是接受这些既定原则,还是拒绝它们。Linux 基金会最近也试图定义「开源人工智能」,这表明关于传统开源价值观如何适应人工智能时代的争论已日益激烈。

权威AI开源标准1.0版发布:Llama也不算开源

独立研究员和开放源代码创建者 Simon Willison 说:「既然我们已经有了一个强有力的定义,也许我们可以更积极地抵制那些『开源洗白(open washing)』并宣称自己的工作是开源的公司。」

Hugging Face 首席执行官 Clément Delangue 称:「 OSI 的定义对于围绕人工智能开放性展开讨论有巨大帮助,特别是在涉及训练数据的关键作用时。」

OSI 执行董事 Stefano Maffulli 表示,该公司花了两年时间咨询全球专家,通过与机器学习和自然语言处理的学界专家、哲学家、Creative Commons 的内容创作者等合作完善了这一定义。

OSI 对于开源 AI 的定义

OSI 表示,「开源」的人工智能系统需要满足以下几点:

可将系统用于任何目的,无需征得许可; 允许人们研究系统的工作原理并检查其组件; 允许人们为任何目的修改该系统,包括更改其输出; 人们可以出于任何目的,将系统共享给他人,无论是否经过修改。

这些自由既适用于功能齐全的系统,也适用于系统的离散元素。行使这些自由的先决条件是能够对系统进行修改。

再进一步,对于机器学习系统可修改的形式,OSI 也进行了定义。必须包含以下所有元素:

数据信息:用于训练系统的数据的足够详细的信息,以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。特别是,必须包括: 用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、其范围和特征、数据的获取和选择方式,标签程序、数据处理和过滤方法; 所有公开可用的训练数据的清单以及获取这些数据的方式; 可从第三方获得的所有训练数据的列表以及从何处获取(包括付费)。 代码:用于训练和运行系统的完整源代码。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。 例如,如果使用,则必须包括用于处理和过滤数据的代码、用于训练的代码(包括使用的参数和设置)、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。 参数:模型参数,例如权重或其他配置。参数应根据 OSI 批准条款提供。 例如,训练中间阶段的检查点以及优化器状态。

对于机器学习系统,模型权重也是一个重要因素。OSI 在开源定义中表述道:

AI 模型由模型架构、模型参数(包括权重)和运行模型的推理代码组成。 AI 权重是一组学习参数,以根据给定输入生成输出。

对机器学习系统进行修改的范围也包括权重。「开源模型」和「开源权重」必须包括用于导出这些参数的数据信息和代码。

最后,OSI 表示,开源 AI 定义不需要特定的法律机制来确保模型参数可供所有人免费使用。它们可能本质上是免费的,或者可能需要许可证或其他法律文书来确保它们的可用。预计随着时间的推移,法规对于 AI 开放的定义也将变得更加清晰。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
...验室和产业组成的人工智能领袖联盟,是目前国际公认的权威AI性能评测基准。Training v3.0包含8种不同的负载,包括视觉(影像分类、生物医学影像分割、两种负载的物体侦测
2023-06-28 07:00:00
装备数字工程概念与实践思考
... Defense 2018 Digital Engineering Strategy[8]2 方法实践2.11个核心
2024-12-21 04:00:00
营养教学实训室如何突破设备落后、评价脱节困境?AI+3D模型重塑智慧课堂
...困境,构建闭环解决方案:1. 破解“设备与内容”困境:权威数据 + 虚实结合实训权威数据基石:严格对齐《中国食物成分表标准版(第6版)》《中国居民膳食营养素参考摄入量(202
2025-07-30 15:12:00
实力蝉联!中能拾贝再获IDC工业大模型权威认证,持续领跑能源电力智能化赛道
...模型技术代表获IDC报告重点推荐后,?第二次获得该机构权威认可?。此次入选不仅是对中能拾贝\"技术创新+场景落地\"双轮驱动能力的高度肯定,更标志着其工业大模型体系已通过国际
2025-07-11 22:07:00
主流文化语料库重磅上线,将为数字文化产业发展带来哪些意义?
...党端党网长期建设发展形成的新闻、理论、评论、政策等权威媒体资源,以及省内文化单位、高校多年来积累的优质私域文化资源,系统性注入主流价值观,确保语料时刻与国家脉搏同频、与社会价
2025-08-25 16:46:00
终结数据孤岛!百度智能云亮相TDBC大会:重塑数据与AI的连接方式
日前,中国通信标准化协会、中国信通院等权威机构联合主办的“TDBC 2025可信数据库发展大会”在京拉开帷幕。TDBC 2025活动现场会上
2025-07-19 21:47:00
权威专家团免费在线问诊,“未来医生”正式上线
2025年8月2日,医联集团正式推出 “未来医生”权威专家在线问诊免费医疗服务。让专家问诊,从“难约”到“免费”在“未来医生”,聚集了来自全国 A++++ 级别医院的专家团队,包
2025-08-04 13:02:00
“数据标注平台技术要求”标准发布 云测数据推动AI数据规范发展
...数据方面的领先实践。本次获得“核心参编单位”是国内权威组织对云测数据在人工智能数据领域技术能力的重要肯定。从优秀到卓越,未来,云测数据将持续发挥高质量+场景化的独特优势,深耕
2023-06-16 11:00:00
...电子工程师协会会士(IEEE Fellow)领衔。作为国际科学界的权威代表,特斯联CTO华先胜博士、首席科学家邵岭博士
2024-04-09 11:26:00
更多关于科技的资讯:
奇安信集团董事长齐向东:重塑内生安全体系 实现“十五五”时期安全能力新升维
大众网记者 李欣 菏泽报道9月15日—21日,2025年国家网络安全宣传周在全国范围举办。15日上午,2025网安周山东省活动启动仪式在菏泽市举行
2025-09-15 19:03:00
工业大模型需“冷思考” 中国智造呼唤“深扎根”
随着中国制造业加速“出海”,工业智能正成为企业应对全球化挑战的关键工具。在9月11日举办的“数智未来 根在工业”树根科技工业智能生态日活动现场
2025-09-15 17:38:00
全球最大超级电容调频电站在山西成功并网,我国新型储能技术应用取得世界级突破
近日,由深圳市今朝时代股份有限公司提供核心技术与整体解决方案的山西偏关百兆瓦级独立调频电站一期项目顺利并网。该项目是全球首个百兆瓦级大规模应用超级电容混合储能技术的调频电站
2025-09-15 13:46:00
鸿蒙开发者孙晨阳:撬动端侧 AI 开发新可能
在 HarmonyOS 生态快速发展的浪潮中,开发者孙晨阳凭借扎实的技术积累和敏锐的生态洞察力,连续三年在鸿蒙极客松大赛中斩获佳绩——从2023年的《赏金猎人》优秀奖
2025-09-15 13:59:00
齐鲁晚报·齐鲁壹点客户端 李孟霏近日,威海举办好客山东·美食争霸赛,作为本次大型文旅消费季赛事的重要通信支持单位,山东移动威海分公司(以下简称“威海移动”)全力护航本次赛事通信畅通
2025-09-15 12:22:00
泰岳小漫 eSIM 产品,全球连接赋能跨境出行
在eSIM技术普及的浪潮中,神州泰岳旗下泰岳小漫前瞻性布局海外eSIM市场,推出FiRoam eSIM服务跨境人群,为海外用户打造便捷
2025-09-15 09:45:00
华芢生物冲刺港股:PDGF 技术破局医保减负撬动千亿愈合市场
2025 年以来,恒指强势反弹,港股新股市场吸引了全球投资者的目光。华芢生物科技(青岛)股份有限公司正稳步推进港股上市进程——继 2024 年 12 月完成证监会备案后
2025-09-15 09:50:00
【奋进七十年 大厂再出发】大厂:科技创新驱动县域经济活力迸发
河北新闻网讯(刘英、黄蕾)“前不久,我们又获得了‘廊坊市工业设计中心’的荣誉。”9月5日,位于大厂高新区的河北时硕微芯科技有限公司展厅内
2025-09-15 10:15:00
海尔空调全面推进大暖通全流程平台建设
依托大暖通战略布局,海尔空调正以全屋空气解决方案突破行业同质化竞争困局。9月11日,在2025年海尔空气产业第14届营销俱乐部峰会上
2025-09-15 10:24:00
大众网记者 邢晨 梁鹏 烟台报道作为全市网络安全宣传教育的标杆,烟台联通数字化展厅依托先进技术手段与创新传播模式,打造了集“沉浸式体验
2025-09-15 09:19:00
9月4日15时,记者走进石家庄市高新区想象国际小区兔喜生活快递驿站,只见崭新的智能快递柜排列整齐,白色的柜体搭配清晰的触控显示屏
2025-09-15 08:03:00
“以前打包,一天弯腰上百次,考验手又考验腰,现在机器全搞定,咱只要盯着设备运转就行!”近日,在国内办公家具行业头部企业圣奥科技股份有限公司深州生产基地(以下简称“圣奥深州生产基地”)
2025-09-15 07:59:00
体验首家潮流店的独特,感受首个主题展览的魅力,领略首场大秀的震撼……越来越多的消费者逐渐被首店经济吸引。通过首店经济,创新消费场景涌现
2025-09-15 07:13:00
明势、BAI和蚂蚁,AI投资的乐观派、悲观派和中间派聚在一场圆桌上
文|周鑫雨编辑|苏建勋如今的AI投资人,也分“乐观派”和“悲观派”。2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战
2025-09-14 17:16:00
王兴兴、朱啸虎们说了些AI创业真心话
文|周鑫雨 富充编辑|苏建勋2025年9月11日开幕的Inclusion外滩大会,为当下的AI创业者、学者和投资人,攒了一个“真心话”局
2025-09-14 19:30:00