海外new things |「Flower lands」pre-seed轮融资360万美元，利用联邦学习方法训练大语言模型

类别：科技发布时间：2023-08-09 19:05:00 来源：36氪

据外媒Techruch报道，初创人工智能公司「Flower lands」近期宣布完成360万美元的pre-seed轮融资，由深度科技风险投资公司First Spark Ventures、Factorial Capital、Betaworks和Pioneer Fund等投资。该轮融资将用于扩大Flower的研发核心团队、加速开源软件的开发，为Flower的框架和生态系统提供动力。公司旨在解决AI模型训练工程中对公共数据(主要是网络数据)的依赖，并在近期推出训练大语言模型(LLM)的联邦学习方法——FedGPT。

Flower lands的创始人——剑桥大学(University of Cambridge)的科技企业家兼科研工作者丹尼尔·贝特尔(Daniel Beutel)提出观点：人工智能模型训练过程对公共数据(主要是网络数据)的依赖阻碍了人工智能领域的发展。他在电子邮件采访中告诉TechCrunch说：“公共的、集中的数据只是世界上所有数据的一小部分。相比之下，分布式数据存储在手机、可穿戴设备和物联网设备上的分布式数据和存储在企业内部业务部门等组织孤岛上的数据要大得多，也要全面得多，但今天的人工智能还无法触及。”

由此，Beutel于2020年与剑桥同事Taner Topal、三星剑桥人工智能中心前负责人Nicholas Lane共同创建了Flower，旨在通过一个平台进行“去中心化”的人工智能训练过程。该平台允许开发人员根据分布在不同地点、不同设备中的数据训练模型；同时，依靠联邦学习（Federated Learning）技术，Flower不提供对数据的直接访问，能够满足用户隐私保护、数据安全、数据保密和政府法规的要求。

联邦学习技术在2016年首次被学术界提出，其旨在解决联合存在于多个终端（例如移动手机）中的数据进行中心化模型训练的问题，即利用分布式数据训练AI模型。如今，DynamoFL、DataFleets和Sherpa等初创公司和谷歌等大型科技公司正在采用某种形式的联邦学习训练人工智能模型。

Flower认为，基于分布式数据的基本优势，一旦分布式数据变得可访问和易访问，这种人工智能方法不仅将成为主流，而且将成为人工智能训练的规范。Beutel说:“有了Flower，在模型训练期间，数据不需要离开源设备或位置(例如，公司设施)。相反，训练过程将在数据所在的每个位置进行部分训练，最终只有每部分的训练结果（而非数据）被传输与合并。”

Flower最近还推出了训练大语言模型(LLM)的联邦学习方法——FedGPT，可与OpenAI的ChatGPT和GPT-4相媲美。FedGPT目前还处于预览阶段，允许公司针对分布在世界各地不同设备（包括数据中心和工作站）上的数据对大语言模型进行训练。

对于FedGPT，Beutel说:“FedGPT很重要，因为它允许组织使用内部敏感数据构建大语言模型，而无需与大语言模型提供商共享数据。公司的数据也经常分布在世界各地或组织的不同部分，且无法进行转移，但是FedGPT允许在训练大语言模型时利用这些数据，同时仍然保证用户隐私保护、数据安全，并遵守相应法律法规。”

Flower还与开源网络浏览器Brave合作，推出了一个名为Dandelion的项目。Beutel说，该项目旨在建立一个开源的联邦学习系统，覆盖目前5000多万Brave浏览器客户端。

对此，Beutel说:“人工智能正在进入一个监管越来越严格、十分关注数据来源的时代。客户可以在保证数据安全的情况下使用Flower构建人工智能系统，如此能够利用比以往更多的数据. . . .在Flower上，利用联邦学习原则，人工智能系统可以在不同的约束条件下成功部署和训练。”

据Beutel称，Flower在过去几个月的发展令人印象深刻，其开发者社区增长到2300多人。他声称，许多财富500强企业和学术机构都是Flower的用户，包括保时捷、博世、三星、银行圈、诺基亚、斯坦福、牛津、麻省理工学院和哈佛大学等。

针对开头提到的人工智能对公共数据的依赖，Beutel说:“人工智能正面临的危机会周而复始，对于联邦学习来说，这种危机甚至更为严重。由于缺乏对分布式数据的广泛训练，我们缺乏能够普适、主流的开源软件训练方法来面对危机。通过公司每个人的共同努力，我们的目标是在Flower上为公众提供世界上最大的开源联邦技术集。”