• 我的订阅
  • 科技

谷歌没开源的 PaLM,网友给开源了

类别:科技 发布时间:2023-05-13 17:42:00 来源:浅语科技

谷歌未开源的PaLM,网友竟给开源了。

昨天,一位开发者在GitHub上开源了三种微缩版的PaLM模型:参数分别为1.5亿(PalM-150m),4.1亿(PalM-410m)和10亿(PalM-1b)。

谷歌没开源的 PaLM,网友给开源了

项目地址:https://github.com/ conceptofmind/PaLM

这三种模型在谷歌C4数据集进行了训练,上下文长度为8k。未来,还有20亿参数的模型正在训练中。

谷歌没开源的 PaLM,网友给开源了

谷歌C4数据集开源PaLM

使用4.1亿参数模型生成的示例:

Mydogisverycute,butnotverygoodatsocializingwithotherdogs.Thedoglovesallnewpeopleandhelikestohangoutwithotherdogs.Idoneedtotakehimtotheparkwithotherdogs.Hedoeshavesomebadpuppybreath,butitisonlywhenherunsoffinadirectionhedoesn'twanttogo.currentlymydogisbeingverynaughty.Hewouldliketosayhiinthepark,butwouldrathertakegreatcareofhimselfforawhile.Healsohasbadbreath.Iamgoingtohavetogethimsomeoralbraces.It'sbeen3months.Thedoghassomebitingpainsaroundhismouth.Thedogisverytimidandscared.Thedoggetsaggressivetowardspeople.Thedogisveryplayfulandtheyarealittlespoiled.Iamnotsureifit'sadogthingorifheisspoiled.Heloveshistoysandjustwantstoplay.Heplayswithhistoysallthetimeandevengoesonwalks.Heisalittlepicky,notverygoodwithotherdogs.Thedogisjustalittlepuppythatgoestothepark.Heisasuperfriendlydog.Hehasnothadabadmouthorbadbreath

我的狗很可爱,但是不善于和其他狗交际。这只狗喜欢所有新来的人,他喜欢和其他的狗一起玩。我确实需要带他和其他狗一起去公园。他确实有点小狗的口臭,但只有当他往不想去的方向跑的时候。现在我的狗很淘气。他想在公园里打个招呼,但宁愿好好照顾自己一段时间。他还有口臭。我得给他买个口腔矫正器,已经过去三个月了。这条狗嘴边有些咬痕疼痛。这只狗非常胆小和害怕。这只狗对人有攻击性。这条狗非常顽皮,他们有点被宠坏了。我不确定是狗的问题还是他被宠坏了。他喜欢他的玩具,只是想玩。他总是玩他的玩具,甚至去散步。他有点挑剔,不太会和其他狗相处。那只狗只是一只去公园的小狗。它是一只超级友好的狗。他没有口臭问题了。

虽然参数确实有点少,但这生成的效果还是有些一言难尽……

这些模型兼容许多Lucidrain的流行仓库,例如Toolformer-pytorch、PalM-rlhf-pytorch和PalM-pytorch。

最新开源的三种模型都是基线模型,并将在更大规模数据集上进行训练。

所有的模型将在FLAN上进一步调整指令,以提供flan-PaLM模型。

谷歌没开源的 PaLM,网友给开源了

开源的PaLM模型通过FlashAttention、 XposRotaryEmbeddings进行训练,从而实现了更好的长度外推,并使用多查询单键值注意力机制进行更高效的解码。

在优化算法方面,采用的则是解耦权重衰减AdamW,但也可以选择使用MitchellWortsman的StableAdamW。

目前,模型已经上传到Torchhub,文件也存储在Huggingfacehub中。

如果模型无法从Torchhub正确下载,请务必清除 .cache/torch/hub/ 中的检查点和模型文件夹。如果问题仍未解决,那么你可以从Huggingface的仓库下载文件。目前,Huggingface的整合工作正在进行中。

所有的训练数据都已经用GPTNEOX标记器进行了预标记,并且序列长度被截止到8192。这将有助于节省预处理数据的大量成本。

这些数据集已经以parquet格式存储在Huggingface上,你可以在这里找到各个数据块:C4Chunk1,C4Chunk2,C4Chunk3,C4Chunk4,以及C4Chunk5。

在分布式训练脚本中还有另一个选项,不使用提供的预标记C4数据集,而是加载和处理另一个数据集,如openwebtext。安装

在尝试运行模型之前,需要先进行一波安装。git clone https://github.com/conceptofmind/PaLM.gitcd PaLM/pip3 install -r requirements.txt使用

你可以通过使用Torchhub加载预训练的模型进行额外的训练或微调:model = torch.hub.load("conceptofmind/PaLM", "palm_410m_8k_v0").cuda()

另外,你还可以通下面的方式直接加载PyTorch模型检查点:from palm_rlhf_pytorch import PaLMmodel = PaLM( num_tokens=50304, dim=1024, depth=24, dim_head=128, heads=8, flash_attn=True, qk_rmsnorm = False, ).cuda()model.load('/palm_410m_8k_v0.pt')

要使用模型生成文本,可以使用命令行:

prompt-用于生成文本的提示。

seq_len-生成文本的序列长度,默认值为256。

temperature-采样温度,默认为0.8

filter_thres-用于采样的过滤器阈值。默认值为0.9。

model-用于生成的模型。有三种不同的参数(150m,410m,1b):palm_150m_8k_v0,palm_410m_8k_v0,palm_1b_8k_v0。python3 inference.py "My dog is very cute" --seq_len 256 --temperature 0.8 --filter_thres 0.9 --model "palm_410m_8k_v0"

为了提高性能,推理使用torch.compile()、 FlashAttention和Hidet。

如果你想通过添加流处理或其他功能来扩展生成,作者提供了一个通用的推理脚本「inference.py」。训练

这几个「开源PalM」模型是在64个A100(80GB)GPU上完成训练的。

为了方便模型的训练,作者还提供了一个分布式训练脚本train_distributed.py。

你可以自由改变模型层和超参数配置以满足硬件的要求,并且还可以加载模型的权重并改变训练脚本来微调模型。

最后,作者表示会在将来加入一个具体的微调脚本,并对LoRA进行探索。

谷歌没开源的 PaLM,网友给开源了

数据

可以通过运行build_dataset.py脚本,以类似于训练期间使用的C4数据集的方式预处理不同的数据集。这将对数据进行预标记,将数据分成指定序列长度的块,并上传到Huggingfacehub。

比如:python3 build_dataset.py --seed 42 --seq_len 8192 --hf_account "your_hf_account" --tokenizer "EleutherAI/gpt-neox-20b" --dataset_name "EleutherAI/the_pile_deduplicated"PaLM2要来了

2022年4月,谷歌首次官宣了5400亿参数的PaLM。与其他LLM一样,PaLM能执行各种文本生成和编辑任务。

PaLM是谷歌首次大规模使用Pathways系统将训练扩展到6144块芯片,这是迄今为止用于训练的基于TPU的最大系统配置。

它的理解能力拔群,不仅连笑话都能看懂,还能给看不懂的你解释笑点在哪。

谷歌没开源的 PaLM,网友给开源了

就在3月中,谷歌首次开放其PaLM大型语言模型API。

谷歌没开源的 PaLM,网友给开源了

这意味着,人们可以用它来完成总结文本、编写代码等任务,甚至是将PaLM训练成一个像ChatGPT一样的对话聊天机器人。

在即将召开的谷歌年度I/O大会上,劈柴将公布公司在AI领域的最新发展。

据称,最新、最先进的大型语言模型PaLM2即将推出。

PaLM2包含100多种语言,并一直在内部代号「统一语言模型」(UnifiedLanguageModel)下运行。它还进行了广泛的编码和数学测试以及创意写作。

上个月,谷歌表示,其医学LLM「Med-PalM2」,可以回答医学考试的问题,在「专家医生水平」,准确率为85%。

此外,谷歌还将发布大模型加持下的聊天机器人Bard,以及搜索的生成式体验。

最新AI发布能否让谷歌挺直腰板,还得拭目以待。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-13 19:45:14

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...基于LLaMA 3.1 450B微调的新模型的,看来也是遥遥无期了。网友:你们这波操作,也算是推进了o1的发布理所当然的
2024-10-08 09:47:00
EMQ 如何用DeepSeek大模型重构可观测性数据分析?
...EMQ创新性的结合EMQX的可观测性数据与DeepSeek的LLM(大语言模型)服务,利用向量化知识库、自动化代码生成和自然语言处理等AI技术,帮助用户快速解决设备数据无法上
2025-02-27 14:45:00
腾讯汤道生:数字出海成为中国企业拥抱全球市场的重要方式
...布腾讯云MaaS服务升级,上架和支持Llama 2等多个主流开源模型,支持模型一键调用;推出“腾讯云智能文案创作”产品。通过打造高可用的行业大模型和智能化应用,助力企业全面拥
2023-08-17 16:44:00
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...以产生良好效果。 还晒出了成功案例消息公布后,一众网友跃跃欲试,表示很想知道模型微调后的实际效果。OpenAI官方早有准备
2024-08-22 09:52:00
腾讯大模型终于来了
百模大战的密集发布期已过,腾讯混元大模型才低调“现身”。8月3日,北京商报记者从腾讯方面获悉,腾讯混元大模型目前已经进入公司内应用测试阶段。BAT三巨头中,腾讯无疑是对大模型最谨
2023-08-03 22:31:00
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...款基于AI的自然语言处理工具。ChatGPT使用的人类反馈强化模型技术使用人类偏好作为奖励信号来微调模型,能够通过学习和理解人类的语言进行对话,像人类一样聊天交流,甚至能完成
2023-02-19 10:00:00
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...年后,AI 生成的「吃面条」已经如此自然流畅?这让全球网友都感受到了亿点点震撼。右侧的这些生成视频,都来自快手刚刚推出的文生视频大模型「可灵」(Kling)。不是预发布、不是
2024-06-14 09:10:00
大厂要面子,Kimi要里子
...,以至于官方不得不出面道歉。说到AIGC,必聊Kimi,成了网友们最近的日常。很多人发现,自己的朋友圈和微信群几乎都在推荐Kimi
2024-03-27 14:05:00
字节跳动加入AI视频大战
...宁 9月24日下午,字节跳动旗下火山引擎发布了两款AI视频模型,这意味着字节跳动正式加入了AI视频大战。AI视频是当下互联网大厂和创业公司集体发力的领域
2024-09-25 09:58:00
更多关于科技的资讯:
上海迪拜同发讯飞AI翻译耳机 “中国技术”连接全球
大皖新闻讯 一个是中国对外开放的前沿窗口,一个是中东地区商业中心和“一带一路”重要节点城市,10月14日下午,科大讯飞在上海世界会客厅举行“对话世界
2025-10-15 17:21:00
近日,一批仿冒新闻机构的自媒体账号被依法关闭,据报道,这些账号以“新闻”为名,行“带货”之实。但记者调查发现,此类“李鬼”账号仍在各大平台潜伏
2025-10-15 17:59:00
蛋糕里吃出“牙”,和解填不满食品安全的信任缺口
齐鲁晚报·齐鲁壹点评论员 刘雅菲10月14日,有上海网友发布视频称,自己在上海的山姆会员商店外高桥店购买的枣泥核桃蛋糕中
2025-10-15 16:00:00
三联家电&海信集团强强联手!10.25重磅惠民活动即将启幕
鲁网10月15日讯为抢占四季度消费市场高地,深化品牌战略合作布局,10月11日,山东三联家用电器有限公司与海信集团联合召开“三联家电10
2025-10-15 14:59:00
京东官宣发布新车,称像买手机一样方便,已注册多枚京东汽车商标
10月14日,京东微博账号发文称:2025京东11.11期间,京东联合广汽、宁德时代将正式推出一款神秘国民好车,官方将在10月底将陆续开启内测版
2025-10-15 10:46:00
固安:开足马力赶订单 满足京津冀市场需求
河北新闻网讯(万倩、陈放)10月13日,走进位于固安县固安镇的秋兹科技(固安)有限公司生产车间,自动化裁切设备高速运转
2025-10-15 09:56:00
参展企业334家,展位数再创新高达840个斩获银奖!“南京智造”闪耀广交会南报网讯(记者黄琳燕通讯员宁商轩)第138届广交会将于10月15日在广州开幕
2025-10-15 08:09:00
“云”上调度 雨中守护|雷沃数智化服务为抢收装上智慧大脑
秋收关键期遭遇连绵阴雨,让秋收秋种受阻。除了满足抢收抢烘抢播的智能农机,潍柴雷沃还创新数智化服务,通过智能调度与精准服务
2025-10-15 01:05:00
茶酒融合催生“微醺”新赛道,新茶饮品牌争饮“昼夜”经济
当白天的提神茶饮与夜晚的放松酒品打破边界,正催生出国内消费市场一股新的“微醺”风潮。近期,茶百道经典白酒奶茶回归即创下销量佳绩
2025-10-14 11:33:00
嘎子谢孟伟被执行超1400万,已被限高,此前因穿警服带货被行拘7日
近日,因穿警服直播带货被行政拘留、账号遭封禁的嘎子谢孟伟发视频称 “我回来了”,并向所有观众诚恳道歉。视频中,其透露公司员工已被安排回老家
2025-10-14 11:33:00
平谷将打造全国农业科创中心
原标题:世界农业科创大会开幕 农业中关村核心区2.0发布平谷将打造全国农业科创中心本报讯(记者 赵婷婷)昨天,2025世界农业科技创新大会(WAFI)在北京平谷开幕
2025-10-14 11:59:00
据大象新闻报道,近期蜜雪冰城的小票成了年轻人追捧的“追更凭证”,其上连载着名为《雪王在古代卖咖啡》的小说,20个章节随机印在消费小票上
2025-10-14 12:10:00
电通创意发布《2025首席营销官报告》:算法与人性的重构力量
AI时代,品牌的长期价值回归于人性与文化共鸣,人类的创造力、同理心与文化相关性愈加重要。•AI已成日常:几乎所有CMO都在使用AI
2025-10-14 13:29:00
近日,一则“美团外卖骑手能屏蔽顾客”的消息在网络上引发热议。据媒体报道,美团已在福建晋江、浙江绍兴等七个城市试点上线骑手评价用户和屏蔽用户功能
2025-10-14 13:40:00
这座产业园一年制造千万颗球胆、百万颗整球——沂南县“造球记”
齐鲁晚报·齐鲁壹点 记者 公绪成 李其峰 通讯员 陈婉塑炼、分切、热压......沂南县泽辉体育产业园内,工人们正紧忙制作新一批篮球内胆10月9日
2025-10-14 15:00:00