• 我的订阅
  • 科技

谷歌没开源的 PaLM,网友给开源了

类别:科技 发布时间:2023-05-13 17:42:00 来源:浅语科技

谷歌未开源的PaLM,网友竟给开源了。

昨天,一位开发者在GitHub上开源了三种微缩版的PaLM模型:参数分别为1.5亿(PalM-150m),4.1亿(PalM-410m)和10亿(PalM-1b)。

谷歌没开源的 PaLM,网友给开源了

项目地址:https://github.com/ conceptofmind/PaLM

这三种模型在谷歌C4数据集进行了训练,上下文长度为8k。未来,还有20亿参数的模型正在训练中。

谷歌没开源的 PaLM,网友给开源了

谷歌C4数据集开源PaLM

使用4.1亿参数模型生成的示例:

Mydogisverycute,butnotverygoodatsocializingwithotherdogs.Thedoglovesallnewpeopleandhelikestohangoutwithotherdogs.Idoneedtotakehimtotheparkwithotherdogs.Hedoeshavesomebadpuppybreath,butitisonlywhenherunsoffinadirectionhedoesn'twanttogo.currentlymydogisbeingverynaughty.Hewouldliketosayhiinthepark,butwouldrathertakegreatcareofhimselfforawhile.Healsohasbadbreath.Iamgoingtohavetogethimsomeoralbraces.It'sbeen3months.Thedoghassomebitingpainsaroundhismouth.Thedogisverytimidandscared.Thedoggetsaggressivetowardspeople.Thedogisveryplayfulandtheyarealittlespoiled.Iamnotsureifit'sadogthingorifheisspoiled.Heloveshistoysandjustwantstoplay.Heplayswithhistoysallthetimeandevengoesonwalks.Heisalittlepicky,notverygoodwithotherdogs.Thedogisjustalittlepuppythatgoestothepark.Heisasuperfriendlydog.Hehasnothadabadmouthorbadbreath

我的狗很可爱,但是不善于和其他狗交际。这只狗喜欢所有新来的人,他喜欢和其他的狗一起玩。我确实需要带他和其他狗一起去公园。他确实有点小狗的口臭,但只有当他往不想去的方向跑的时候。现在我的狗很淘气。他想在公园里打个招呼,但宁愿好好照顾自己一段时间。他还有口臭。我得给他买个口腔矫正器,已经过去三个月了。这条狗嘴边有些咬痕疼痛。这只狗非常胆小和害怕。这只狗对人有攻击性。这条狗非常顽皮,他们有点被宠坏了。我不确定是狗的问题还是他被宠坏了。他喜欢他的玩具,只是想玩。他总是玩他的玩具,甚至去散步。他有点挑剔,不太会和其他狗相处。那只狗只是一只去公园的小狗。它是一只超级友好的狗。他没有口臭问题了。

虽然参数确实有点少,但这生成的效果还是有些一言难尽……

这些模型兼容许多Lucidrain的流行仓库,例如Toolformer-pytorch、PalM-rlhf-pytorch和PalM-pytorch。

最新开源的三种模型都是基线模型,并将在更大规模数据集上进行训练。

所有的模型将在FLAN上进一步调整指令,以提供flan-PaLM模型。

谷歌没开源的 PaLM,网友给开源了

开源的PaLM模型通过FlashAttention、 XposRotaryEmbeddings进行训练,从而实现了更好的长度外推,并使用多查询单键值注意力机制进行更高效的解码。

在优化算法方面,采用的则是解耦权重衰减AdamW,但也可以选择使用MitchellWortsman的StableAdamW。

目前,模型已经上传到Torchhub,文件也存储在Huggingfacehub中。

如果模型无法从Torchhub正确下载,请务必清除 .cache/torch/hub/ 中的检查点和模型文件夹。如果问题仍未解决,那么你可以从Huggingface的仓库下载文件。目前,Huggingface的整合工作正在进行中。

所有的训练数据都已经用GPTNEOX标记器进行了预标记,并且序列长度被截止到8192。这将有助于节省预处理数据的大量成本。

这些数据集已经以parquet格式存储在Huggingface上,你可以在这里找到各个数据块:C4Chunk1,C4Chunk2,C4Chunk3,C4Chunk4,以及C4Chunk5。

在分布式训练脚本中还有另一个选项,不使用提供的预标记C4数据集,而是加载和处理另一个数据集,如openwebtext。安装

在尝试运行模型之前,需要先进行一波安装。git clone https://github.com/conceptofmind/PaLM.gitcd PaLM/pip3 install -r requirements.txt使用

你可以通过使用Torchhub加载预训练的模型进行额外的训练或微调:model = torch.hub.load("conceptofmind/PaLM", "palm_410m_8k_v0").cuda()

另外,你还可以通下面的方式直接加载PyTorch模型检查点:from palm_rlhf_pytorch import PaLMmodel = PaLM( num_tokens=50304, dim=1024, depth=24, dim_head=128, heads=8, flash_attn=True, qk_rmsnorm = False, ).cuda()model.load('/palm_410m_8k_v0.pt')

要使用模型生成文本,可以使用命令行:

prompt-用于生成文本的提示。

seq_len-生成文本的序列长度,默认值为256。

temperature-采样温度,默认为0.8

filter_thres-用于采样的过滤器阈值。默认值为0.9。

model-用于生成的模型。有三种不同的参数(150m,410m,1b):palm_150m_8k_v0,palm_410m_8k_v0,palm_1b_8k_v0。python3 inference.py "My dog is very cute" --seq_len 256 --temperature 0.8 --filter_thres 0.9 --model "palm_410m_8k_v0"

为了提高性能,推理使用torch.compile()、 FlashAttention和Hidet。

如果你想通过添加流处理或其他功能来扩展生成,作者提供了一个通用的推理脚本「inference.py」。训练

这几个「开源PalM」模型是在64个A100(80GB)GPU上完成训练的。

为了方便模型的训练,作者还提供了一个分布式训练脚本train_distributed.py。

你可以自由改变模型层和超参数配置以满足硬件的要求,并且还可以加载模型的权重并改变训练脚本来微调模型。

最后,作者表示会在将来加入一个具体的微调脚本,并对LoRA进行探索。

谷歌没开源的 PaLM,网友给开源了

数据

可以通过运行build_dataset.py脚本,以类似于训练期间使用的C4数据集的方式预处理不同的数据集。这将对数据进行预标记,将数据分成指定序列长度的块,并上传到Huggingfacehub。

比如:python3 build_dataset.py --seed 42 --seq_len 8192 --hf_account "your_hf_account" --tokenizer "EleutherAI/gpt-neox-20b" --dataset_name "EleutherAI/the_pile_deduplicated"PaLM2要来了

2022年4月,谷歌首次官宣了5400亿参数的PaLM。与其他LLM一样,PaLM能执行各种文本生成和编辑任务。

PaLM是谷歌首次大规模使用Pathways系统将训练扩展到6144块芯片,这是迄今为止用于训练的基于TPU的最大系统配置。

它的理解能力拔群,不仅连笑话都能看懂,还能给看不懂的你解释笑点在哪。

谷歌没开源的 PaLM,网友给开源了

就在3月中,谷歌首次开放其PaLM大型语言模型API。

谷歌没开源的 PaLM,网友给开源了

这意味着,人们可以用它来完成总结文本、编写代码等任务,甚至是将PaLM训练成一个像ChatGPT一样的对话聊天机器人。

在即将召开的谷歌年度I/O大会上,劈柴将公布公司在AI领域的最新发展。

据称,最新、最先进的大型语言模型PaLM2即将推出。

PaLM2包含100多种语言,并一直在内部代号「统一语言模型」(UnifiedLanguageModel)下运行。它还进行了广泛的编码和数学测试以及创意写作。

上个月,谷歌表示,其医学LLM「Med-PalM2」,可以回答医学考试的问题,在「专家医生水平」,准确率为85%。

此外,谷歌还将发布大模型加持下的聊天机器人Bard,以及搜索的生成式体验。

最新AI发布能否让谷歌挺直腰板,还得拭目以待。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-13 19:45:14

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...基于LLaMA 3.1 450B微调的新模型的,看来也是遥遥无期了。网友:你们这波操作,也算是推进了o1的发布理所当然的
2024-10-08 09:47:00
EMQ 如何用DeepSeek大模型重构可观测性数据分析?
...EMQ创新性的结合EMQX的可观测性数据与DeepSeek的LLM(大语言模型)服务,利用向量化知识库、自动化代码生成和自然语言处理等AI技术,帮助用户快速解决设备数据无法上
2025-02-27 14:45:00
腾讯汤道生:数字出海成为中国企业拥抱全球市场的重要方式
...布腾讯云MaaS服务升级,上架和支持Llama 2等多个主流开源模型,支持模型一键调用;推出“腾讯云智能文案创作”产品。通过打造高可用的行业大模型和智能化应用,助力企业全面拥
2023-08-17 16:44:00
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...以产生良好效果。 还晒出了成功案例消息公布后,一众网友跃跃欲试,表示很想知道模型微调后的实际效果。OpenAI官方早有准备
2024-08-22 09:52:00
腾讯大模型终于来了
百模大战的密集发布期已过,腾讯混元大模型才低调“现身”。8月3日,北京商报记者从腾讯方面获悉,腾讯混元大模型目前已经进入公司内应用测试阶段。BAT三巨头中,腾讯无疑是对大模型最谨
2023-08-03 22:31:00
ChatGPT中短期产业化方向主要为:文字模态的AIGC应用、代码开发相关、图像生成领域、智能客服
...款基于AI的自然语言处理工具。ChatGPT使用的人类反馈强化模型技术使用人类偏好作为奖励信号来微调模型,能够通过学习和理解人类的语言进行对话,像人类一样聊天交流,甚至能完成
2023-02-19 10:00:00
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
...年后,AI 生成的「吃面条」已经如此自然流畅?这让全球网友都感受到了亿点点震撼。右侧的这些生成视频,都来自快手刚刚推出的文生视频大模型「可灵」(Kling)。不是预发布、不是
2024-06-14 09:10:00
大厂要面子,Kimi要里子
...,以至于官方不得不出面道歉。说到AIGC,必聊Kimi,成了网友们最近的日常。很多人发现,自己的朋友圈和微信群几乎都在推荐Kimi
2024-03-27 14:05:00
字节跳动加入AI视频大战
...宁 9月24日下午,字节跳动旗下火山引擎发布了两款AI视频模型,这意味着字节跳动正式加入了AI视频大战。AI视频是当下互联网大厂和创业公司集体发力的领域
2024-09-25 09:58:00
更多关于科技的资讯:
河北新闻网讯(王闯、徐贵旺)近日,在开滦集团唐山矿业公司(简称“开滦山矿公司”)大井绞车提升作业现场,一项不起眼的小改造引发了员工们的热议
2026-02-24 20:46:00
河北新闻网讯(任蕊)近日,在开滦股份吕家坨矿综采一队的会议室里,采掘电钳工李彭超正通过手机反复观看一段微视频。视频中,“技术大拿”叶春海正在讲解如何查验智能化设备的数据包丢失率
2026-02-24 20:51:00
春节假期高速充电需求迎高峰 安徽交控“小程序+移动电站”护航绿色出行
大皖新闻讯 马年春节假期落幕,在春运返乡返程的车流高峰中,新能源汽车的“补能”问题成为社会关注焦点。记者从安徽交控资源公司所属交控能源公司获悉
2026-02-24 21:28:00
2月24日,粉笔(02469.HK)发布业绩预告,截至2025年12月31日,公司预计录得不少于人民币26.56亿元营收
2026-02-24 21:46:00
江南时报讯 春节期间,常州市紧扣“促消费、保供应、守安全”三条主线,提前谋划、高效落实,全力保障节日市场繁荣有序、平稳运行
2026-02-24 22:47:00
大皖新闻讯 2月24日下午,马年春节后首个工作日,合肥市科技创新引领新质生产力发展大会召开。会上,合肥市创新创业综合服务平台“创享合肥”正式发布
2026-02-24 22:03:00
出海的隐性分水岭:中小企业开始直面“品牌能力”的考验
过去几年,中国中小企业的出海进程明显提速。从新能源、智能制造到各类工业技术与解决方案型企业,越来越多公司完成了将产品推向海外市场的第一步
2026-02-24 17:15:00
服务人次958万,云迹科技机器人服务智能体全力保障春节
2026年春节期间,人工智能与具身智能技术深度融入大众节日生活,展现出从“可选项”向“必需品”转变的显著趋势。在酒店、景区
2026-02-24 17:18:00
海辰储能山东一体化零碳产业园将于二季度试生产— 一场瞄准AI时代的能源“卡位战”
鲁网2月24日讯除夕夜,黄宣田在菏泽学会了包饺子。作为厦门海辰储能科技股份有限公司(以下简称“海辰储能”)菏泽制造基地负责人
2026-02-24 17:28:00
25000㎡、300+品牌、20000+买家:亚洲户外烧烤展5月定档广州,打造全球户外生活商贸枢纽
随着露营经济等消费趋势兴起,消费者对高品质、体验式户外生活的需求日益增长,全球掀起一股烧烤热潮。从家庭聚会到户外派对,烧烤不再只是厨房的延伸
2026-02-24 17:51:00
庙会上的科技范儿
科技庙会上机器人在给市民免费送年货。机器人“店小二”在售卖饮品。机器人在和小朋友“智对诗章”。机器人舞狮表演吸引众多游客围观
2026-02-24 14:56:00
新春之际,年货市场掀起新潮流。AI眼镜、陪伴机器人、无弦吉他成为抢手货,3D打印机现做生肖模型、智能书法台挥毫送福成新景
2026-02-24 14:56:00
大麦娱乐灯塔研究院春节档洞察:总票房57.52亿,三四线城市票房近53%
2月24日,大麦娱乐旗下灯塔研究院发布《2026年春节档电影市场洞察报告》。报告显示,2026年春节档总票房达57.52亿
2026-02-24 14:58:00
理解“长途优先”背后的平衡智慧
这两天,“长途有票、短途无票”的话题在网络上引发了不少讨论。不少旅客感到困惑:明明同一趟车,为什么长途票能买到短途票却显示“无票”
2026-02-24 15:11:00
中国消费者报讯(记者万晓东)近日,谦寻控股在《直播电商监督管理办法》(以下简称《办法》)出台后积极组织全员开展专题学习
2026-02-24 15:26:00