• 我的订阅
  • 科技

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

类别:科技 发布时间:2024-10-29 09:55:00 来源:机器之心Pro

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。

上个月,谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新,允许用户生成 YouTube 视频和音频文件的摘要,甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页,NotebookLM 的用例和覆盖范围进一步扩大。

本月初,AI 大牛 Karpathy 发推表示自己只用了两个小时就创建了一个 10 集的系列博客 —— 历史谜团(Histories of Mysteries),其中就使用 NotebookLM 将每个主题的维基百科条目链接在一起,并生成播客视频;同时也使用 NotebookLM 编写博客 / 剧集描述。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

就这两天,Meta 推出了 NotebookLM 的开源平替版 ——NotebookLlama,它使用 Llama 模型进行大部分任务处理,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 运行流程,首先从文件(比如新闻文章或博客文章)创建转录文本,然后添加「更多戏剧化」和中断,最后将转录文本馈入到开放的文本到语音模型。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

据外媒 Techcrunch 报道,NotebookLlama 的效果听起来不如谷歌 NotebookLM 好,带有明显的机器人口音,并且往往会在奇怪的时刻「互相交谈」。不过,项目背后的 Meta 研究人员表示,使用更强大的模型还可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面写到,「文本到语音模型限制了声音的自然程度。」此外,编写播客的另一种方法是让两个智能体就感兴趣的主题进行讨论并编写播客大纲。现在,Meta 只使用了一个模型来编写播客大纲。

就像下面所展示的,虽然播客内容还有一些粗糙,但它听起来已经很不错了。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650940665&idx=2&sn=0f793076e42f80ab04b00500b7aaa5bf&chksm=84e7e087b3906991691ae2f33598b956d370fdf9557643db260424d9a813d6b77769a13c4219&token=1623910484&lang=zh_CN#rd

对于 Meta 的 NotebookLlama,有人直言听起来糟糕透了,要想真正地对标谷歌的 NotebookLM,就要在语音转换效果上接近人类水平。不过也有人认为,虽然目前效果不佳,但随着所有代码的开源,用户可以自定义尝试不同的提示方法等,相信未来会变得更好。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

虽然效果还是差点意思,但也有网友表示:「现在是时候让 Google 加快步伐了,Meta 已经紧随其后赶上来了,开源 NotebookLM。」

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目介绍

根据 Meta 发布的教程配方,你可以基于 PDF 文件构建播客。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步:对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文件; 第二步:转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本; 第三步:对内容重新优化,添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意; 第四步:文本到语音。使用 parer -tts/parer -tts-mini-v1(文本到语音模型)和 bark/suno 生成会话播客。

不过,还有几个值得大家注意的点:

首先,在步骤 1 中,需要提示 1B 模型不要修改文本或对文本进行总结,并严格清理掉可能在 PDF 转录过程中出现的多余字符或垃圾字符。

其次,对于步骤 2,你也可以使用 Llama-3.1-8B-Instruct 模型,然后对比不同模型的效果。项目中采用的是 70B 模型,原因在于它为测试示例提供了更具创意的播客记录。

对于步骤 4,你也可以使用其他模型进行扩展,较新的模型可能听起来更好。

想要顺畅的运行该项目,你需要有 GPU 服务器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型,那么需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 精度进行推理。

退一步讲,如果你的 GPU 并不是很好,也可以使用 8B 模型跑通整个 pipeline。

接下来是安装。在开始之前,请确保使用 huggingface cli 登录,然后启动 jupyter notebook ,以确保能够下载 Llama 模型。

接着运行代码:

git clone https://github.com/meta-llama/llama-recipes

cd llama-recipes/recipes/quickstart/NotebookLlama/

pip install -r requirements.txt

Notebook 1:Notebook 1 用于处理 PDF,并使用新的 Feather light 模型将其处理为.txt 文件。

Notebook 2:Notebook 2 将接收 Notebook 1 处理后的输出,并使用 Llama-3.1-70B-Instruct 模型创造性地将其转换为播客脚本。如果你拥有丰富的 GPU 资源,也可以使用 405B 模型进行测试!

Notebook 3:Notebook 3 采用了之前的文本,并提示 Llama-3.1-8B-Instruct 在对话中添加更多的戏剧化和中断。

Notebook 4:最后,Notebook 4 从上一个 notebook 中获取结果并将其转换为播客。项目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题:Parler 需要 4.43.3 或更早版本的 transformer,但对于 pipeline 中的步骤 1 到 3,需要最新的版本,所以需要在最后一个 notebook 中切换版本。

最后,项目列出了未来需要改进的地方:

语音模型:TTS 模型使语音听起来不是很自然,未来可以纳入更好的模型; 更好的提示; 支持提取网站、音频文件、YouTube 链接等。

参考链接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-29 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...试”中成绩十分亮眼,用更少的算力,实现了业界一流的效果,多项指标国内第一。“大模型发展,应用才是硬道理”是科大讯飞一直秉持的观点。 目前,讯飞星火X1率先在教育等真实场景中
2025-01-15 15:07:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...为语音生成的音频解码器。评估为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标
2024-07-25 09:34:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta
2023-01-30 16:34:00
openai语音翻译又出新功能了!
...,但在处理其他语言,特别是使用非罗马文字的语言时,效果寥寥。因此OpenAI建议:非英语用户不要使用ChatGPT进行类似科研等专业要求较高的任务
2023-09-26 14:59:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。总结来说,本文主要贡献为:提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 A
2024-09-07 09:44:00
VEGAS Pro 19中文版下载_VEGAS Pro(视频编辑)直装版-vegas pro 19中文破解版
...过颜色分级面板使用。11、AutoLook插件的其他预设:AutoLook效果的额外20个预设。12、基于AI的Upscale和Zoom插件
2023-01-25 11:00:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...,并且在早期到中间层中,在用单词级转录训练的模型中效果较差,表明模态混合可以对齐语音和文本,使模型能够将语音序列与相应的文本序列映射起来。表达性建模当不给智能体任何先前的样本
2024-11-23 09:43:00
全面透视豆包:功能、版本、价格、优势、应用
...些常见版本及其特点:豆包通用模型 pro:是主力模型,效果较好,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有不错的效果。它支持较大的上下文窗口(
2024-07-24 14:44:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...和蒸馏,从而推出业界性能最优的130亿参数的大模型,在效果损失仅3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显
2024-04-26 11:44:00
更多关于科技的资讯:
“三天我只睡了七八个小时,其他时间都在和‘龙虾’聊天。”这是孙艾艾见到记者后说的第一句话,作为大厂后台工程师,她从“龙虾”爆火之初就沉迷于这项技术
2026-03-14 06:51:00
想一站式淘遍全球尖货、体验未来科技、邂逅国潮新品?机会来了!以“共享大市场·出口中国”为主题的“浙里买全球·消费启杭”活动
2026-03-14 06:52:00
上班的地铁上,放眼望去,尽是抱着手机刷屏的年轻人;回到家,孩子或许正在iPad上看着动画片……我们正在进入AI数字化时代
2026-03-14 07:22:00
想体验一把“小龙虾”,结果光安装就花了四五个小时。今年1月底,当一个红色龙虾图标的AI智能体OpenClaw在硅谷极客圈开始发酵时
2026-03-14 07:22:00
三联家电章丘世茂店盛大开业:抢抓“春日经济”,助力市民“焕新家”
鲁网3月13日讯春风送暖,万象更新。在这生机盎然的春日里,三联家电章丘世茂店于3月13日盛大开业。正值“春日经济”消费热潮
2026-03-13 17:40:00
一场对话 “对”出了什么?
鲁网3月13日讯“我们依托 AI 工具实现了内容快速生产,但算力成本高、高端人才缺,政策层面有什么支持?”“有支持的,我们推出了‘算力券’政策
2026-03-13 18:14:00
新华保险河北分公司以高品质服务守护千家万户
近年来,新华保险河北分公司持续推动服务升级,以高品质服务守护千家万户。在今年3·15国际消费者权益日到来之际,新华保险河北分公司党委书记
2026-03-13 20:25:00
中新经纬3月13日电 据国家金融监管总局13日消息,近日,针对互联网助贷业务问题,金融监管总局对分期乐、奇富借条、你我贷借款
2026-03-13 21:29:00
马嘉良 河北公安警察职业学院摘要:自动驾驶技术的演进对传统静态交通管理体系提出了适应性变革要求,为保障混合交通流的安全与效率
2026-03-13 21:36:00
邹宇摘要:随着电子商务平台和移动互联网的发展,消费者在网络环境中的行为逐渐被记录并形成大规模数据资源,为利用统计方法研究消费者购买行为提供了新的数据集
2026-03-13 21:36:00
行业唯一控轴专利!海尔发布中科桌面大路灯Z5 Max,定义护眼新标杆
当前,消费者愈发重视用眼健康,尤其是青少年用眼问题,带动了护眼灯消费。京东去年1-8月数据显示,“护眼灯”类目搜索同比增长42%
2026-03-13 21:49:00
第4届国际文创新品及潮玩(上海)展览会开幕 AI玩具成新风口
3月12日,第4届国际文创新品及潮玩(上海)展览会、第13届上海国际IP授权产业博览会在上海新国际博览中心开幕。本届展会为期3天
2026-03-13 22:19:00
2026年英语口语练习APP推荐!星空外语帮你攻克雅思口语,畅享英语自由!
在雅思考试里,口语是许多考生感到头疼的科目。要在口语部分取得高分并非易事,它要求考生具备扎实的语言基础、流利的表达能力和灵活的应变思维
2026-03-13 21:52:00
海尔AI智能锁Q600Pro斩获AWE艾普兰“创新奖”
3月12日,2026年中国家电及消费电子博览会(AWE2026)在上海启幕,全球最夯的智能家电与智慧生活解决方案悉数亮相
2026-03-13 21:48:00
中国网3月13日讯电 据市场监管总局网站消息,近日,市场监管总局印发《关于强化广告中提示性用语监管工作的通知》(以下简称《通知》)
2026-03-13 19:05:00