• 我的订阅
  • 科技

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

类别:科技 发布时间:2024-10-29 09:55:00 来源:机器之心Pro

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。

上个月,谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新,允许用户生成 YouTube 视频和音频文件的摘要,甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页,NotebookLM 的用例和覆盖范围进一步扩大。

本月初,AI 大牛 Karpathy 发推表示自己只用了两个小时就创建了一个 10 集的系列博客 —— 历史谜团(Histories of Mysteries),其中就使用 NotebookLM 将每个主题的维基百科条目链接在一起,并生成播客视频;同时也使用 NotebookLM 编写博客 / 剧集描述。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

就这两天,Meta 推出了 NotebookLM 的开源平替版 ——NotebookLlama,它使用 Llama 模型进行大部分任务处理,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 运行流程,首先从文件(比如新闻文章或博客文章)创建转录文本,然后添加「更多戏剧化」和中断,最后将转录文本馈入到开放的文本到语音模型。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

据外媒 Techcrunch 报道,NotebookLlama 的效果听起来不如谷歌 NotebookLM 好,带有明显的机器人口音,并且往往会在奇怪的时刻「互相交谈」。不过,项目背后的 Meta 研究人员表示,使用更强大的模型还可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面写到,「文本到语音模型限制了声音的自然程度。」此外,编写播客的另一种方法是让两个智能体就感兴趣的主题进行讨论并编写播客大纲。现在,Meta 只使用了一个模型来编写播客大纲。

就像下面所展示的,虽然播客内容还有一些粗糙,但它听起来已经很不错了。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650940665&idx=2&sn=0f793076e42f80ab04b00500b7aaa5bf&chksm=84e7e087b3906991691ae2f33598b956d370fdf9557643db260424d9a813d6b77769a13c4219&token=1623910484&lang=zh_CN#rd

对于 Meta 的 NotebookLlama,有人直言听起来糟糕透了,要想真正地对标谷歌的 NotebookLM,就要在语音转换效果上接近人类水平。不过也有人认为,虽然目前效果不佳,但随着所有代码的开源,用户可以自定义尝试不同的提示方法等,相信未来会变得更好。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

虽然效果还是差点意思,但也有网友表示:「现在是时候让 Google 加快步伐了,Meta 已经紧随其后赶上来了,开源 NotebookLM。」

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目介绍

根据 Meta 发布的教程配方,你可以基于 PDF 文件构建播客。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步:对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文件; 第二步:转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本; 第三步:对内容重新优化,添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意; 第四步:文本到语音。使用 parer -tts/parer -tts-mini-v1(文本到语音模型)和 bark/suno 生成会话播客。

不过,还有几个值得大家注意的点:

首先,在步骤 1 中,需要提示 1B 模型不要修改文本或对文本进行总结,并严格清理掉可能在 PDF 转录过程中出现的多余字符或垃圾字符。

其次,对于步骤 2,你也可以使用 Llama-3.1-8B-Instruct 模型,然后对比不同模型的效果。项目中采用的是 70B 模型,原因在于它为测试示例提供了更具创意的播客记录。

对于步骤 4,你也可以使用其他模型进行扩展,较新的模型可能听起来更好。

想要顺畅的运行该项目,你需要有 GPU 服务器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型,那么需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 精度进行推理。

退一步讲,如果你的 GPU 并不是很好,也可以使用 8B 模型跑通整个 pipeline。

接下来是安装。在开始之前,请确保使用 huggingface cli 登录,然后启动 jupyter notebook ,以确保能够下载 Llama 模型。

接着运行代码:

git clone https://github.com/meta-llama/llama-recipes

cd llama-recipes/recipes/quickstart/NotebookLlama/

pip install -r requirements.txt

Notebook 1:Notebook 1 用于处理 PDF,并使用新的 Feather light 模型将其处理为.txt 文件。

Notebook 2:Notebook 2 将接收 Notebook 1 处理后的输出,并使用 Llama-3.1-70B-Instruct 模型创造性地将其转换为播客脚本。如果你拥有丰富的 GPU 资源,也可以使用 405B 模型进行测试!

Notebook 3:Notebook 3 采用了之前的文本,并提示 Llama-3.1-8B-Instruct 在对话中添加更多的戏剧化和中断。

Notebook 4:最后,Notebook 4 从上一个 notebook 中获取结果并将其转换为播客。项目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题:Parler 需要 4.43.3 或更早版本的 transformer,但对于 pipeline 中的步骤 1 到 3,需要最新的版本,所以需要在最后一个 notebook 中切换版本。

最后,项目列出了未来需要改进的地方:

语音模型:TTS 模型使语音听起来不是很自然,未来可以纳入更好的模型; 更好的提示; 支持提取网站、音频文件、YouTube 链接等。

参考链接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-29 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...试”中成绩十分亮眼,用更少的算力,实现了业界一流的效果,多项指标国内第一。“大模型发展,应用才是硬道理”是科大讯飞一直秉持的观点。 目前,讯飞星火X1率先在教育等真实场景中
2025-01-15 15:07:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...为语音生成的音频解码器。评估为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标
2024-07-25 09:34:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta
2023-01-30 16:34:00
openai语音翻译又出新功能了!
...,但在处理其他语言,特别是使用非罗马文字的语言时,效果寥寥。因此OpenAI建议:非英语用户不要使用ChatGPT进行类似科研等专业要求较高的任务
2023-09-26 14:59:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。总结来说,本文主要贡献为:提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 A
2024-09-07 09:44:00
VEGAS Pro 19中文版下载_VEGAS Pro(视频编辑)直装版-vegas pro 19中文破解版
...过颜色分级面板使用。11、AutoLook插件的其他预设:AutoLook效果的额外20个预设。12、基于AI的Upscale和Zoom插件
2023-01-25 11:00:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...,并且在早期到中间层中,在用单词级转录训练的模型中效果较差,表明模态混合可以对齐语音和文本,使模型能够将语音序列与相应的文本序列映射起来。表达性建模当不给智能体任何先前的样本
2024-11-23 09:43:00
全面透视豆包:功能、版本、价格、优势、应用
...些常见版本及其特点:豆包通用模型 pro:是主力模型,效果较好,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有不错的效果。它支持较大的上下文窗口(
2024-07-24 14:44:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...和蒸馏,从而推出业界性能最优的130亿参数的大模型,在效果损失仅3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显
2024-04-26 11:44:00
更多关于科技的资讯:
潮声丨从“Made in”到“Design by”,浙江品牌出海记
新春,义乌老板们已经忙碌起来。这几天,24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展,带着新品抢订单、拓市场
2026-02-19 16:24:00
新春走基层|“解码”潮玩盲盒:Z世代用情绪消费点亮团圆年
中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时,特意去了环球影城附近的泡泡玛特,店内挤满了年轻人
2026-02-19 12:05:00
大年初一,匆匆赶到湖州的生产基地,给春节坚持留守在生产一线的一百多名员工发完新春红包后,金羽新能董事长兼总经理黄杜斌又拿起了手机
2026-02-19 08:20:00
以下为报道原文:从“猜你喜欢”到“懂你需要” 人工智能加速“嵌入”日常生活人民日报 记者 谷业凯“帮我订春节假期南京到三亚的往返机票
2026-02-18 17:52:00
重要突破!中国科大发现新型有序物态——理想非晶体
大皖新闻讯 2月18日,大皖新闻记者从中国科学技术大学获悉,该校童华教授、徐宁教授及其合作者在非晶物态理论研究中取得重要突破
2026-02-18 17:53:00
新岁启程,马蹄声疾。骉(biāo),《说文解字》解读为“众马也”。单从字形便觉气势如虹,三马叠加,并辔而行。从一马当先
2026-02-18 14:39:00
以“兴趣”为引,开启银龄健康生活新方式:简橙太极如何助力科学养生、乐享晚年
在当今社会,随着健康老龄化的理念日益深入人心,越来越多的中老年人开始积极追求丰富多彩的退休生活和身心和谐的健康状态。这一趋势催生了对优质
2026-02-18 12:53:00
【网络中国节·春节】AI机器人带来新春消费新体验 带旺厦门文旅市场
AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景,带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。(夏商咖啡供图)厦门网讯(厦门日报记者 沈彦彦 王元晖)厦门中山路“两岸数智非遗年”现场
2026-02-18 09:55:00
全力保交付 海辰储能厦门基地春节期间维持满负荷生产
位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产 全力保交付春节期间,海辰储能满负荷生产。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)大年初一
2026-02-18 10:26:00
成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯(河北日报记者王璐丹)近日
2026-02-18 07:58:00
2026年央视马年春晚,成为机器人扎堆亮相的“超级秀场”。而最牵动人心的,当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》
2026-02-18 07:04:00
2026年央视春晚演出现场,观众席间不少人佩戴的红围巾火了。微博上有网友实时提问:哪里能买到同款?这条名为“骐骥驰骋”的红围巾
2026-02-18 07:04:00
杭州智造“飞”上春晚 全球首次极寒载人飞行惊艳哈尔滨
图为央视春晚哈尔滨分会场彩排画面。除夕夜,央视春晚哈尔滨分会场以精彩的《冰雪暖世界》演出,带来了属于“冰城”的浪漫和温暖
2026-02-18 07:04:00
宇树春晚的表演,创下至少五个全球第一
网友热议“浙江黑科技” “太硬核了”“不愧是诞生‘六小龙’的地方”当虹科技8K超高清编码技术支持下,演员衣服上的刺绣纹理清晰可见
2026-02-18 07:34:00
豆包除夕AI互动19亿次 Seedance2.0为春晚提供技术支持
河北新闻网讯(记者 李春炜)2月16日,字节跳动旗下AI助手豆包与央视总台春晚联动,面向全国观众送出10万份科技好礼,并推出多项AI互动玩法
2026-02-17 20:35:00