• 我的订阅
  • 科技

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

类别:科技 发布时间:2024-10-29 09:55:00 来源:机器之心Pro

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。

上个月,谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新,允许用户生成 YouTube 视频和音频文件的摘要,甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页,NotebookLM 的用例和覆盖范围进一步扩大。

本月初,AI 大牛 Karpathy 发推表示自己只用了两个小时就创建了一个 10 集的系列博客 —— 历史谜团(Histories of Mysteries),其中就使用 NotebookLM 将每个主题的维基百科条目链接在一起,并生成播客视频;同时也使用 NotebookLM 编写博客 / 剧集描述。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

就这两天,Meta 推出了 NotebookLM 的开源平替版 ——NotebookLlama,它使用 Llama 模型进行大部分任务处理,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 运行流程,首先从文件(比如新闻文章或博客文章)创建转录文本,然后添加「更多戏剧化」和中断,最后将转录文本馈入到开放的文本到语音模型。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

据外媒 Techcrunch 报道,NotebookLlama 的效果听起来不如谷歌 NotebookLM 好,带有明显的机器人口音,并且往往会在奇怪的时刻「互相交谈」。不过,项目背后的 Meta 研究人员表示,使用更强大的模型还可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面写到,「文本到语音模型限制了声音的自然程度。」此外,编写播客的另一种方法是让两个智能体就感兴趣的主题进行讨论并编写播客大纲。现在,Meta 只使用了一个模型来编写播客大纲。

就像下面所展示的,虽然播客内容还有一些粗糙,但它听起来已经很不错了。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650940665&idx=2&sn=0f793076e42f80ab04b00500b7aaa5bf&chksm=84e7e087b3906991691ae2f33598b956d370fdf9557643db260424d9a813d6b77769a13c4219&token=1623910484&lang=zh_CN#rd

对于 Meta 的 NotebookLlama,有人直言听起来糟糕透了,要想真正地对标谷歌的 NotebookLM,就要在语音转换效果上接近人类水平。不过也有人认为,虽然目前效果不佳,但随着所有代码的开源,用户可以自定义尝试不同的提示方法等,相信未来会变得更好。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

虽然效果还是差点意思,但也有网友表示:「现在是时候让 Google 加快步伐了,Meta 已经紧随其后赶上来了,开源 NotebookLM。」

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目介绍

根据 Meta 发布的教程配方,你可以基于 PDF 文件构建播客。

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

项目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步:对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文件; 第二步:转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本; 第三步:对内容重新优化,添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意; 第四步:文本到语音。使用 parer -tts/parer -tts-mini-v1(文本到语音模型)和 bark/suno 生成会话播客。

不过,还有几个值得大家注意的点:

首先,在步骤 1 中,需要提示 1B 模型不要修改文本或对文本进行总结,并严格清理掉可能在 PDF 转录过程中出现的多余字符或垃圾字符。

其次,对于步骤 2,你也可以使用 Llama-3.1-8B-Instruct 模型,然后对比不同模型的效果。项目中采用的是 70B 模型,原因在于它为测试示例提供了更具创意的播客记录。

对于步骤 4,你也可以使用其他模型进行扩展,较新的模型可能听起来更好。

想要顺畅的运行该项目,你需要有 GPU 服务器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型,那么需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 精度进行推理。

退一步讲,如果你的 GPU 并不是很好,也可以使用 8B 模型跑通整个 pipeline。

接下来是安装。在开始之前,请确保使用 huggingface cli 登录,然后启动 jupyter notebook ,以确保能够下载 Llama 模型。

接着运行代码:

git clone https://github.com/meta-llama/llama-recipes

cd llama-recipes/recipes/quickstart/NotebookLlama/

pip install -r requirements.txt

Notebook 1:Notebook 1 用于处理 PDF,并使用新的 Feather light 模型将其处理为.txt 文件。

Notebook 2:Notebook 2 将接收 Notebook 1 处理后的输出,并使用 Llama-3.1-70B-Instruct 模型创造性地将其转换为播客脚本。如果你拥有丰富的 GPU 资源,也可以使用 405B 模型进行测试!

Notebook 3:Notebook 3 采用了之前的文本,并提示 Llama-3.1-8B-Instruct 在对话中添加更多的戏剧化和中断。

Notebook 4:最后,Notebook 4 从上一个 notebook 中获取结果并将其转换为播客。项目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题:Parler 需要 4.43.3 或更早版本的 transformer,但对于 pipeline 中的步骤 1 到 3,需要最新的版本,所以需要在最后一个 notebook 中切换版本。

最后,项目列出了未来需要改进的地方:

语音模型:TTS 模型使语音听起来不是很自然,未来可以纳入更好的模型; 更好的提示; 支持提取网站、音频文件、YouTube 链接等。

参考链接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-29 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科大讯飞联手华为首次攻克全国产算力下推理模型训练难关
...试”中成绩十分亮眼,用更少的算力,实现了业界一流的效果,多项指标国内第一。“大模型发展,应用才是硬道理”是科大讯飞一直秉持的观点。 目前,讯飞星火X1率先在教育等真实场景中
2025-01-15 15:07:00
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...为语音生成的音频解码器。评估为了验证模型的语音合成效果是否能达到人类同等水平,评估采用了SMOS和CMOS两个主观指标
2024-07-25 09:34:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
...、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta
2023-01-30 16:34:00
openai语音翻译又出新功能了!
...,但在处理其他语言,特别是使用非罗马文字的语言时,效果寥寥。因此OpenAI建议:非英语用户不要使用ChatGPT进行类似科研等专业要求较高的任务
2023-09-26 14:59:00
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。总结来说,本文主要贡献为:提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 A
2024-09-07 09:44:00
VEGAS Pro 19中文版下载_VEGAS Pro(视频编辑)直装版-vegas pro 19中文破解版
...过颜色分级面板使用。11、AutoLook插件的其他预设:AutoLook效果的额外20个预设。12、基于AI的Upscale和Zoom插件
2023-01-25 11:00:00
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...,并且在早期到中间层中,在用单词级转录训练的模型中效果较差,表明模态混合可以对齐语音和文本,使模型能够将语音序列与相应的文本序列映射起来。表达性建模当不给智能体任何先前的样本
2024-11-23 09:43:00
全面透视豆包:功能、版本、价格、优势、应用
...些常见版本及其特点:豆包通用模型 pro:是主力模型,效果较好,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有不错的效果。它支持较大的上下文窗口(
2024-07-24 14:44:00
讯飞星火首发智能体平台,敏捷触达大模型应用企业落地最后一公里
...和蒸馏,从而推出业界性能最优的130亿参数的大模型,在效果损失仅3%以内的情况下,使得星火在文档上传解析处理、知识问答的首响时间以及文字生成方面都获得了极大的效率提升。测试显
2024-04-26 11:44:00
更多关于科技的资讯:
河北新闻网讯(田坤)近日,在开滦集团钱家营矿业公司(简称“开滦钱矿公司”)机采科检修车间,一台自主研发的“液压钻车负载敏感阀试验台装置”成功完成首次测试
2026-01-19 20:03:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿顺利完成井下排水泵房的智能化改造,传统人工巡检模式被远程集中监控替代
2026-01-19 20:04:00
安克与飞书联合发布“安克AI录音豆” 录音可在飞书中被AI调用
2026年1月19日,安克创新与飞书联合发布了最新AI硬件——安克AI录音豆,飞书提供了该产品的软件AI适配与服务。这款产品以极轻的"磁吸纽扣”形态实现无感随身佩戴
2026-01-19 17:13:00
+14!省级专精特新梯队扩容
江南时报讯 近日,江苏省工信厅公示了2025年度省级专精特新中小企业(第二批)认定和通过复核企业名单,苏州市相城区黄桥街道共有14家企业上榜
2026-01-19 17:25:00
2026年潍坊市家电国补启动,享国补到三联家电
鲁网1月19日讯2026年潍坊市家电及数码产品补贴正式上线,标志着新一轮“国补”政策在潍坊全面落地。1月16日,三联家电41周年店庆活动盛大启幕
2026-01-19 17:28:00
近日青岛大学龙云泽团队研发的自供能眼球追踪系统火了,仅凭眨眼摩擦就能发电,还能99%精准捕捉眼球运动,像普通眼镜一样轻便
2026-01-19 18:06:00
简橙钱米第三届“岁月珍藏,财智生花”线下品牌活动圆满结束
2026年1月11日,广州番禺太平木棉之家,以“岁月珍藏,财智生花”为主题的第三届简橙「理」想人生线下品牌活动温馨落幕
2026-01-19 17:32:00
为夯实业务转型升级根基,切实提升普惠金融服务质效,近日,滦州农商银行举办信贷新模式及信贷产品专题培训会。该行信贷相关条线骨干
2026-01-19 17:02:00
1月18日,由城市头条有限公司主办的融媒体平台“城市头条”宣布其官方移动应用“城市头条APP”已正式在官网及各主要应用商店上线
2026-01-19 16:55:00
肥乡联社始终践行“以客户为中心”的服务理念,聚焦网点服务提质增效,不断创新服务模式、精进服务技能、丰富厅堂服务内涵,将服务触角深度延伸至城乡末梢
2026-01-19 14:55:00
1月18日,2026华杰新品盛典暨AIX大家居智能增长引擎发布会在石家庄举办。本次活动以“格物·开悟”为内核,聚焦面向核心伙伴的 "能力交付",共同探索家居行业的智造升级与增长新
2026-01-19 15:35:00
近日,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:601628.SH,2628.HK)凭借在保险主业、社会责任
2026-01-19 15:50:00
当黄仁勋在 CES 展台上宣告物理 AI 的 “ChatGPT 时刻” 已至,屏幕这头的大学生群体瞬间分裂成两派:有人对着能精准缝合的手术机器人畅想未来
2026-01-19 15:59:00
2026年深圳网上年货节启动
中国消费者报深圳讯(记者黄劼)1月16日,2026年深圳网上年货节启动仪式在深圳市南山区京东Mall南山店成功举行。年货节以“暖冬嘉年华 年货合家欢”为主题
2026-01-19 14:17:00
鲁网1月19日讯近日,国家水利部正式发布《节水先进成熟适用技术设备名录(2025年)》。在此次国家级节水技术评选中,泰安市科技创新成果“双星闪耀”——东平力创科技有限公司与泰安市智慧能源科技有限公司的领先技术成功入选
2026-01-19 11:06:00