• 我的订阅
  • 科技

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

类别:科技 发布时间:2024-10-26 09:49:00 来源:机器之心Pro

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,无论是对话的响应速度还是与真人声音的相似度,都颇为惊艳。特别是它允许用户随时打断,充分感知到用户的情绪并给予回应。

大家突然发现,原来 AI 语音通话还能这么玩?

但由于种种原因,用户们等了好久才等到 OpenAI 开放 ChatGPT 的高级语音功能,目前仅 Plus 和 Team 用户可体验,且这些用户每天也有使用时长限制。

不过现在,国内用户也有了同样丝滑的实时语音交互应用,重点是:免费开放,无需等待。

10 月 25 日,智谱清言宣布全量上线「情感语音通话」功能,任何用户都可以立即获得端到端情感语音体验。

对标 GPT-4o,智谱清言「情感语音通话」在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音通话」提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者。

以下视频来源于 智谱清言

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

视频链接:https://mp.weixin.qq.com/s/Bi7cPZXCmsjSaJu6EglhJA

精通各种方言,比如这段北京烤鸭的介绍,那叫一个地道:

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

试听链接:https://mp.weixin.qq.com/s/Bi7cPZXCmsjSaJu6EglhJA

与此同时,智谱还重磅宣布,该功能背后的情感语音模型 GLM-4-Voice 同步正式开源。不久后,相关能力还将上线视频通话,为所有用户提供一个既能「看」又能「说」的 AI 语音助理。

开源地址:https://github.com/THUDM/GLM-4-Voice

自大模型浪潮兴起的两年来,AI 技术的发展日新月异,有时甚至超过我们的想象,让大家直呼科幻时代提前到来。

当然,这背后所代表的技术趋势也不断变化。比如在人类的想象中,「Any-to-Any」才是真正属于未来的人与 AI 交互方式。具体来说,AI 能做到接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。

如今,智谱清言的「情感语音通话」又一次推动了国产 AI 对标国际先进水平。

情感语音模型 GLM-4-Voice

上线即开源

自从去年的 GPT-4 发布之后,领域内就一直在传 GPT-5 的各种消息。但我们后来都知道,OpenAI 并未通过简单粗暴地增加模型参数来拓展智能上限,而是选择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。

具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经网络处理。行业内认为,这是一种可以将音频直接映射到音频作为一级模态的技术方法,涉及 Token 化和架构等方面的研究,总体来说是一个数据和系统优化问题。

在这方面,智谱也已经有了一定的技术积累。智谱清言情感语音通话功能背后的 GLM-4-Voice,同样是一个端到端的语音模型。

与传统的 ASR + LLM + TTS 的级联方案相比,GLM-4-Voice 以离散 Token 的方式表示音频,实现了音频的输入和输出的端到端建模,在一个模型里面同时完成语音的理解和生成,避免了传统的「语音转文字再转语音」级联方案过程中带来的信息损失和误差积累,且拥有理论上更高的建模上限。

具体来说,智谱基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。语音合成方面,智谱采用 Flow Matching 模型流式从音频 Token 合成音频,最低只需要 10 个 Token 合成语音,最大限度降低对话延迟。

预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成数据以适配这两种任务形式:

Speech2Text:从文本数据中,随机选取文本句子转换为音频 Token Text2Speech:从音频数据中,随机选取音频句子加入文本 Transcription

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

GLM-4-Voice 预训练数据构造。

与传统的 TTS 技术相比 (Text-to-Speech),GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

能够在情感的把握上做到如此精准,是因为 GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。为了支持高质量的语音对话,智谱设计了一套流式思考架构:输入用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令变化做出相应的声音变化,在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力,同时保证低延迟性(最低只需要输出 20 个 Token 便可以合成语音)。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

GLM-4-Voice 模型架构图。

伴随着 GLM-4-Voice 的推出,智谱在通往 AGI 的道路上又迈出了最新一步。

一句指令自动操作电脑、手机

AutoGLM 同步上线

在情感语音通话全面开放的同时,智谱也宣布了另一项前沿成果:AutoGLM。

让 AI 像人类一样操作电脑和手机,是近期领域内的热点话题。以往这是一项颇具挑战性的任务,因为在此类场景下,AI 需要根据用户的要求拆解指令背后蕴含的步骤,感知环境、规划任务、执行动作,逐步完成任务。某种程度上说,这突破了大模型的常规能力边界,更加注重其「工具」属性。

很多大模型公司都在探索这一方向,锚定其为「下一个 AI 前沿」。基于大语言模型(GLM 系列模型)、多模态模型和工具使用(CogAgent 模型)等方面的探索,智谱已经在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果。

在智谱最新发布的 AutoGLM App 中,用户可以凭借一句指令让 AI 自动完成许多任务,比如阅读网页信息、电商产品购买、点外卖、订酒店、评论和点赞微信朋友圈等。目前,AutoGLM 已开启内测(暂时仅支持 Android 系统)。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

视频链接:https://mp.weixin.qq.com/s/Bi7cPZXCmsjSaJu6EglhJA

在 AutoGLM App 发布之前,AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。这是一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。

在 Phone Use 和 Web Browser Use 上,AutoGLM 都取得了大幅的性能提升。在 AndroidLab 评测基准上,AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升,大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

我们知道,当代人工作和生活中的大部分事项都需要通过计算机和手机完成,一旦让 AI 学会像人类一样直接与计算机和手机端的软件交互,就能拓展出大量当前一代 AI 助手无法实现的应用。

面向 AGI,智谱这样规划技术路线图

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具。基于GLM-4-Plus,智谱过去几年在多模态领域探索取得了一些阶段性成果:CogView 能让文字化作一幅幅画作,CogVideo / 清影(Ying)让文图生成一帧帧视频,GLM-4V-Plus 带来了通用的视频理解能力。GLM-4-Voice的出现让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。

虽然在产品矩阵上全面对标 OpenAI,但可以看出,在追求 AGI 终极目标的过程中,智谱 AI 慢慢展现出了一些不同于 OpenAI 的思考,比如对 AI 分级的思考,这也影响了这家科技公司所走的技术路线。

如果将 AI 的能力从低到高划分为 Level 1-Level 5,则从当前各家 AI 大模型来看,Level 1 语言和多模态能力、Level 2 逻辑与思维能力和 Level 3 工具使用能力成为了主流认知。因此,包括智谱在内的大模型厂商都在实现这些能力的路上一路狂奔。

智谱此次揭露了其面向 AGI 的路线图。除了单一模态的端到端大模型之外,智谱未来希望打造各种模态混合训练的统一多模态模型,不仅认知能力要比肩人类,还要与人类价值观保持一致,做到能力出众的同时要安全可控。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

在 Level 3 阶段,智谱拿出了最新武器 AutoGLM,具备了更强大的全栈式工具使用能力,并越来越像人一样通过感知环境、规划任务、执行任务并最终完成特定任务。同时伴随着人机交互范式的转变,智谱也离其未来打造以大模型为中心的通用计算系统 GLM-OS 的目标更近了一步。

可以说,截止目前, 前三阶段的竞争大家都走得差不多,差别就在于更高阶段的 Level 4 和 Level 5,OpenAI 探索的是 AI 自己能够发明创新并最终融入组织或自成组织。在这两个决定未来 AI 能力走向的关键阶段,如今的智谱有了更全面的定义和解读。

在智谱的愿景中,未来 AI 在 Level 4 不仅要具备发明创造能力,还要全方位地追求「内省」,具备自我学习、自我反思和自我改进能力;到了最终的 Level 5,也就是实现 AGI,AI 的能力将首次全面超越人类,并开始向探究科学规律、世界起源等终极问题发起挑战。

与此同时,如果将 AI 与人脑做一个类比,AI 在多大程度上能够达到人脑水平呢?智谱认为,从目前大模型具备的文本、视觉、声音以及逻辑和工具使用能力来看,在未来相当长一段时间内将处于 42%这个阶段。因此,想要达到最终的 AGI,持续深拓已有能力并解锁未知能力是关键。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

AI 技术发展到今天,已经为我们展开了一幅美好画卷。在未来,由人类创造的强大 AI 将真正使大众受益,而智谱也是推动这一里程碑的重要参与者。

体验 GLM-4-Voice 和 AutoGLM 加持的最新版智谱清言:

https://chatglm.cn/main/alltoolsdetail?image=https://sfile.chatglm.cn/chatglm-operation/image/92/9289b3ba.png?image_process=format,webp&open_from=ads_news_audio_jqzx&from=ads_news_audio_jqzx&lang=zh

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-26 11:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

重磅!“国奖”放榜:十年来AI 领域首个国奖一等奖花落科大讯飞
...覆盖69个语种的跨文化交流难题。当下正值大模型掀起新一波革命,OpenAI推出的GPT-4o爆火全球,一大原因是“语音+大模型”的全新震撼交互体验。这一次的“国奖”,则让我们
2024-06-26 09:15:00
打不过巨头,二线国产手机只能下血本卷这技术了
...腕,仍然困难很大。魅族宣布All in AI策略后,OPPO 也来了一波“官宣迈进AI手机时代”。创始人兼 CEO 陈明永发内部信
2024-02-23 23:18:00
看完讯飞星火发布会后,我看到了国产大模型的未来
...大行业应用成果。。(图源:科大讯飞)没有盲目追赶第一波浪潮的科大讯飞,决定将“应用落地”作为自己的答卷。讯飞“星火”,入局百模大战讯飞董事长刘庆峰表示:“我们要向OpenAI
2023-05-08 09:11:00
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
...么智谱的CogSound模型还能hold住什么样的音效?我们这就来一波实测。实测方法也是非常简单,我们会截取电影中的视频片段作为输入,考验的就是它能否对视频内容深入理解,并生
2024-11-09 09:54:00
追一科技吴悦:一家做了7年NLP的公司,如何抓住大模型浪潮? | 36氪专访
...落地的路径。但对追一科技而言,这已经不是新鲜事。上一波AI创新浪潮催生出主打CV方向的商汤、旷视等“AI四小龙”,相较之下,如今火热的NLP(自然语言处理)被称为是“人工智能
2023-12-06 14:07:00
与ChatGPT“赛跑”!国产大模型170多天“赛”出“加速度”
...讯飞全球1024开发者节上,科大讯飞发布讯飞星火认知大模型V3.0,整体超越ChatGPT,并联合华为重磅发布了基于昇腾生态的“飞星一号”大模型算力平台。你知道华为和科大讯飞
2023-10-31 16:50:00
智氪|漫步者碰瓷AI,国产音箱老大哥在急什么?
...,年内在电影市场火出圈的漫步者,在A股市场也迎来了一波强势上涨行情。开年后,漫步者股价一路上扬,5月初创下了23.6元/股的历史高点,截止到目前(7月25日),其累计涨幅已经
2023-08-01 12:44:00
降价90%,OpenAI开放ChatGPT模型API,国内上市公司机会几何?
一个周末过去,有关ChatGPT的话题又迎来一波新的热度。消息显示,OpenAI推出了新的ChatGPT API接口,不仅可以集成到其他开发者自己的应用当中
2023-03-07 01:00:00
对话科大讯飞刘聪:中美大模型的差距在缩小,GPT-5提升更多是在局部
...我个人的状态相当充实,发际线依然还在。”谈及攻关大模型以来的状态,科大讯飞副总裁、研究院院长刘聪最近与搜狐科技等媒体交流时说道。他也自封了两个新“身份”。第一个是首席演示官,
2024-08-07 07:05:00
更多关于科技的资讯:
高通第四代骁龙8s支持新一代帧生成算法:60fps游戏秒变120fps
快科技4月2日消息,今日下午,高通正式推出了第四代骁龙8s移动平台,这一新品在多个关键领域实现了显著升级。首先,其采用了全大核CPU架构
2025-04-02 18:40:00
美国加征25%让低价车无钱可赚 奔驰考虑在美撤下入门车型
快科技4月2日消息,据报道,美国将对进口汽车加征25%的额外关税,自4月2日起生效。分析师称,这将使每辆汽车的成本增加数千美元
2025-04-02 18:40:00
REDMI首发!高通第四代骁龙8s正式发布:系列首次全大核
快科技4月2日消息,今天下午,高通正式发布了全新旗舰平台——第四代骁龙8s。高通将其定义为“新生代旗舰”,专为追求出色娱乐体验和创作体验的用户打造
2025-04-02 18:40:00
蔚来乐道总裁官宣离职:辜负期待 深感愧疚
“做不到,就下课”3月销量放榜第二天,蔚来乐道品牌总裁艾铁成兑现承诺,官宣离职。去年11月广州车展上,艾铁成公开立下“军令状”
2025-04-02 18:40:00
3月交付过没过两万:蔚来乐道总裁艾铁成“下课”
难抵压力,乐道汽车总裁艾铁成还是“下课了”。4 月 2 日上午,艾铁成通过乐道 App 发表文章宣布离职,不再担任乐道汽车总裁和蔚来高级副总裁
2025-04-02 18:40:00
小米汽车司机驾驶中睡着上热搜 客服回应:智驾系统只是辅助
快科技4月2日消息,近日,有网友曝光小米汽车车主驾驶中睡着,双手离开方向盘。同行友人连喊三遍“减速”避让小米汽车。据视频显示
2025-04-02 18:40:00
永辉高管谈调改 于东来直接打断!质问月赚200万为何不涨工资
快科技4月2日消息,在近日的2025中国超市周活动现场,永辉超市负责调改的高管正在台上演讲,被胖东来创始人于东来登台打断
2025-04-02 18:40:00
博主吐槽新能源汽车门把手根本找不到 打车感觉自己像土鳖
快科技4月2日消息,近日,一位博主在社交媒体上吐槽新能源汽车的门把手设计,引发了广泛关注和讨论。随着网约车的普及,乘客们发现
2025-04-02 18:40:00
全球富豪榜变化:马斯克仍高居榜首 巴菲特跃居第五
今年年初,全球千亿美元级超级富豪数量为16人,但如今已降至13人。这一变化源于美股在一季度遭遇自2022年以来最严重的季度跌幅
2025-04-02 19:10:00
REDMI/iQOO首批商用!一图了解高通第四代骁龙8s
快科技4月2日消息,今天下午,高通正式发布第四代骁龙8s。据悉,第四代骁龙8s基于台积电4nm工艺制造,其Kryo CPU采用1+3+2+2的 “1超7大” 架构设计
2025-04-02 19:10:00
比亚迪21%毛利率背后的变革
2025年只过了3个月,比亚迪的营收能力再次震慑车圈。3月24日,比亚迪发布2024年财务报告。财报显示,2024年比亚迪营业收入7771
2025-04-02 19:10:00
快科技4月2日消息,据媒体报道,4月1日至18日,武汉近10万名初三生参加体育中考,全面采用“智能设备+云端管理”模式
2025-04-02 19:10:00
算法并非万能!央视呼吁:“智能驾驶”也请握紧方向盘
快科技4月2日消息,近日,有关智能驾驶而引发的交通事故在网络上引起了大家的热烈讨论,对此,央视网评指出,“智能驾驶”,也请握紧方向盘
2025-04-02 19:10:00
中石油管道局科新公司破解纳米孔洞“结构密码”
河北新闻网讯(杨志明、杨洁、张珊榕)近日,中石油管道局投运公司中油科新化工有限公司(以下简称“科新公司”)在纳米材料研究领域获得重要突破
2025-04-02 19:17:00
真正的Windows on Arm!大神最新魔改成果:智能手表运行Windows
快科技4月2日消息,近日,名为Gustave Monce的开发者最新成果惊呆了众多网友,他成功将Windows操作系统运行在智能手表上
2025-04-02 19:40:00