• 我的订阅
  • 社会

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

类别:社会 发布时间:2024-03-28 10:06:00 来源:金羊网

“想象一下,你正踏上一片遥远的沙漠星球,那里的沙丘像金色的海浪一样延绵不绝,而一场关于权力、背叛和复仇的史诗故事正缓缓展开。”这并非来自影评人的遐想,而是当下国内一家热门AI初创公司智能机器人的“阅读总结”。

3月18日,国内通用人工智能“初创明星”月之暗面宣布在大模型上下文窗口技术上取得新突破,旗下的Kimi智能助手可支持200万字超长无损上下文,并开启产品内测,随即引发市场关注和热议,并一度因过于火爆“宕机”。随后,阿里、百度、360也宣布将发力长文本。

2024年被视为人工智能应用的元年。被厂商“内卷”的长文本究竟是什么?为何突受关注?普通人可以用长文本做什么?效果如何?记者进行了实测。

好比“内存”

长文本其实并不稀奇

200万字是什么概念?一本《红楼梦》大约70多万字,《沙丘》系列六部曲加一起也不过115万字。当大模型具有200万文字的长文本技术,也意味着在一个窗口,智能机器“一口气读完”百万文字级的“大部头”只在瞬间,并能和其他人“侃侃而谈”。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

简单来说,如果把大模型比作操作系统,那么上下文长窗口就像操作系统中的内存。内存越大,应用开发就越简单。

今年2月,谷歌发布的Gemini 1.5Pro模型曾一度创下最长上下文窗口的纪录。

根据官方数据,谷歌Gemini1.5 Pro将上下文窗口容量提到了100万token(极限为1000万token)。这意味着机器可以一下子处理22小时的录音、超过十倍的完整的1440页的《战争与和平》以及四万多行代码、三小时的视频。

如果简单换算,100万token大约等于80万个汉字。这意味着月之暗面的上下文窗口容量是谷歌Gemini 1.5Pro模型的2.5倍。也或许可以理解,为何“Kimi概念”在国内为何突然火了一把。

3月22日,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,号称是全球文档处理容量第一的AI应用。

1000万文字又是怎样的概念?《资治通鉴》为300多万字,一套《二十四史》大约超2000多万字,意味着机器最多只需“读”两次,就能看完。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

“要通往通用人工智能,无损的长上下文将会是一个很关键的基础技术。”月之暗面创始人、毕业于清华大学的明星级算法专家杨植麟对外表示,历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化。

也有投资人表示,长文本在技术圈实际上并不稀奇,但此前各家大厂没有“开卷”的主要原因是对算力消耗极大,成本比较高。

是否好用?

比较便捷但也张冠李戴

对于普通人的生活来说,“消费”千万级、百万级的长文本似乎并不多,那AI长文本能干什么?

记者实测了下,从易用性上来说,作为有“超长记忆”的AI助手,Kimi可直接用中文,还能上传doc、pdf、excel文件,甚至从微信聊天记录中选取文件,上手很方便。

比如,给它一个网址链接,它就可以用剧本中的人物角色,跟你聊天;把打车的交通发票扫描进文档,Kimi可以“整理”出报销表格;把录音文件整理成会议记录。

当长文本能力从20万字到200万字,也意味着AI应用“定制化”更前进了一步。长文本越长,意味着智能机器对相关背景就越熟悉。

按照月之暗面的介绍,像建筑工程的标书,可以一次性把前面的标书给Kimi,再设定好要求范围,就可能写出新的标书草稿;甚至长文本足够长,可将现有的文学作品续写。

不过,AI大模型作为“阅读神器”真的是万能吗?靠谱吗?

记者选择了包括Kimi和其他两家互联网大厂的大模型进行了“阅读题”评测,题目是《红楼梦》中对东北有哪些描述?

大模型A的答案之一是方言使用,A模型称《红楼梦》中运用了大量的东北方言,“这些方言语汇的使用,构成了《红楼梦》语言的一个独特特色,使得小说的对话更加生动传神。”

大模型B的答案更“惊人”:“东北人在《红楼梦》中通常被描绘为豪爽、直率、热情、重义气等特点。例如,贾宝玉的奶妈李嬷嬷、王熙凤的母亲刘姥姥等人都具有这些特点。”

至于大模型C则直接理解错误,介绍东北作为方位词的意思。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

除了文学上的貌似正经,却啼笑皆非的回答,大模型比拼“长”的能力后,在法律条文的解读上,也容易张冠李戴、模棱两可。

正如有参与测评的网友所言,“大模型最大的优势是对上下文的总结能力相当好,可以快速的帮助理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,就无法满足需求了,依旧是总结,而不是给出确切的信息。”

实际上,近期备受关注的月之暗面在本月刚度过了一周岁的生日。这家明星AI公司成立于2023年3月,名字源于著名摇滚乐队平克·弗洛伊德的同名音乐专辑,时间刚好是“封神之作”发布50周年。

虽然成立仅1年,月之暗面已完成了至少三笔融资,投资方包括阿里、红杉中国、真格基金、小红书、美团等。公司估值从一年前的3亿美元飙升至现在的25亿美元,成为大模型领域的头部玩家之一。

值得一提的是,一个月前,月之暗面完成了最新一轮超10亿美元的融资,这是继ChatGPT掀起AI浪潮后,国内AI领域公司获得的单轮最大金额融资。有消息称,阿里巴巴在此次融资中领投,使这家年轻公司的估值在短短一年内增长了七倍。然而,阿里巴巴和月之暗面均未对此作出回应。

目前,各家大模型的在长文本的应用“钱”景包括金融、法律、科研、医疗、教育等领域,用于快速读研报、分析财报、读科研论文、医疗报告、解读法律条文、分析考试成绩等。这一切,都以长文本是否更智能、更准确为前提。未来“钱”景如何,仍有待市场检验。

文|记者 王丹阳

图|腾讯混元大模型

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 12:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...持能力显著提升,可以一口气读200万字,相当于近三本《红楼梦》、14本《民法典》,或上千份简历,并可以根据用户需求,通过自然语言进行信息查询和筛选,提高信息处理效率,对需要整
2024-03-23 14:00:00
枪战版《甄嬛传》?武打片《红楼梦》?AI“魔改”视频,逐渐有人管了
...“枪战片”的AI版《甄嬛传》,频频出现武打画面的AI《红楼梦》等。《管理提示》认为,这些视频为博流量,毫无边界亵渎经典IP,冲击传统文化认知,与原著精神内核相悖,且涉嫌构成侵
2024-12-11 21:02:00
聊聊《红楼梦》与大运河的文化渊源
...雪芹也将清帝南巡所经过的城市、所发生的故事编织进《红楼梦》。“扬州旧梦久已觉”,大运河作为中国古代最重要的水运通道之一,连接着南北方的经济和文化交流,将曹雪芹、《红楼梦》、曹
2023-07-08 21:18:00
暑期档尾声吐槽不断?沈腾逆鳞不走喜剧路线,红楼梦被黑排片低
...在《逆鳞》中展现出不一样的魅力!再说说风波不断的《红楼梦》。近日,导演胡玫转发了一篇支持电影《红楼梦之金玉良缘》的长文,文中提到了一些让人深思的问题。首映礼上,红学大神鼓掌称
2024-08-22 14:35:00
智谱AI再卷价格战:最低1毛线可买近200万tokens,相当于两本《红楼梦》文字量
...意味着,最低仅用1毛钱可买近200万tokens,相当于两本《红楼梦》的文字量。GLM-4-Flash 将支持超过128K(千字符)的文本输入
2024-06-05 16:34:00
蒋梦婕发文控诉被偷拍,视频浏览量过百万
...,认为数量庞大追责困难。蒋梦婕2010年凭借李少红版《红楼梦》出道,她在剧中饰演女主角林黛玉,当年这部戏的选角竞争非常激烈,就算是赵丽颖、杨幂等人,当时也只演了一些配角,而蒋
2023-04-20 11:10:00
一毛钱写两本红楼梦,智谱AI再降价,已服务30万企业用户
...钱/100万token。这意味着不到一毛钱就可以把四大名著如《红楼梦》写两遍。而在企业V3版的价格下,用CogView-3文生图模型生成一张图只要6分钱
2024-06-07 09:25:00
《红楼梦之金玉良缘》面临2亿巨亏,电影的惨败,22年前就已注定
《红楼梦之金玉良缘》可以说是这个暑期档最惨的电影,没有之一。截至发稿,电影上映5天,排片占比已跌至1%,上映5天票房才441万,平台给出的总票房预测,只有619万。这种收获和投入
2024-09-11 18:30:00
观众“红楼梦碎”,胡玫晚节不保?
电影新片《红楼梦之金玉良缘》(以下简称“新红楼”)上映后票房、口碑不济,66岁的胡玫导演“破防”了,耗时18年打造“红楼一梦”,却换来一个“晚节不保”,业内人士和专家们如何看?《
2024-08-20 18:46:00
更多关于社会的资讯: