• 我的订阅
  • 社会

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

类别:社会 发布时间:2024-03-28 10:06:00 来源:金羊网

“想象一下,你正踏上一片遥远的沙漠星球,那里的沙丘像金色的海浪一样延绵不绝,而一场关于权力、背叛和复仇的史诗故事正缓缓展开。”这并非来自影评人的遐想,而是当下国内一家热门AI初创公司智能机器人的“阅读总结”。

3月18日,国内通用人工智能“初创明星”月之暗面宣布在大模型上下文窗口技术上取得新突破,旗下的Kimi智能助手可支持200万字超长无损上下文,并开启产品内测,随即引发市场关注和热议,并一度因过于火爆“宕机”。随后,阿里、百度、360也宣布将发力长文本。

2024年被视为人工智能应用的元年。被厂商“内卷”的长文本究竟是什么?为何突受关注?普通人可以用长文本做什么?效果如何?记者进行了实测。

好比“内存”

长文本其实并不稀奇

200万字是什么概念?一本《红楼梦》大约70多万字,《沙丘》系列六部曲加一起也不过115万字。当大模型具有200万文字的长文本技术,也意味着在一个窗口,智能机器“一口气读完”百万文字级的“大部头”只在瞬间,并能和其他人“侃侃而谈”。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

简单来说,如果把大模型比作操作系统,那么上下文长窗口就像操作系统中的内存。内存越大,应用开发就越简单。

今年2月,谷歌发布的Gemini 1.5Pro模型曾一度创下最长上下文窗口的纪录。

根据官方数据,谷歌Gemini1.5 Pro将上下文窗口容量提到了100万token(极限为1000万token)。这意味着机器可以一下子处理22小时的录音、超过十倍的完整的1440页的《战争与和平》以及四万多行代码、三小时的视频。

如果简单换算,100万token大约等于80万个汉字。这意味着月之暗面的上下文窗口容量是谷歌Gemini 1.5Pro模型的2.5倍。也或许可以理解,为何“Kimi概念”在国内为何突然火了一把。

3月22日,阿里通义千问宣布向所有人免费开放1000万字的长文档处理功能,号称是全球文档处理容量第一的AI应用。

1000万文字又是怎样的概念?《资治通鉴》为300多万字,一套《二十四史》大约超2000多万字,意味着机器最多只需“读”两次,就能看完。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

“要通往通用人工智能,无损的长上下文将会是一个很关键的基础技术。”月之暗面创始人、毕业于清华大学的明星级算法专家杨植麟对外表示,历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化。

也有投资人表示,长文本在技术圈实际上并不稀奇,但此前各家大厂没有“开卷”的主要原因是对算力消耗极大,成本比较高。

是否好用?

比较便捷但也张冠李戴

对于普通人的生活来说,“消费”千万级、百万级的长文本似乎并不多,那AI长文本能干什么?

记者实测了下,从易用性上来说,作为有“超长记忆”的AI助手,Kimi可直接用中文,还能上传doc、pdf、excel文件,甚至从微信聊天记录中选取文件,上手很方便。

比如,给它一个网址链接,它就可以用剧本中的人物角色,跟你聊天;把打车的交通发票扫描进文档,Kimi可以“整理”出报销表格;把录音文件整理成会议记录。

当长文本能力从20万字到200万字,也意味着AI应用“定制化”更前进了一步。长文本越长,意味着智能机器对相关背景就越熟悉。

按照月之暗面的介绍,像建筑工程的标书,可以一次性把前面的标书给Kimi,再设定好要求范围,就可能写出新的标书草稿;甚至长文本足够长,可将现有的文学作品续写。

不过,AI大模型作为“阅读神器”真的是万能吗?靠谱吗?

记者选择了包括Kimi和其他两家互联网大厂的大模型进行了“阅读题”评测,题目是《红楼梦》中对东北有哪些描述?

大模型A的答案之一是方言使用,A模型称《红楼梦》中运用了大量的东北方言,“这些方言语汇的使用,构成了《红楼梦》语言的一个独特特色,使得小说的对话更加生动传神。”

大模型B的答案更“惊人”:“东北人在《红楼梦》中通常被描绘为豪爽、直率、热情、重义气等特点。例如,贾宝玉的奶妈李嬷嬷、王熙凤的母亲刘姥姥等人都具有这些特点。”

至于大模型C则直接理解错误,介绍东北作为方位词的意思。

《红楼梦》里有大量东北方言?实测AI大模型“长文阅读”

除了文学上的貌似正经,却啼笑皆非的回答,大模型比拼“长”的能力后,在法律条文的解读上,也容易张冠李戴、模棱两可。

正如有参与测评的网友所言,“大模型最大的优势是对上下文的总结能力相当好,可以快速的帮助理解文章的重点,而其短板是,当我们需要快速定位文章的具体信息时,就无法满足需求了,依旧是总结,而不是给出确切的信息。”

实际上,近期备受关注的月之暗面在本月刚度过了一周岁的生日。这家明星AI公司成立于2023年3月,名字源于著名摇滚乐队平克·弗洛伊德的同名音乐专辑,时间刚好是“封神之作”发布50周年。

虽然成立仅1年,月之暗面已完成了至少三笔融资,投资方包括阿里、红杉中国、真格基金、小红书、美团等。公司估值从一年前的3亿美元飙升至现在的25亿美元,成为大模型领域的头部玩家之一。

值得一提的是,一个月前,月之暗面完成了最新一轮超10亿美元的融资,这是继ChatGPT掀起AI浪潮后,国内AI领域公司获得的单轮最大金额融资。有消息称,阿里巴巴在此次融资中领投,使这家年轻公司的估值在短短一年内增长了七倍。然而,阿里巴巴和月之暗面均未对此作出回应。

目前,各家大模型的在长文本的应用“钱”景包括金融、法律、科研、医疗、教育等领域,用于快速读研报、分析财报、读科研论文、医疗报告、解读法律条文、分析考试成绩等。这一切,都以长文本是否更智能、更准确为前提。未来“钱”景如何,仍有待市场检验。

文|记者 王丹阳

图|腾讯混元大模型

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-28 12:45:11

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...持能力显著提升,可以一口气读200万字,相当于近三本《红楼梦》、14本《民法典》,或上千份简历,并可以根据用户需求,通过自然语言进行信息查询和筛选,提高信息处理效率,对需要整
2024-03-23 14:00:00
聊聊《红楼梦》与大运河的文化渊源
...雪芹也将清帝南巡所经过的城市、所发生的故事编织进《红楼梦》。“扬州旧梦久已觉”,大运河作为中国古代最重要的水运通道之一,连接着南北方的经济和文化交流,将曹雪芹、《红楼梦》、曹
2023-07-08 21:18:00
蒋梦婕发文控诉被偷拍,视频浏览量过百万
...,认为数量庞大追责困难。蒋梦婕2010年凭借李少红版《红楼梦》出道,她在剧中饰演女主角林黛玉,当年这部戏的选角竞争非常激烈,就算是赵丽颖、杨幂等人,当时也只演了一些配角,而蒋
2023-04-20 11:10:00
《红楼梦》中美女如云,57岁依旧单身,一个英年早逝
四大名著中的《红楼梦》被翻拍了很多版本,但至今给观众留下深刻印象的非87版的莫属。剧中美女如云,每个人都美得有辨识度,随便单拎出一个,就足以吊打当今千篇一律的“模型美人”。张莉版
2022-12-30 14:57:00
从四大奇书到四大名著,明清小说的历史与现代认知
...这一时代出了许多伟大的作家,诞生了许多伟大的作品,红楼梦自然不必说了,那是曹雪芹医生心血凝结的中国古代小说的巅峰之作。虽然只有八十回原本,也足以空前绝后了。然而事实上呢,四大
2023-09-06 21:16:00
《红楼梦》中贾府所映射的是曹家吗
《红楼梦》相信很多朋友们都看过了,可以说这本著作就像是我国封建社会的百科全书,贾府则是本书中主要内容产生的场所。很多人曾认为,《红楼梦》其实就是曹雪芹的自传,但是小编并不赞同这一
2023-08-07 21:22:00
河南味儿,《芬芳》有味道
...汉语千百年来流传下来的,非常雅致。比如《水浒传》《红楼梦》中的很多词语,河南老家还在用着。比如罗唣、觳觫、相遇、精细、日西、天待黑……这些词,好听又文雅。“河南人自带幽默,是
2023-10-17 16:37:00
《红楼梦》读者打开只有红楼梦·戏剧幻城,续写《红楼梦》篇章
7月22日晚,只有红楼梦·戏剧幻城在夜幕中举办开城仪式,《红楼梦》读者成为开城仪式的主角,十二组读者从十二道各具特色的“中国门”后缓缓走出,翻开了他们与《红楼梦》的故事,忆起了一
2023-07-26 15:46:00
不会演戏别演了!醒醒吧李沁,再这么“急功近利”就完了
...中了李沁出挑的气质,向她抛去橄榄枝,邀请她饰演《新红楼梦》中的薛宝钗。这起点在一众小花里不可谓不高。由火爆各地的《大明宫词》导演操刀,又有千古名著《红楼梦》的加持,这部戏自筹
2024-04-29 11:14:00
更多关于社会的资讯: