我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
2月18日,马斯克及其 xAI 团队在直播中正式发布了 Grok 3,此前马斯克通过持续的预热宣传,将外界对 Grok3 的期待值推向了前所未有的高度。然而,被马斯克称为“地球上最聪明人工智能”的Grok 3,似乎也翻车了。
昨日在发布会上,马斯克宣称 Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于 SpaceX 的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。
发布会后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”
遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。
据第一财经此前报道,就此问题,记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。
大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。
在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。
此外,在 xAI 发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3 也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。
马斯克在社交媒体上表示,“Grok 3版本本周每天都会快速改进”,并邀请用户反馈使用问题。
(齐鲁晚报·齐鲁壹点客户端编辑石卉 综合IT之家、第一财经、快科技等)
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2025-02-19 17:45:06
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: