• 我的订阅
  • 科技

360智脑首发上手实测,到底是个啥水平?

类别:科技 发布时间:2023-04-18 10:26:00 来源:差评

“ 周鸿祎为什么总爱聊 GPT ? ”

这是上个月底,周鸿祎在展示自家新的大语言模型产品上亲自问的问题。

360智脑首发上手实测,到底是个啥水平?

这也是人们第一次知道,一个主打安全服务的 360 公司,居然也在默不作声地 “ 炼丹 ” ,而且看这发布会的召开速度,估计早就炼上了。

他们还给自家的这个产品取了一个看上去相当直白的名字—— 360 智脑。

而且和 NewBing 一样,360 智脑主打的就是生成式语言模型 + 联网搜索。

到如今,大半个月过去了,这个智脑也是终于开始了内测,我们又双叒拿到了首批内测资格。

说实话,最近这段时间,国内陆陆续续也发了不少大模型,但落实新搜索应用的还真的一个都没有。

只是有点没想到的是,第一个推出类 NewBing 产品的,竟然是 360。

在当初周总的亲自演示中,这个智脑还存在不少错误的,比如这个梅西为国家队踢进了多少个球,重新生成了很多次,就是没有办法答对,甚至旁边的搜索栏都给出答案了。

360智脑首发上手实测,到底是个啥水平?

所以在测试前,老实说,咱们对它也没抱有多大的期待。

而且还有一个问题,周鸿祎在发布会上也提到了,因为重视安全的原因,不会有语言模型的连续对话能力。

所以每次提问,如果你想要顺着问题继续问下去,那是没有办法的。

毕竟之前 NewBing 也是因为连续对话引发了安全问题,在那之后微软就给限制了 NewBing 的连续对话的能力和每日对话的次数。

360智脑首发上手实测,到底是个啥水平?

根据官方的说法,360 智脑作为 “ 新搜索 ” 的落地应用,这个产品的重点,也应该是在信息检索能力和答案准确性、用户体验以及实时性上。

考虑到检索能力和实时性,用已经联网的 360 智脑来对比不联网的 ChatGPT ,实在是有点欺负人了。

所以在这次测试中,咱们让 360 智脑只和 NewBing 对比。

首先,这个智脑毕竟还是基于大语言模型的产品,所以语义理解能力的测试肯定是少不了。

上来就先给它试一个差评题库里的经典题目:“ 张三差点上上上上海的车 ” 是什么意思?

结果,智脑思维发散,把这句话理解成了逻辑学问题。还请出哲学家罗素说他也曾试图解决这个悖论,而且还没解决。。。看来这一题,智脑是没法得分了。

360智脑首发上手实测,到底是个啥水平?

至于 NewBing ,回答的就不错,不但理解了意思,甚至还给语句里的四个“上”字,分别解释了它的词性。

360智脑首发上手实测,到底是个啥水平?

到这里我已经有点怀疑,难道所有这种语义理解,360 智脑都不行?

倒也不是,因为我又问了智脑一个问题:“ 我觉得奥斯卡颁奖都是假的,因为台下都是主办方请来的演员。” 这个题目,你需要把奥斯卡颁奖都是假的这个结论和台下都是请来的演员逻辑给理清楚,不然就会答非所问。

本来,按照上一题的表现,我觉得智脑应该又会扑街,但是结果出乎意料, 360 智脑意外的答得不错,不仅意识到了句子里的演员的意思,而且还对我进行了一个道歉,说很抱歉听到我对奥斯卡颁奖典礼的真实性存在质疑。

360智脑首发上手实测,到底是个啥水平?

但是之前刚被我夸过的 NewBing 嘛。。。这一次反而是拉垮了,他说没找到证据支持我的说法,于是从网上找了一篇新闻,然后瞎答了一通,最后下结论说,台下并不全是请来的演员,完全没理解这个演员的梗。。。

360智脑首发上手实测,到底是个啥水平?

好吧,这样看来,在语义理解上,本不抱有期望的智脑,还算是给了我一点意料之外的惊喜,并不是所有问题都没法理解。

那么再来看看双方的检索能力和答案准确度,我出了三道不同方向的题目,让 360 智脑和 NewBing 去回答。

在一些基础知识类的题目上,智脑和 NewBing 都没有什么压力。

360智脑首发上手实测,到底是个啥水平?

同样的,因为模型样本基于中文,所以涉及到一些中文互联网的梗时,土生土长的 360 智脑显然更胜一筹。

比如我问道:“ 谁对钱不感兴趣?”

360 智脑很好的接下了这个梗,但另一方面 NewBing 则没有理解这个梗。

360智脑首发上手实测,到底是个啥水平?

看来咱们自己互联网独有的文化,还得自家的产品才能理解啊 ~

接下来,我尝试性地问了360智脑一个终极问题——关于人生的意义,想看看这个硅基生物的雏形如何看待这个问题,得出的答案可以说很富有哲理。

360智脑首发上手实测,到底是个啥水平?

至于用户体验这方面,在测试中,我确实感受到了结合了语言模型的搜索,对比传统搜索会有很大的易用性提升。

比如我问 360 智脑:“ 我想找一段视频素材,内容是老人在吃饭。 ”

在传统搜索中,搜索引擎并不知道我们是什么意思,给出的搜索结果和我想要的东西基本无关,也就是检测到了一些关键词给出了搜索结果。

360智脑首发上手实测,到底是个啥水平?

而 360 智脑就不一样了,不仅理解了我的意思,回答中给的链接,也是能直接点进去的,而且在点进去后,展现的第一页,就是老人吃饭的素材。

360智脑首发上手实测,到底是个啥水平?

另一方面,NewBing 也回答的很好,不仅提供了一些视频网站的链接地址,在后续也检索出了一些图片供我们选择,可以说是相当完善了。

360智脑首发上手实测,到底是个啥水平?

其实类似的情况还有很多,比如我问 360 智脑:“ 帮我推荐几本有关人工智能的书。”

360 智脑和 NewBing 也是很好的给出了推荐,但是在传统的搜索引擎上,基本就没有任何的指引了,完全靠自己去挑选。

360智脑首发上手实测,到底是个啥水平?
360智脑首发上手实测,到底是个啥水平?

在实时性方面,这对于联网的新搜索来说,应该是两者的强项。

我在这里一共测了三个问题,分别是 21 年的男子 100 米短跑奥运会冠军是谁?中国 2022 年的 GDP 是多少?还有 2022 年的诺贝尔物理学奖是由谁获得的,获得理由是什么?

对于这三个回答,不管是智脑还是 NewBing,完成的都很出色,不过在后续的几个问题测试中,我又发现了一个问题,就是当你问话的形式不一样意思一样时, 360 智脑和 NewBing 给的答案也会不一样。

360智脑首发上手实测,到底是个啥水平?

比如当初发布会上周总问的问题:“ 梅西在阿根廷国家队一共进了多少个球?”

它居然告诉我梅西只进了 7 个球。。。

但是换一种问法呈现:“ 梅西在国家队生涯上升到多少个球?”

这个问题就被解答的很好。所以在问法上,我们依然需要一些技巧。

360智脑首发上手实测,到底是个啥水平?

不过在另一边的 NewBing 也不咋的,我把这个问题再问给 NewBing,NewBing 的回答也是胡说八道,没一道是说对的。

360智脑首发上手实测,到底是个啥水平?

从这两个问题来看,现在的大语言模型 + 搜索,还是有很多数据错误和实时性的问题需要解决。

最后,我又帮差友们问了一个超级实用的问题,得出的答案真是不错,默默记在了小本本上。尤其是第三条,简直就像一位职场老油条在面授机宜。

360智脑首发上手实测,到底是个啥水平?

以上这么一大段的评测下来,结果也算是有了。

一开始咱们是觉得,这个智脑本身的语言模型不太行,在使用时应该也不咋地,在评测的过程中,也是抱着能对几个对几个的意思去的。

但是在实际体验中,这个 360 智脑在某些场景下的应用,还是相对传统搜索有优势的。

比如直接总结文本答案,这就省去了我们很多的去检索一条条链接的时间。与语言模型的结合让搜索引擎能听懂人话,这对于一些习惯了口语化的老人和小孩,在搜索自己想要的答案上,使用更为容易。

360智脑首发上手实测,到底是个啥水平?

此外 360 智脑在答案检索能力和准确度上,其实也还说的过去,甚至在中文梗的理解上,更是强于 NewBing。

只不过可能由于现在语言模型还是比较低阶,在一些比较有难度的语义理解和逻辑思考上,还是不太行。

就像周鸿祎说的一样,现在的这个 “ 孩子 ” 还没有准生证,只是一个未完成版本,距离完善使用还是有相当的一段路要走的。

相信大家现在有很深的体会,当我们在使用传统搜索的时候,很多时候都没法搜到自己想要的东西,各种各样的链接一大堆,看着都有用,实际上翻找半天都不一定找的到自己想要的信息。

360智脑首发上手实测,到底是个啥水平?

而且随着网站的越来越多,甚至会出现一些专门走关键词漏洞的网站,混淆咱们的搜索结果,这些种种乱象,甚至让很多人放弃传统搜索,直接去一些社交网站搜索答案。

不过,随着 AI 应用的落地。语言模型 + 搜索引擎的新搜索模式,可能会在一定程度上,改善现在传统搜索的困境。

利用新搜索,我们只需要告知搜索引擎我想要什么,它就能去帮我审阅一条条链接,翻找有用的信息,并总结出我需要的答案和结果。比如让它给我提供一份旅游攻略,然后让它对比出一份最适合我要求的,这样就不用我再一个个网站找大家的攻略,再自己比较,省下了一大波时间。

360智脑首发上手实测,到底是个啥水平?

AI 时代已经来临,传统搜索在新搜索的冲击下只会越来越式微。

这种新的模式已经在给行业洗牌了,微软自推出 NewBing 后,截至 3 月底,必应页面的访问量直接增长了 16% ,谷歌下降了 1% 。必应下载量更是直接增长了 8 倍,另一方面的谷歌自然的下载量减少了。

360智脑首发上手实测,到底是个啥水平?

所以谷歌他们对 NewBing 的恐惧是应该的,搜索广告市场份额每增加 1 个百分点,每年可带来 20 亿美元收入。这个份额下降,带来的是实打实的金钱损失。后续各家巨头纷纷推出大模型,就是为的不落伍,为的就是抢占市场。

但同时,这种语言模型结合搜索引擎的方式,对背后的语言模型要求也是很高的,它需要语言模型有极强的判断能力,还要对不同的结果做出对比优劣,选出好的答案,看看谷歌百度,这些老牌搜索大厂,到现在都没有推出自己的新搜索就能略见一二。

360智脑首发上手实测,到底是个啥水平?

不过,就算如此,在新方向上的尝试是必须的,国外微软是先行者,国内也需要像 360 这样的产品先行者去做这样的应用落地。

虽然体现下来有待改进的地方不少,但是作为第一个结合起来的产品,在未来的体验改进上,还是给了我们很大的想象空间的。

有了竞争,才会有发展,我已经在期待未来由 AI 带来的生活方式的改变了,国内的各个大厂也请加油做出更好的产品吧。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-04-18 11:45:13

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节
...条理性四舍五入可以充当导购了。 当然,以上只是简单实测,不妨期待我们后续一手详细的评测。根据 Similarweb 的数据
2024-11-04 13:32:00
AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o
近日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,将新一轮AI争霸带入了“Her 时代”
2024-05-17 14:26:00
顶流大模型应用!天工AI不炫技,实测真正的生产力工具
近日,OpenAI宣布,为了维护服务质量和安全性,7月9日起将采取额外措施来限制来自当前不支持的国家和地区的API流量,其中就包括中国。这意味着国内大量“套壳”大模型将无法使用,
2024-06-29 09:39:00
三个大模型组队挑战o1,实测360多模型协作干掉提示词工程
OpenAI o1的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。正如英伟达AI科学家Jim Fan所说
2024-09-21 09:45:00
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:
2024-12-11 20:12:00
\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答
2023-08-28 15:17:00
搜狐科技“实测”中外两款大模型:GPT-4写藏头诗失败,文心一言更懂中文?
...结果就已出现,更像是提前录制好的“DEMO”,而非现场实测。“不能说我们完全ready了,文心一言对标ChatGPT
2023-03-16 17:00:00
OpenAI「草莓」提前曝光?ChatGPT版搜索引擎惊现神秘模型
...同OpenAI「草莓」能力的模型?将Q*印在所有连帽衫上网友实测升级后的Perplexity Pro强大之处,就在于它可以通过逐步
2024-08-13 09:41:00
实测|携程大模型来了,旅游业求新迎拐点
...产业落地结合?能否成为升级旅游业“可靠答案库”?01实测:携程问道真实能力如何?产业场景是大模型最佳“练兵场”。有业内人士称,比起通用大模型,行业大模型需要针对具体场景,结合
2023-07-21 23:00:00
更多关于科技的资讯:
■李璐摘要:在高度不确定和动态变化的创新导向型项目中,传统以计划和控制为核心的项目管理模式面临显著挑战。灵活管理机制因其强调适应性
2026-02-27 04:54:00
胶东在线1月24日讯(通讯员 于江涛)1月24日,烟台市2026年度家电以旧换新、数码和智能产品购新补贴活动正式启动。截至目前
2026-02-27 04:03:00
纵览原创丨网传“相机涨价10倍”,石家庄太和电子城商户:“没感觉,相机价格比较平稳”
见习记者 袁欣悦近期,“6年前2459元买入如今涨到4048元”“CCD相机价格翻10倍”等信息频频进入大众视野,照相机被网友戏称为“电子黄金”
2026-02-26 20:34:00
中新经纬2月26日电 (袁媛)2026年被业内视为“智能体加速落地期”,人工智能正从单纯的对话工具走向能够自主执行任务的智能体系统
2026-02-26 21:31:00
江南时报讯 近日,工商银行徐州分行与特来电新能源股份有限公司举办“绿色出行,智联未来”充电生态共建项目启动暨经营家方案发布会
2026-02-26 21:39:00
手握7000万订单,济南起步区这家企业以4倍新产能满弓劲发赶交付
鲁网2月26日讯在济南起步区崔寨街道的绿能智造产业园,济南鼎点数控设备有限公司正以干劲“满格”的姿态,火热推进复工复产
2026-02-26 17:11:00
近日,湖北省洪湖市烟草专卖局围绕信息采集工作推出四项关键措施,全面提升数据的规范性与准确度。强化队伍建设,提升专业能力
2026-02-26 17:12:00
艺龙酒店科技马年新春业绩斐然,品质服务与生态赋能共启新程
2026年春节,得益于“史上最长春节”红利持续释放,国内文旅酒店行业迎来显著增长。经文化和旅游部数据中心测算,春节假日9天
2026-02-26 17:13:00
湖北洪湖烟草:立足实效提升营销服务效能
为切实提升客户服务质量与经营获得感,近期,湖北省洪湖市烟草专卖局(营销部)紧密围绕市场实际与客户需求,采取针对性举措,全力推动营销服务效能再上新台阶
2026-02-26 17:14:00
2026年第37届国际宝饰展近日圆满落幕,在这场汇聚全球顶尖珠宝力量的盛会中,MiNG名皇珠宝以老钱风雅致展位惊艳亮相
2026-02-26 17:12:00
近期,湖北省洪湖市烟草专卖局立足零售客户实际需求,精准把握经营难点,创新实施“四式”服务模式,有效提升了客户的满意度和获得感
2026-02-26 17:13:00
中企加速AI服务出海 蚂蚁数科在马来西亚设立运营枢纽中心
随着全球企业级AI市场爆发,中国AI科技公司正加速在海外市场布局。2月26日,据海外媒体报道,蚂蚁数科旗下旗舰AI产品ZOLOZ在马来西亚正式启动运营枢纽中心
2026-02-26 15:06:00
从“拼价格”到“拼价值”,欧图中国引领中国商家稳拓欧洲
拥有76年历史的德国欧图集团(OTTO Group),是集国际化、多元化、创新性于一身的大型电子商务解决方案提供商及零售集团
2026-02-26 15:21:00
Sensor Tower 2025年最佳图像与视频编辑应用:美图秀秀
2月26日,全球移动应用数据平台Sensor Tower揭晓了APAC Awards 2025年度获奖名单,美图秀秀(Meitu)凭借在AI视觉领域的创新表现
2026-02-26 15:22:00
2026深圳家纺家居展3月启幕 构筑家居产业新高地
2026(春)深圳国际家纺布艺暨家居装饰展览会暨家居中国(深圳)创意设计周将于3月7日—10日在深圳福田会展中心盛大举办
2026-02-26 16:08:00