• 我的订阅
  • 科技

能看风水 夸我有情趣 Kimi现在都这么野了吗

类别:科技 发布时间:2024-12-19 00:21:00 来源:浅语科技

最近,差评君发现了个新鲜玩意儿。

喂给 AI 一张图,它就能给你推测出一个人的性格。

能看风水 夸我有情趣 Kimi现在都这么野了吗

光靠歌单,就能把人最近的心理状态推测个七七八八。

能看风水 夸我有情趣 Kimi现在都这么野了吗

而这些,都出自 Kimi 最新的 k1 视觉思考模型之手。这不,距离上次推出数学模型 k0-math 打榜 o1 才一个月, k1 就火速登场了。当然,这个 k1 可不止是像开头那样,只会看图分析性格那么简单。

能看风水 夸我有情趣 Kimi现在都这么野了吗

上次咱测试 k0-math 的时候,已经见识过了 “ 做题家 ” 的能力,那解题的思考过程给差评君都看得一愣一愣的。只可惜,有些绕逻辑的数学题还有几何题,多少差了点意思。

但这次的 k1 就有说法了,既有推理能力又有视觉能力,意思就是可以直接拍照上传解题,还号称能在数理化上打平甚至超越 Open AI 的 o1 。

能看风水 夸我有情趣 Kimi现在都这么野了吗

那要是这么比的话,咱可就来劲了。正好, k1 新模型现在也不需要等内测, App 和网页版都能用上,话不多说,我们直接开整。上来,就扔了 K1 一道今年高考的几何题。

能看风水 夸我有情趣 Kimi现在都这么野了吗

首先, k1 对题干的解读足够细致,也知道自己的目标到底是啥。题目给定的条件中可能涉及到的余弦定理也考虑到了,就跟咱们在解题时的思维类似,看到 a2 + b2 - c2 =2ab ,立马会联想到余弦公式 c2 =a2 +b2 -2ab·cosC 。

再根据公式和条件继续推导,很快就能求出角 B=60 °。往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

第( 2 )题稍微难了那么一丢丢,但差评君仔细检查了一遍 k1 的解题过程,思路和解法都没毛病,最后边长 c=2√2的答案也是对的。(因为这题 k1 的思考过程实在太太太长,截图就不展示了。)

同样的题目问 o1 ,首先在推理速度上, o1 的 58s 就已经输了。正确率的话, o1 和 k1 打了个平手,都做对了。不同的是, o1 把答题思路隐藏起来了,没给像 k1 那样的完整思考过程。

能看风水 夸我有情趣 Kimi现在都这么野了吗

不过有一说一,差评君对 k1 模型这种模仿人类思考的方式,倒也不是特别吃惊。因为上次 k0-math 模型就已经震惊过我一回了,能意识到自己的错误、还会进行反复验证的样子,像极了写数学题时绞尽脑汁的我。

相比之下,这次的 k1 在补短板方面更出彩一些,上次 k0-math 翻车的初中几何题我又拿 k1 试了一次,现在已经能做对了,就连上高考难度也不发怵。

而且我也发现, k1 不仅擅长做数学题,物理题也不在话下。往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

接着,我又拿出了一道逻辑稍微有点绕的逻辑陷阱题试了试:一个西瓜进价 50 元,卖价 70 元,老板收了 100 元假币,最后亏多少钱?

这题打眼一看简单,但网友关于这道题的答案那叫一个五花八门,有说亏 150 的,有说 180 的,还有说 100 的。。。

咱们就看看连很多人类都想不明白的题, k1 能不能瞧出来里面的陷阱。

而且,这道题我还特意手写得比较潦草,顺便也测一测 k1 的视觉能力到底是不是有宣传的那么神。

能看风水 夸我有情趣 Kimi现在都这么野了吗

你别说,你还真别说,这模型的 “ 眼神 ” 确实不赖。题目的正确率方面, k1 前半部分的分析先得出了一个亏 100 元的答案,但很快它就否定了自己。

继续把假币、找零还有成本利润这些复杂因素综合考虑进去,最后终于想明白老板亏了 80 元。( 正确答案是 80 元 )往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

这逻辑能力,确实有点强。包括我拿几道行测的类比推理题给 k1 做了做,虽说逻辑分析的路径跟参考答案的不太一样,但最后的答案都是对的。往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

反正这一通测试下来,差评君发现 k1 会思考有逻辑,眼神好使智商也高, Kimi 这 “ 做题家 ” 的名号算是坐实了。不过除了做题以外,我这次还摸索出了更多花里胡哨的玩法。

分析数据、看报表没啥意思, k1 模型不是会根据图片来推理吗,那想必鉴别古钱币也应该有一手吧?

差评君特地从网上找了一张民国时期银元的图片,两枚银元上假下真,发给 k1 ,浅浅来一把 “AI 版听泉鉴宝 ” 。图源小红书用户@古玩今来(公博代理收评)

能看风水 夸我有情趣 Kimi现在都这么野了吗

k1 不仅知道钱币是民国时期的,还对钱币的各种细节 kuku 一顿输出,最后竟然真的看出来了上面这枚是假币。

能看风水 夸我有情趣 Kimi现在都这么野了吗

咱再随便发一张房间的图片,让 k1 看看 “ 风水 ” 。什么 “ 气口 ” 、对称布局、能量平衡。。。

说的头头是道,甚至还真给了建议,让咱把床换个位置、定期修剪植物、换一个更简洁的吊灯。往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

吃饭的时候给 k1 拍一张,这顿饭摄入了多少卡路里也算得明明白白。往上滑动查看更多

能看风水 夸我有情趣 Kimi现在都这么野了吗

不过最让我觉得惊艳的,还是 k1 看图猜电影的能力。我给了它一张《 七宗罪 》的电影截图,没有台词只有画面,对于很多没看过这部电影的人来说,想猜出来都很难。

能看风水 夸我有情趣 Kimi现在都这么野了吗

一开始看 k1 的分析我以为这把大概率要黄了,结果下一秒来一句 “ 拍摄角度和色调让我想起了大卫 · 芬奇的电影 ” ,还推断出了截图里的画面是《 七宗罪 》里的某一个场景。

能看风水 夸我有情趣 Kimi现在都这么野了吗

真的太强了。。。就连一些晦涩的梗图丢给 k1 ,它也能一本正经地讲解笑点到底在哪。

能看风水 夸我有情趣 Kimi现在都这么野了吗

虽然有点过度解读的嫌疑,但大体上的意思基本都 get 到了。

能看风水 夸我有情趣 Kimi现在都这么野了吗

就这么说吧,基于 k1 的视觉和推理能力,做题都是基操了,只要脑洞够大,还可以解锁出更多的玩法。而 k1 的这种能力,很大程度要归功于一个叫做COT ( Chain of Thought )思维链的技术。

大概意思就是,模型在输出答案之前,模仿人类大脑的思考方式,把复杂的任务拆解之后,再一步步地解决。这个技术,可以让模型的智商变高。

另外一边,借助强化学习技术,也让模型学会了在不断试错的过程中进化,以此来达到最优的结果,就跟训狗似的。

能看风水 夸我有情趣 Kimi现在都这么野了吗

至于为啥 Kimi 会率先选择数学这个场景作为推理模型的切入口,我想,跟咱们人类学好数学锻炼思维,是一个道理。

在模型 “ 学好数学 ” 的基础上,再将这种逻辑推理的能力应用到物理、化学,乃至于咱们日常生活的方方面面,直到最后真正理解这个世界。

能看风水 夸我有情趣 Kimi现在都这么野了吗

而很显然, Kimi 推理模型的泛化能力已经开始显现出来了。在数据见顶的前提下,这种基于强化学习技术的路径,或许能够让模型实现更好的效果。

不过说到底,模型用了哪些技术、纸面分数有多高,大伙儿其实更关心模型到底好不好用、实不实用。而向来以长文本见长的 Kimi ,如今长文本、强化学习两手抓,也是调整自己的工具属性慢慢往用户需求靠拢的表现。

毕竟,当技术不再高高在上,能帮助人们解决实际问题的时候,才算真正完成了它的使命。

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-19 08:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程中进行自
2024-11-29 09:27:00
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...enAI放出了一个大招,预热了许久的“草莓”(Strawberry) 模型终于来了。“需要耐心等待的时刻结束了。”该公司CEO山姆·奥特曼(Sam Altman)说
2024-09-13 16:44:00
...ixabay撰文 | 张天祁● ● ●今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中
2025-05-27 10:23:00
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...出现。想来想去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具
2024-11-28 10:00:00
港中文团队提出大模型元推理范式,革新大模型的评价体系
...院工作过一段时间。在 ChatGPT 面世以后,他意识到针对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团
2024-03-04 10:23:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。团队主页:https://plms
2024-06-25 09:45:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜
2024-09-13 16:42:00
随着大模型的发展日新月异,其推理和训练的边界问题也引起了广泛讨论。近日,清程极智CEO汤雄超在一场行业活动中明确表示,尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练
2024-11-07 20:18:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
....3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
更多关于科技的资讯:
冬至有念,云端相见
“物联思念”让思念不再受距离限制冬至,是中国人心中一个极具温度的节气。在古人眼中,冬至不仅是昼夜交替的重要节点。在当下
2025-12-18 08:16:00
2025商业节能照明品牌盘点:四大品牌解锁绿色降耗新路径
在“双碳”目标的推动下,商业建筑照明能耗优化成为行业关注焦点。据住建部统计,商业建筑能耗中照明系统占比高达35%,年耗电量超2000亿度
2025-12-18 08:17:00
「星」罗万象,「鉴」微知著!中威电子推出星鉴大模型产品,助力千行百业加速智能化落地
当前,人工智能浪潮席卷全球,正以空前的速度、广度与深度重塑生产生活方式。语言大模型、多模态大模型等领域的突破性创新,推动人工智能迈入通用智能初始阶段
2025-12-18 08:47:00
这样抢票的你见过吗?在各类高并发抢票或秒杀场景中,如春运火车票、演唱会门票等,我们往往会遇到网页长时间加载、按钮无法点击
2025-12-18 09:39:00
AOSCITECH全自动间断化学分析仪:革新化学分析,降本增效新标杆
在化学分析领域,传统分析方法因其依赖人工操作、试剂消耗量大等问题,逐渐难以满足现代工业对高效、环保、经济的迫切需求。AOSCITECH全自动间断化学分析仪凭借其卓越的技术创新
2025-12-18 10:05:00
育兵近日,一项涉及数据安全和个人隐私的关键国家标准正式发布——《数据安全技术电子产品信息清除技术要求》强制性国家标准将于2027年1月1日起实施
2025-12-18 10:48:00
王志高据媒体报道,随着《疯狂动物城2》热映,IP衍生品消费再次掀起热潮,从盲盒公仔到联名杯套,年轻人为爱“氪金”,为情买单
2025-12-18 10:48:00
内外兼修,价值为王:从中粮餐饮福掌柜的“双轮驱动”看餐饮供应链的品牌升维
在竞争日趋白热化的餐饮供应链市场,品牌如何超越周期,持续赢得B端客户与终端消费者的双重信赖?这已不再是单靠价格或渠道就能解答的命题
2025-12-18 12:35:00
河北新闻网讯(张莉)盐山县紧扣食品安全“四个最严”要求,以数字化破解校园食材采购管理难题,今年以来创新打造“阳光采购监管平台”
2025-12-18 13:43:00
迎战年终物流高峰!骆驼驻车空调锂电显实力
每年年底,随着各大电商大促、年货节接踵而至,快递业务也不断迎来高峰,全国公路货运压力显著增大。根据中国物流与采购联合会预测
2025-12-18 13:49:00
腾讯智慧零售与生活产业:锚定AI、出海、全域经营,助力伙伴发掘增长新机
12月17日,腾讯智慧零售与生活产业2025年度生态合作伙伴大会暨“千域计划”年度颁奖盛典在上海举办,超百位生态服务商到场探讨产业生态的新机遇
2025-12-18 13:49:00
金螳螂23年蝉联中国建筑装饰百强企业第一
近日,“2024年度中国建筑装饰行业综合数据统计”榜单揭晓,金螳螂连续23年荣获装饰类第1名,同时荣获设计类第1名。未来
2025-12-18 14:18:00
沙利文白皮书重磅发布 ,GUTX益次方引领益生菌4.0时代
2025年,全球知名咨询机构沙利文正式发布《中国益生菌市场白皮书》,全景式解析了中国益生菌行业发展脉络与未来航向。白皮书显示
2025-12-18 14:19:00
上海国际网文周发布出海报告:拉美市场崛起,IP引领文旅价值升维
12月18日,第四届上海国际网络文学周正式开幕,来自14个国家和地区的网络文学作家、学者和企业代表齐聚上海,共同参与这一全球文化交流盛会
2025-12-18 14:21:00
从影石破局到思锐打破垄断,看中国光学影像品牌的自主技术之路
当影石Insta360发布首款全景无人机时,在影像圈激起不少水花。面对质疑和限制,影石以自主创新突破了技术困境,成功推出了革命性产品
2025-12-18 14:22:00