• 我的订阅
  • 头条热搜
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
大模型“翻车”小学题?
...和13.8谁大?9家大模型,3家已翻车7月16日下午,南都记者实测阿里通义千问、百度文心一言、智谱清言、腾讯元宝、科大讯飞星火、字节跳动豆包、学而思九章大模型、面壁智能Luca、月之暗面Kimi等9家国产大模型。当南都记者输...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...型的具体表现,量子位第一时间通过官方对话平台进行了实测。先来看最近比较流行的小数比大小问题,我们发现,Mistral Large 2能否答对很大程度上和提问方式有关。如果直接问8.9和8.11哪个大,很有可能获得一个错误答案,交...……更多
本文转自:劳动报商汤科技发布日日新5.0大模型五大产品全新亮相 局部能力赶超GPT-4本报讯(劳动报记者 陈宁)日前,在上海商汤临港AIDC举行的“2024年商汤技术交流日”活动现场,商汤发布行业首个“云、端、边”全栈大模...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
....9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。首先是目前全球...……更多
\
...大模型。MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答。在与GPT-4、文心一言的横向对比中,MathGPT在数学应用题能力上表现优于文心一言、不如GPT-4。作为垂直于教育...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...请来了两位国产AI友情参赛(kimi和文心一言)。o1满血版实测体验并非「无敌」o1模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:假设一个公司生产某种商品,生产成本与产...……更多
临沂方城小学参加“和美课堂”第二十届全国小学数学名师教学观摩研讨会
...要激活学生已有的生活经验,引领学生完整经历抽象数学模型的过程,在运用模型中培养学生的数学应用意识。罗鸣亮老师分享了指向核心素养的教学方式变革,储冬生老师分享了小学数学问题驱动式教学思考与探索,让此次活...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...然,Skywork o1 的成色如何,我们还是得看实战效果。一手实测这次 Skywork o1 彻底拿捏住了推理机器之心提前拿到了测试资格,对 Skywork o1 系列模型,尤其是 Lite 和 Preview 版本的推理能力进行了全方位的考察。下图为 Skywork o1 Lite ...……更多
“1024 直接对标 ChatGPT!”科大讯飞星火大模型立 Flag、一手实测来了
...知大模型来讲个英文的故事:直接翻译成中文试试:几次实测下来,讯飞星火认知大模型在不同语言的涌现能力表现都不错:继续续写一个故事:如果奥特曼出现在《西游记》故事中,会发生什么?结果显示,它对中国文化理解...……更多
圆周率计算:中国古代数学发展史上的明珠
...一”到歆率,不难看出当时人们对圆周率的计算还停留在实测中,缺少理论方面的计算。这一局面直到东汉时期数学家张衡的出现才被打破。张衡从圆与它的外切正方形关系入手计算圆周率。在《算罔论》和《灵宪》中都记载着...……更多
“最聪明人工智能”Grok 3竟答不出9.11和9.9哪个大?马斯克:会快速改进
... Grok 3 在数学、科学与编程的基准测试中超越了所有主流模型,并计划将其应用于 SpaceX 的火星任务计算,甚至预测未来三年内将实现诺贝尔奖级别的突破。发布会后,一些媒体测试了最新的Beta版Grok 3,并提出了那个经典的用来...……更多
奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...更显得“有理有据”了。新模型现身竞技场,网友第一波实测最早在昨天下午,有网友发现lmsys竞技场上多了个匿名新模型anonymous-chatbot。之前很多包括OpenAI在内很多科技公司都会发布前会进行一波测试。再加上它自称是GPT-4模型...……更多
...《角的认识》之前,让学生用牙签、小棒等材料制作角的模型,通过动手操作来体验角的特征。增加趣味性,符合儿童认知。设计作业时,教师应从学生的年龄特征出发,设计新颖有趣的数学作业,激发学生的学习兴趣。比如学...……更多
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...波,不知道大家如何顶住。耐心等待的时间里,我们先来实测一下。一手实测体验与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的...……更多
寻 “车轮” 之秘密,探 “数学” 之真谛 济微中学六年级项目化学习实践纪实
...齿轮)跟着链条转动,后车轮跟着后齿轮转动。3.估算与实测对比:我估计车轮滚动一周前进( )米,我是这样想的:(基于生活经验的直观判断)。实地测量车轮直径,计算周长:周长 = π× 直径 = ( )米(精确值)。学...……更多
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”
...在混元大模型发布后拿到内测资格,第一时间对其进行了实测。 能模仿鲁迅、林黛玉,生成代码显示错误据了解,腾讯混元大模型目前仅在微信小程序上线,在小程序搜索“腾讯混元助手”能够申请体验,也就是混元大模型的C...……更多
科大讯飞刘庆峰:讯飞星火大模型10月底整体赶超ChatGPT
...刘庆峰、研究院院长刘聪发布讯飞星火认知大模型,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。发布会现场,语音输入,实时互动,无论是文本生成、语言理解,还是知识问答、逻辑...……更多
...境呈现知识的探究过程,帮助学生突破学习难点,构建数学模型。而教学情境呈现的探究过程,我们可以借助信息技术的处理以及教学具的辅助,如小视频讲解、音频动画、故事图表、图形直观呈现等,让学生在老师创设的情境助力中,...……更多
多轮对话、逻辑和数学能力升级,讯飞星火大模型V1.5发布 | 科技前线
...”生态。发布会现场,总裁吴晓如、研究院院长刘聪真机实测,讯飞星火认知大模型可应对实时信息问答、复杂的逻辑推理问题,以及复杂的多轮对话任务。发布会上,讯飞星火APP和小程序发布,并推出纯语音对话、多模态输入...……更多
理想同学APP实测:真能帮奶爸辅导作业了
理想汽车的AI公司升维转型之旅,已经开始了。李想不仅做了一次长时间高密度的对外输出,而且更新了理想的发展图谱——最核心的就是要成为全球领先的人工智能公司。自动驾驶要搞,大模型要搞,具身智能机器人要搞,甚...……更多
潍坊市育才学校:凝心聚力展风采,共话教研促成长
...住行为主线,展开搭配问题的探究,明意义、找方法、建模型、巧应用、理思路,使学生形成问题形式的思维支架,有理有据的说出自己的想法,把生活问题数学化,把数学知识生活化。吉老师亲切的话语,轻松的课堂氛围,赢...……更多
真香!智谱大模型,有了首个免费的API
...高达 72.14 token/s,约等于每秒 115 个字符。GLM-4-Flash 模型实测GLM-4-Flash 模型已经在大量测试中展现了能力。 从模型界面来看,GLM-4-Flash 支持多轮对话、自定义系统指令构建(比如设定模型身份、任务目标)以及网页搜索、知识库...……更多
...们整理分析了近年来全世界碳排放的数据,并构建了函数模型,利用最小二乘法将过去几年二氧化碳含量变化趋势表达出来,同时预测未来变化趋势。”一名参观教师提示:“你们可以尝试用这个模型预测今年我们国家的碳达峰...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...模型上下文规模下一次跃升储备了充足“电力”。AIInfra实测实现40%训练成本下降李开复曾经表示,“做过大模型Infra的人比做算法的人才更稀缺”。超强的Infra能力是大模型研发的核心护城河之一。AIInfra(AIInfrastructure人工智能基...……更多
备战2024高考·名师指导丨今年海南高考物理如何复习备考?海中名师为您指点迷津
...,尤其不要做怪题,还是要巩固好基础知识,掌握好常见模型常规的分析方法。”他说。首先,有目的的回归课本。“回归课本是为了完善个人的知识体系。”符永龙表示,考生平时往往是在错题更正时、有知识遗忘时或者总结...……更多
顶流大模型应用!天工AI不炫技,实测真正的生产力工具
近日,OpenAI宣布,为了维护服务质量和安全性,7月9日起将采取额外措施来限制来自当前不支持的国家和地区的API流量,其中就包括中国。这意味着国内大量“套壳”大模型将无法使用,而自研大模型凸显价值。这无疑给国内的...……更多
谷歌版o1突发即屠榜!思考速度比所有模型快5倍,能解摩斯代码
...。 目前在谷歌AI Studio就可以免费使用。谷歌版o1第一波实测从众多网友实测中,主要分为两大“派系”,一种是纯文本型,另一种是视觉类谜题。最明显感知的就是一个快字。它还可以解决像抛硬币这样的概率问题:如果我一...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!几天...……更多
更多关于社会的资讯:
校运会上,大一女生连超4人将名次从倒数第二“跑”到第二
大皖新闻讯 近日,在邢台学院举办的2025年秋季运动会上,来自该校的学生罗若云,在4×400米接力赛落后的情况下,逆风翻盘
2025-10-28 11:04:00
通过独木桥快跑、跳箱连续跨越、单杠旋转……这些看似较有难度的动作,在一所农村幼儿园里却是孩子们的日常课程。近日,河南省商丘市睢阳区大吴庄村的一所幼儿园凭硬核体能课走红
2025-10-28 08:27:00
福建省首届“嘉庚杯” 书法作品展开幕 展览至11月23日
福建省首届“嘉庚杯”书法作品展在嘉庚故里集美开展。厦门网讯(厦门日报记者 应洁)作为“嘉庚精神宣传月”活动之一,近日,福建省首届“嘉庚杯”书法作品展在嘉庚故里集美开幕
2025-10-28 08:28:00
到医院不知道挂哪个科,或是对自己的病情说不清而挂错号、跑错科……这样的困惑和尴尬,相信不少人看病时都遇到过。但最近,来河北医科大学第三医院的患者发现这个事情有了新变化
2025-10-28 08:30:00
最近,“冰箱贴已经比冰箱贵了”的话题冲上热搜。网友们纷纷晒出图片,冰箱上数量众多的冰箱贴令人叹为观止。有人提到,家里额外购买了磁吸小黑板
2025-10-28 08:37:00
拼单划算?“互信交易”缺乏约束 “省钱搭子”易闹翻
制图/张平原厦门网讯(厦门日报记者 谭心怡)随着“双十一”临近,不少福建省内网友开始发帖“组队拼单”,从护肤品、口红到鞋子
2025-10-28 08:58:00
18楼生死1分钟!青岛西海岸第二医院急诊科护士陈慧芸徒手拽回轻生患者,这一拉守住了一个家!
鲁网10月28日讯深秋的夜晚,寒意渐浓,但总有一些温暖与勇敢的瞬间,能穿透黑暗,让生命重燃微光。“生死拉扯”间的医者仁心10月中旬的一个夜晚
2025-10-28 10:50:00
胶州孕27周产妇突发胎盘早剥来不及转运,NICU转运团队直奔当地医院产房抢救新生儿
鲁网10月28日讯日前,因胶州一名产妇孕27周突发胎盘早剥、来不及“宫内转运”,作为省、市两级危重新生儿救治中心及青岛市危重新生儿转运中心
2025-10-28 10:52:00
瑞虹新天地“引人入秀III”表演艺术节正式启幕,共筑全民表演艺术盛宴
瑞虹新天地将在10月25日至2026年1月3日期间,迎来第三届瑞虹新天地“引人入秀”表演艺术节的华彩启幕。本届艺术节将保留过往两届广受欢迎的“戏很足”
2025-10-28 10:20:00
官士墩中学“艺术小人才”选拔赛点亮学生潜能
荆楚网(湖北日报网)讯(记者林杉 通讯员杨仲頔 王云梦)为落实“双减”政策、推进素质教育并践行“五育并举”方针,10月16日
2025-10-28 10:14:00
0月27日,西部航空发布情况说明:10月27日,PN6333深圳-济南航班在地面登机阶段,一名旅客随身携带的充电宝突然出现冒烟情况
2025-10-28 09:26:00
200多位专家学者齐聚武昌理工学院 共探美术教育新路径
荆楚网(湖北日报网)讯(记者唐天琪 通讯员周黎、袁婷、陈亦菲)10月25日至26日,由世界华人美术教育协会与武昌理工学院联合主办的第十届世界华人美术教育大会在武昌理工学院举行
2025-10-28 10:14:00
华商网讯 10月27日,广东罗定市农业农村局发布情况通报:10月26日,罗定市有关部门接到群众举报,反映位于素龙街道的罗定市粤光肉联食品有限公司存在非法处置死猪的嫌疑
2025-10-28 07:27:00
□南京日报/紫金山新闻记者 余梦迪“接单咯!”清晨6时的南京,天刚蒙蒙亮,李云峰已擦净车身、检查完车况,手指在手机上轻点
2025-10-28 07:50:00
□南京日报/紫金山新闻记者孙秉印“小沙,拿两个肉包。”“验证成功,立减3元……”10月27日10时30分刚过,位于江宁区汤山街道汤泉东路的和善园包子店已经忙碌起来
2025-10-28 07:50:00