数学题,上海,实验室,实验,数学,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

上海AI实验室版o1已上线！数学题、Leetcode全拿下，

国产o1新选手登场！它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker，刚刚正式开放试用！新模型不仅在长思维能力方面有了很大提升，而且还能在推理过程...……更多

2024-11-29 09:27:00数学题,上海,实验室,实验,数学,模型

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...qizhixin.com；zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

9.11大还是9.9大？为什么一道小学数学题难倒了大多数A

9.11和9.9哪个更大？一道小学生都会的数学题，却难倒了一众AI大模型。昨天，“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题，其实来自于最近热播的《歌手》。7月13日，在最新一期《歌...……更多

2024-07-18 08:31:00数学题,一道,数学,还是,小学,模型

大模型“翻车”小学题？

13.11和13.8谁大？——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉，孙楠以13.8%的投票率位居第三，Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多

2024-07-18 16:39:00模型,小学,模型,小数,记者,南都

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

AI时代原住民：AI是一种思维方式

...决问题的趁手工具，更是一种思维方式。做AI项目就像解数学题“滴嘟滴嘟”，火警警报响起，电动自行车棚着火了。只见一个扇形避火罩迅速展开，隔绝火势蔓延，车棚顶端喷淋器开始喷水，一场火灾消弭于无形。这是北京市...……更多

2024-01-25 17:06:00原住民,思维,方式,时代,人工智能,问题

大语言模型逻辑推理“很糟糕”

...靠性就尤为重要。”她描述道，大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么？答案往往与基于逻辑和概率的推理脱节。例如，在盒子测试中，“克劳德2”有一半次数能给...……更多

2024-06-12 18:15:00逻辑推理,推理,逻辑,模型,语言,模型

清华提出CharacterGLM；DeepMind联创发全新

...微信公众号）《大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集，由微软、UCLA和UW联合开发，包含6141个数学问题，涵盖丰富的任务类型...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

全球第12！17岁中专女生击败一众名校大学生，闯入阿里数赛决

...的，对我的喜怒哀乐有很大的影响。我要是做不出来一道数学题，每当我躺在床上眼睛一闭的话，它就会在我脑子里反复地出现。然后我就百思不得其解，脑海中就会想这题的思路。然后第二天的话，如果还是没有解决的时候，...……更多

2024-06-14 09:27:00阿里,名校,中专,决赛,女生,大学生

上海张江数学研究院成立

...院将采用全新的管理考评机制，以应用基础方向为主形成实验室，以项目牵引为主组成交叉队伍，围绕具体任务开展长期攻关。目前研究院下设数据仿真实验室、数据聚变实验室、生物医药实验室和智能超算实验室。在成立仪式...……更多

2023-12-20 06:06:00张江,上海,研究院,数学,研究,张江

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

...题解决。OpenAI 2021 年提出的 GSM8K（Grade School Math 8K）小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题，适合使用思维链（CoT）提示等技术，但它只提供了一个固定问题集...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

数学不太好的文科生

...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高,很多小学奥数题可能就解不出来。”GPT-4为何是“数学不太好的文科生”?他解释说,和图像分析能力一样,它...……更多

2023-03-16 09:23:00文科生,文科,数学,赵海,模型,能力

AI表现直逼国际奥数优秀选手，它要 “征服”数学了吗？

...匹克（IMO）中的复杂几何问题。解答国际数学奥林匹克的数学题，需要强大的头脑创造力，而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后，在逻辑检查系统的加持下，其几何学的解题表现几乎与最...……更多

2024-06-14 11:54:00奥数,选手,数学,国际,数学,数学家

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...中的表现大幅提升，代码能力也有质的飞跃。△72B模型做数学题在复杂语义理解上，72B的能力也提高了不少，比如，现在就能够听懂中文里的“潜台词”了：△72B模型理解“职场之道”当前，国内外大模型都分为闭源和开源两...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

首个AI高考全卷评测结果发布：最高分303，数学全不及格

...大模型的智能水平。在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日， OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为...……更多

2024-06-24 09:22:00评测结果,最高分,评测,数学,高考,结果

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...学辅导。图 | 赵子龙（来源：赵子龙）用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时，已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

上海人工智能实验室公布首个ai高考全卷评测结果

6月20日消息，上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍，2024年全国高考甫一结束，该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷...……更多

2024-06-20 10:19:00评测结果,人工智能,上海,人工,实验室,评测

别被火爆全网的ChatGPT“骗了”

...即兴创作”《观沧海》。/ 深燃截图而让ChatGPT做一道小学数学题，它看似写出了一长串计算过程，给出的却是错误答案。ChatGPT对于部分题无法给出正确答案。/ 深燃截图深度体验后会发现，ChatGPT对于一些文化常识问题、数学计...……更多

2022-12-10 12:56:00全网,火爆

56年无人解开的数学难题被谷歌的新AI突破了

去年，AI 能解出博士级别的数学题，已是轰动一时的大新闻；而今年，能攻克「未解之谜」级别的数学难题的 AI 已经来了。5 月 15 日，Google DeepMind 发布了全新编程智能体 AlphaEvolve。不同于传统的编程 Agent，它专注于通用算法的...……更多

2025-05-15 23:16:00难题,突破,数学,算法,程序,问题

首个AI高考全卷评测结果发布：数学全都不及格

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

打乱/跳过Transformer层会怎样？最新研究揭开其信息

...准：ARC（科学考试问题）、HellaSwag（常识问题）、GSM8K（数学题），WinoGrande（常识推理）、LAMBADA（词汇预测）。其中LAMBADA用于测困惑度，与训练期间使用的原始token预测最接近。对于Llama2的性能评估，提供了基准测试的标准化...……更多

2024-07-27 09:29:00流动,机制,研究,信息,中间层,顺序

商汤科技发布日日新5.0大模型

...语言模型的短板，GPT-3.5发布后，也被指出过做不了简单数学题。记者在现场“调取”了一页数学题，要求“商量”解答其中一道“判断题：求商的近似值时，要保留三位小数，就要除到商的百分位。”“商量”给出的答案为：...……更多

2024-04-29 04:36:00商汤,模型,科技,商汤,能力,模型

Llama版o1来了，来自上海AI Lab，强化学习代码已开

...SimpleBerry有关的账号和官网中，只能看出性质是一个研究实验室，也并未透露更多研究方向信息。其他o1复刻项目进展除LLaMA-O1之外，另一个公开进展的o1复刻项目O1-Journey来自上交大团队。团队在十月初发布了第一份进展报告，其...……更多

2024-11-06 09:49:00上海,代码,学习,训练,模型,蒙特卡洛

关于OpenAI神秘项目“Q*”的N个猜想

...，Q*除了能合成数据，更本质的，可能是对一些有难度的数学题、逻辑题做了重新采集、标注。或在之前基础上，或没有用transformer方式，而是直接输入所有东西再输出，且加了一个值的评估。他认为，基于类似某种价值评估和...……更多

2023-11-27 12:09:00猜想,项目,人类,数据,就是,意识

杭州男生董镇宇进国家队！幼儿园开始接触数学，小学直接跳级，曾

...就连我们全家开车出去玩，路上他也会央求我们多出几道数学题，让他做一做。”镇宇小学进入崇文实验学校后，家里在学校附近租了房，离杭州图书馆很近，周末母子俩经常泡在图书馆。镇宇很喜欢看书，妈妈就买了李毓佩数...……更多

2025-03-30 14:08:00奥数,杭州,国家队,幼儿园,幼儿,接触

共同的理想共同的事业（新时代画卷）

...少喋喋不休地严格管教，“高中时，有一次我问父亲一道数学题，他却说，‘你要靠自己解决问题，这样才更有价值。’”田中群说，从此他逐渐养成了独立思考、刻苦钻研的习惯。曾经有人对田中群说：“你可能永远无法摆脱...……更多

2023-01-09 04:51:00画卷,新时代,理想,事业,田中,曾溢滔

小米手机的这些隐藏功能，你都了解吗？

...到陌生，当我们在日常生活中遇到一些用心算解决不了的数学题时，很多小伙伴就会打开小米手机计算器帮我们进行数学运算。不仅可以运算数学题，小米计算器还可以帮我们计算亲戚称呼、单位换算、计算税贷等等，而且我们...……更多

2022-12-15 09:05:00小米,功能,手机

人工智能已经可以解决复杂的数学问题了，还有哪些工作无法被取代

...。在简短的训练之后，Codex给出了来自高中比赛的近4000道数学题目的自然语言陈述。起初，Codex准确率略低于30%。当它失败时，它创造了一些术语来填补翻译词典的空白。在此研究之前，Codex从未尝试在自然语言和形式数学代码...……更多

2023-02-24 18:22:00人工智能,人工,数学,智能,问题,工作

学生的三次“拷问”让为师者自省

...且能写合格的学生较少。坊间戏言，“化学烦，物理难，数学题做不完”，但对学生来讲，他们却在摆平“烦”、征服“难”、努力做完的过程中体会到一种做理科题成功后的喜悦。而对语文，学生的态度却是“怕”，学生中有...……更多

2023-11-03 06:30:00师者,拷问,学生,学生,语文,学习

对标o1，Kimi放出了最能打的国产模型

...的 o1 完全版的 94.8 分。而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。常规模型的关键目标是尽快提供答案。与之不同，在做题过程中，k0-math...……更多

2024-11-19 09:50:00模型,国产,模型,推理,能力,数学

page 1/3000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：

与百姓同呼吸，伴企业共生长丨建行青岛市分行：书写服务青岛高质

鲁网9月28日讯金融是经济的血脉，更是百姓生活的依托。在中国经济迈向高质量发展的今天，中国建设银行青岛市分行以国有大行的责任与担当

2025-09-28 10:37:00

“铁疙瘩”怎样变成“金娃娃”（九）｜一根轴承钢转动全球

五年连获七家世界知名轴承制造企业认证一根轴承钢转动全球——“铁疙瘩”怎样变成“金娃娃”（九）前不久，河钢集团石钢公司收到日本某国际知名轴承企业高碳铬轴承钢的认证邮件

2025-09-28 08:04:00

超31亿元新一代工业软件基地项目开工

锚定新赛道壮大新动能超31亿元新一代工业软件基地项目开工南报网讯（记者刘安琪）项目兴则产业兴，项目强则经济强。9月26日上午

2025-09-28 07:43:00