• 我的订阅
  • 头条热搜
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。o3还在2024年美国AIME数学竞赛中取得了96.7%准确率的高分,只缺了一道题,并在GPQA Diamond(一套研究生水平的生物、物理和化学试题)...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...时间12月5日,OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了,只是那时候还叫o1-preview,仅开放了o1模型的部分功能,如今新版本去掉了preview,也意味着o1模型的满血版终于正式上线。图...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...推理能力:在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...跟o1的核心技术CoT非常相似。传统的Transformer模型的致命弱点,就是擅长并行计算,但不擅长串行推理。而CoT,恰恰解决了这个问题。在这项工作中,Denny Zhou等人发现:传统的Transformer模型,只能解决AC0电路能解决的问题;但一...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型,小竹财税AI将不断提升其逻辑推理和上下文理解能力,以更好地满足用户的需求,努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多
荣耀Magic V5发布,一文看懂YOYO到底有多强大
...息和自动执行任务方面表现出色,例如,MagicGUI模型操作准确率高达91.5%,MagicVL-Nano端侧模型可在保护用户隐私安全基础上实现低功耗图像理解;此外,荣耀构建的三款云端大语言模型,可实现个性化推理、精准理解用户意图;...……更多
夸克上线“AI解题大师” 用深度思考帮用户讲透难题、拓展思维
...。据悉,夸克“AI解题大师”基于自研的推理及多模态大模型,具备强大的深度思考能力,覆盖全学科、全学段的各类题目,尤其擅长解答逻辑推理类的理科题目。当用户切换“深度解题”模式后,它能够精准理解每一道题目的...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅...……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...6呈现了,新论文所提出的方法,在4个案例中实现了最高准确率。总之,作者提出一个LLM提取元认知知识框架,其形式是根据解决问题所需的概念,对数学数据集中的问题进行分类的技能。目前,新框架依赖于GPT-4等高级模型的...……更多
ChatGPT创业潮来了,我既兴奋又焦虑
...准确度上做了妥协,在知识跟推理里用了更模糊的方式,准确率远远不如搜索,能打6分;在时效性上,ChatGPT是0分,它的模型是以年为单位训练的,不适合处理有时效性的信息。所以ChatGPT是一个强适应性、弱准确度、弱时效性...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...rompt 设计、多模型的投票机制等手段,进一步提高了模型准确率和鲁棒性,最终以领先第二名将近 3 分的绝对优势排名第一。开源共享,引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多
ChatGPT大流行的思考-解析篇
...对话,这是为什么?可以从以下两个维度来解答:(1)模型的本质区别首先我们要了解的是chatGPT是采用了LLM模型构建的对话机器人(large Language Model);一般的语言模型处理任务的类型大致分为两种类型:中间任务及最终任务...……更多
华为NCE-数据通信领域总裁王辉:AI落地应用的新阶段
...这个0.01的误差是很难消除的,你认为如果想要真正使AI的准确率达到100%的话,行业还需要付出怎么样的努力?王辉:我个人认为,现在的数据可能还有很多水分,实际上达到99%也很难,达到90%以上,甚至95%以上是可接受的,因...……更多
AI如何落地智慧交通?网新IN-TRANS产品给你答案
...的公路数智管养“设备成本降低90%,识别效率提升480倍,准确率接近90%,助力河南省累计采集农路里程超过20万公里”网新道路事业部产品总监王中用一连串数字,证明了网新AI自动化巡检方案,依托多模态算法引擎,在道路病...……更多
又慢又贵?OpenAI推理模型“草莓”来了,GPT-5还有多远
...生行列,在物理、生物和化学问题(GPQA)基准测试中的准确率也超过了人类博士生水平。据介绍,类似于人类在回答一个难题前可能会思考很长时间,o1在尝试解决问题时也会使用一连串的思考。通过强化学习,o1可以学会磨练...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多
用AI自动设计智能体,数学提分25.9%,远超手工设计
...分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比,本文算法表现出色,这...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...的可靠性。以下是两个案例:- Phi-2对金融数据情绪分析准确率,从34%提高到85%。- 仅用100个示例,ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说,对于较小的初始精度(<50%),微调是一个巨大的障碍,需要用几...……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...问题,是否会导致其在行业应用面临较大的挑战?比如对准确率要求比较高的教育、医疗、金融等行业?赵东岩:是的,所以在这些关键领域,模型的对齐效果非常关键。实践中,可以通过多次校验,对齐,RAG来改善大模型的幻...……更多
从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?
...辑推理类和谜语类题目来比较腾讯元宝和GPT-4o回答问题的准确率和速度。记者观察到,尽管元宝和GPT-4o的正确率相同,正确率都是75%,但两者的答题风格各有千秋。GPT-4o以简洁、直接和结构化的方式呈现答案,使用数学公式清晰...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下,...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...于 Python、C++、J等多种语言。在HumanEval基准测试中,它的准确率为53% ,接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日,Mistral联合创始人兼CEO Arthur Mensch在X上表示,引发众多猜测的“miqu-1-70b”是……更多
...现了从“知道”到“懂得”的性能飞跃,在法律要件分析准确率、法律推理可解释性等关键指标上实现全面提升。 ……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但...……更多
海信星海大模型接入DeepSeek
...景做试点应用。以数据自动化标注为例,DeepSeek R1(32B)准确率相较其他同参数模型准率提升3%,准确率达到99.67%,从过去半自动化标注全面过渡到全自动化标注,人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...等,这样一来在各种具体下游任务下,实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力,由此...……更多
...跳声,与数据库中的海量数据进行比对,“它让基层筛查准确率提升60%、复杂先心病诊断准确率提升至95.3%。”舒强说。CHANGE是怎么诞生的?CHANGE大模型并非一蹴而就,它的背后,是浙江近30年新生儿救护经验的积累,以及救护...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...息,日前,国内人工智能公司月之暗面推出的Kimi国产大模型正式发布k0-math。k0-math是Kimi推出的首款推理能力强化模型,采用全新强化学习和思维链推理技术,通过模拟人脑的思考和反思过程,大幅提升解决数学难题的能力。据...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...消失。结果还表明,随着数据集大小的增加,模型的最终准确率会提高(在模型大小之间保持一致)。同样,作者观察到架构大小增加的总体趋势是无论数据集大小如何,整体性能都会提高。通过下表 2 可以得出以下几点:动作...……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00