推理,新一代,模型,高考,模型,基准头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

阿里通义发布最新开源推理模型，称其性能比肩DeepSeek-R1。3月6日凌晨，阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B。据介绍，通过大规模强化学习，千问QwQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩De...……更多

2025-03-06 13:22:00阿里,推理,模型,性能,模型,通义

多样任务真实数据，大模型在线购物基准Shopping MML

...重量很轻等。如何准确理解不同商品隐含的知识并且进行推理，是在线购物领域的另一个独特挑战。异质且隐式的用户行为：在线购物平台上存在多种多样的用户行为，例如浏览、查询、加购物车、购买等。这些行为大部分都...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...息时可能出现的错误回答，以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水，但在进一步的推理中，部分模型并不能意识到其与头孢药物共用的潜在风险。图7 模型在涉及安全问题的推理中出现...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

商汤联合发布白皮书，首次提出新一代AI基础设施评估体系

...能算力产业联盟,人工智能算力产业生态联盟,联合发布《新一代人工智能基础设施白皮书》(以下简称《白皮书》)。《白皮书》不仅明确了“新一代AI基础设施”的定义、特点和价值,还首次提出“新一代AI基础设施评估体系”,为AI...……更多

2024-01-02 21:30:00商汤,白皮,白皮书,基础设施,新一代,评估

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...过专门优化，适配网页浏览和数据分析场景。它能够运用推理能力，在互联网上搜索、解读和分析海量的文本、图像和PDF文件，并能根据所遇到的信息灵活调整研究方向。值得注意的是，在对这个智能体的能力评测中，OpenAI特...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...较长的小说了。更重要的是，LLM真的能在这个长度上进行推理吗？近日，有两篇独立研究分别表明：长上下文水分很大！LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员，推出了一项针对性...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...：「算力这块，你可以用别的芯片，但是这些芯片用来做推理还 OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案，比如在同一个演讲中，李沐还提到了...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...共有8点：1 强化学习加持的o1，比人类更善于发现新的CoT推理步骤2 自我批评的涌现，是o1最强有力的时刻3 让o1「超时」前完成回答，然后突然有了「啊哈」时刻 4 scaling参数规模的挑战，以及继续沿着强化学习算法进步之路5 许...……更多

2024-09-23 09:50:00整版,金牌,团队,人类,时刻,视频

谷歌大模型推理范式，主要分为两个阶段

...新研究“自我发现”（Self-Discover），重新定义了大模型推理范式。与已成行业标准的思维链（CoT）相比，新方法不仅让模型在面对复杂任务时表现更佳，还把同等效果下的推理成本压缩至1/40。核心策略其实很简单：千人千面。...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

OpenAI升级o3-mini模型思维链：提升AI推理过程透

...更新o3-mini-high的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。OpenAI在去年12月发布了推理模型o3，该系列包含两个模型，即o3和o3-mini，前者是高性能推理模型，后者是更小的精简版模型，在保持智能...……更多

2025-02-07 10:14:00透明度,推理,模型,思维,过程,升级

Sam Altman或筹数十亿美元自造AI芯片，DeepMi

...重磅发布GLM-4全家桶，性能可达90% GPT-4智谱AI最近发布了新一代基座大模型GLM-4，这一模型在在多项性能指标上已接近或超过GPT-4，并在中文能力和长文本处理上展现出卓越的性能。GLM-4的推出标志着国产大模型在全球AI领域的重要...……更多

2024-01-29 09:20:00首席,科学家,芯片,创业,科学,模型

AGI一日要闻：台积电预测2040年GPU芯片性能提升100

...ium+ 订阅者推出了 Grok。如今，马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力，计划将在未来几天内向早期测试人员和 X 平台（前 Twitter）上的现有 Grok 用户提供。具体来说，首先，Grok-1.5 最明显的改...……更多

2024-03-31 04:00:00估值,美金,要闻,芯片,高达,性能

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...。谷歌表示，现有的人工智能模型通常只处理一种类型的推理，如图片或文本，而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入，组合文本、图像、音频、视频和编程代码。未来，谷歌还计划将 Gemini添...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

挑战Scaling Law，Meta发布移动端350M小模型

...做个假设，如果把GPT-4（大约有1万亿参数）以50tokens/s的推理速度部署在生活中，你需要什么样的硬件？答案是1亿个H100 GPU。别说是移动设备了，家里都放不下。那如果降低标准，用LLaMA-v2 7B这样的模型，再加上8-bit量化呢？简单...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

阿里推出全新推理模型：仅1/21参数媲美DeepSeek R

...况下，用强化学习实现了性能上的跨越。此外，阿里还在推理模型中集成了与Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。QwQ-32B 在一系列基准测试中进行了评估，测试了数学推...……更多

2025-03-06 07:42:00阿里,推理,模型,参数,全新,能力

腾讯最强！混元自研深度思考模型T1正式发布：吐字快、能秒回

...了自研深度思考模型混元T1正式版，这是腾讯自研的最强推理模型。腾讯表示，T1不仅吐字快、能秒回，还擅长超长文处理。通过大规模强化学习，并结合数学、逻辑推理、科学和代码等理科难题的专项优化，混元T1正式版进一步...……更多

2025-03-22 00:29:00腾讯,深度,模型,推理,腾讯,模型

奥特曼晒“草莓”引热议神秘新模型现身竞技场网友第一波实测

...文：i love summer in the garden。上个月OpenAI正好被曝正在开发新一代基础模型“草莓”，前身据说是之前神秘兮兮的Q*。不知是有意还是无意，但感觉就是有意，网友们就当奥特曼变相承认了。（Doge）这就是对草莓计划的引用！发布...……更多

2024-08-08 15:11:00奥特,奥特曼,一波,实测,竞技场,草莓

首个AI高考全卷评测结果发布：数学全都不及格

...三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

联发科天玑9400+拿下最强AI手机芯片：端侧推理准确率反超

...消息，今日，联发科举办天玑开发者大会2025，正式发布新一代旗舰芯片天玑9400+。天玑9400+定位旗舰5G智能体AI芯片，综合AI跑分是天玑9400的1.25倍，支持最高8B规模的DeepSeek-R1端测部署，推理准确率反超云端大模型。天玑9400+行业...……更多

2025-04-11 10:48:00联发,天玑,准确率,云端,推理,芯片

$IDC：中国大模型推理市场爆发，九章云极以\\\$

IDC：中国大模型推理市场爆发，九章云极以\"普惠算力\"领

...智能体开发、大模型训练推理、企业AI应用和科研创新的新一代智算基座。 ……更多

2025-08-08 20:05:00普惠,赛道,中国,推理,基础设施,模型

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...的任务对应套件，包含总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务，共18个子任务。其中，总结任务要求模型对视频中的关键事件、主要交互等进行概括性...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

高通：人工智能只是一个红利

...亚诺·阿蒙（Cristiano Amon）提出了以下观点：“设备上的新一代人工智能与云中的新一代人工智能并行发展，实现了全新的用例。它有可能改变我们与设备交互的方式，使用户体验更加自然、直观、相关和个性化。即时性、隐私...……更多

2024-01-28 18:00:00高通,人工智能,红利,人工,只是,智能

Hugging Face发布SmolVLM开源 AI 模型：

...lVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

谷歌发布 FACTS Grounding 基准，AI 大语言

...答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下：数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

优刻得助力智谱AI解锁智能生活

...智能生活新体验。近日，智谱AI发布认知智能大模型，其新一代基座大模型GLM-4性能大幅提升，逼近GPT-4，展现了业界领先的多模态大语言模型能力。据介绍，通过智谱大模型与优刻得算力的强强结合，GLM-4稳定、高效运行于云端...……更多

2024-02-29 22:25:00智能,生活,模型,推理,规模,能力

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...-preview和o1-mini模型已经可以使用。OpenAI宣布，“新模型在推理能力上代表了人工智能能力的新水平，因此，计数器将重置为1”。根据OpenAI的自测，o1在竞赛编程问题（Codeforces）中排名第89个百分点，在美国数学奥林匹克竞赛（AIM...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

OpenAI推迟上线语音功能，GPT-5或要等到明年，大模型

...语音功能是在5月的春节发布会上对外展示，当时发布的新一代大模型GPT-4o集文本音频视觉于一身，支持文本、音频和图像的任意组合作为输入和输出，被OpenAI称为“迈向更自然的人机交互的一步”。根据当时公布的基准测试，GP...……更多

2024-06-26 11:35:00语音,模型,速度,正在,功能,技术

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世

...。这一系列技术的驱动力，都来自联发科上个星期推出的新一代旗舰 5G 智慧体 AI 芯片天玑 9400。发布没多久，它就成为了 2024 年旗舰手机芯片的标杆，而且随着 vivo X200 系列手机的上市，马上就会与我们见面。在这块芯片的帮...……更多

2024-10-16 13:34:00天玑,全体,引擎,智能,手机,智能

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...用混合专家架构，超10TB tokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

page 4/1000 首页上一页 1 2 345 6 7 8 9 下一页末页

更多关于财经的资讯：

兴业银行济南分行极速响应房贷需求助力市民安居梦

“太感谢兴业银行济南分行了！帮我们解决了燃眉之急，让我们在济南打拼的打工人住进了自己的家！”收到贷款发放短信的张先生难掩激动

2025-12-09 11:54:00

落地首单“数知贷”！南京银行助力企业数据资产成功变现

江南时报讯近日，南京银行南京分行为南京凯奥思数据技术有限公司（以下简称凯奥思）成功办理全流程数据知识产权和数据资产质押融资业务

2025-12-09 12:38:00

蚂蚁集团在杭州成立云帆科技公司

近日，杭州蚂蚁云帆科技有限公司成立，注册资本1000万元，经营范围包含：计算机软硬件及辅助设备批发；计算机软硬件及辅助设备零售；信息技术咨询服务等。企查查股权穿透显示，该公司由蚂

2025-12-09 09:36:00

47只基金最新调研股12月涨逾3%

根据同花顺iFind统计，截至12月8日，12月以来基金公司已经调研137家公司。其中，47只被调研股12月涨幅超过3%。从二级市场来看，涨幅居前的股票集中在机械设备和电子行业。

2025-12-09 09:42:00

广联航空等成立防务科技公司，含AI及机器人业务

近日，哈船广联（哈尔滨）防务科技有限公司成立，注册资本1000万元，经营范围包含：智能机器人的研发；人工智能公共数据平台

2025-12-09 09:48:00

中国矿产资源集团成立国际铁矿石贸易公司，注册资本11亿元

近日，中国矿产资源集团国际铁矿石贸易有限公司成立，注册资本11亿元，经营范围包含：国内贸易代理；国际货物运输代理；国内货物运输代理；国际船舶代理等。企查查股权穿透显示，该公司由中

2025-12-09 10:00:00

杭州哪些板块的房子有长期价值潜力？

问：我想买一套住宅，从资产配置的角度，不求短期内大涨，相对保值就可以了。请问杭州哪些板块仍有长期价值潜力？答：回顾这几年

2025-12-09 10:21:00

2025年优秀体彩公益金资助项目媒体采风活动小彩票大担当

多彩贵州网讯（记者王静怡）毕节市七星关区碧海街道丁家寨社区，古窑遗址旁新建的陶艺工坊内传来阵阵欢声笑语。五年级学生李紫萱正专注地修整手中的陶杯泥坯

2025-12-09 10:48:00

2025年优秀体彩公益金资助项目媒体采风活动彩票公益金助力

多彩贵州网讯（记者王静怡）走进毕节市七星关区碧海街道西冲社区，平整宽敞的硬化路通组达户，清澈的沟渠沿村流淌，房前屋后花木掩映

2025-12-09 10:48:00

新华保险子公司投研发力！新华资产“战略新兴行业发展综合指数”

近日，由新华保险子公司——新华资产研究团队自研开发的“战略新兴行业发展综合指数”及其子指数在WIND平台正式发布。该指数以市场影响力

2025-12-09 10:48:00

中国信达、协鑫科技等新设智创企管合伙企业，出资额20亿

近日，芜湖协鑫智创企业管理合伙企业（有限合伙）成立，出资额20.64亿元，经营范围包含：企业管理；企业管理咨询。企查查股权穿透显示，该企业由中国信达（01359.HK）、协鑫科技

2025-12-09 09:48:00

飞荣达成立具身智能技术公司，含机器人业务

近日，重庆飞荣达具身智能技术有限公司成立，注册资本1亿元，经营范围包含：电子元器件制造；工业机器人制造；电子专用材料制造；智能机器人的研发等。企查查股权穿透显示，该公司由飞荣达（

2025-12-09 10:00:00

知宪明法，与宪同行——民生银行南京分行开展“宪法宣传周”宣教

江南时报讯 12月1日至7日期间，值全国第十二个“国家宪法日”和第八个“宪法宣传周”，根据中央宣传部、司法部、全国普法办及总行“宪法宣传周”工作要求

2025-12-08 11:23:00

工商银行常熟支行助力“昆承易融”投融资路演持续赋能科创企业

11月27日，由常熟高新区、常熟国家大学科技园主导，工商银行常熟支行（以下简称“常熟工行”）等单位联合承办的“昆承易融”投融资路演活动在常熟高新区举办

2025-12-08 11:25:00

阳光财险：创新科技保险方案，畅通“科技-产业-金融”良性循环

在“十五五”乃至更长时期内，科技创新是发展新质生产力的核心驱动。强化金融支撑，畅通科技、产业、金融循环，是服务现代化产业体系建设和新质生产力发展的内在要求

2025-12-08 11:49:00

头条订阅服务