推理,新一代,模型,高考,模型,基准头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

阿里通义发布最新开源推理模型，称其性能比肩DeepSeek-R1。3月6日凌晨，阿里巴巴正式发布最新的开源推理模型通义千问QwQ-32B。据介绍，通过大规模强化学习，千问QwQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩De...……更多

2025-03-06 13:22:00阿里,推理,模型,性能,模型,通义

多样任务真实数据，大模型在线购物基准Shopping MML

...重量很轻等。如何准确理解不同商品隐含的知识并且进行推理，是在线购物领域的另一个独特挑战。异质且隐式的用户行为：在线购物平台上存在多种多样的用户行为，例如浏览、查询、加购物车、购买等。这些行为大部分都...……更多

2024-11-21 09:45:00在线购物,基准,模型,任务,购物,数据

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...息时可能出现的错误回答，以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水，但在进一步的推理中，部分模型并不能意识到其与头孢药物共用的潜在风险。图7 模型在涉及安全问题的推理中出现...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

商汤联合发布白皮书，首次提出新一代AI基础设施评估体系

...能算力产业联盟,人工智能算力产业生态联盟,联合发布《新一代人工智能基础设施白皮书》(以下简称《白皮书》)。《白皮书》不仅明确了“新一代AI基础设施”的定义、特点和价值,还首次提出“新一代AI基础设施评估体系”,为AI...……更多

2024-01-02 21:30:00商汤,白皮,白皮书,基础设施,新一代,评估

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...过专门优化，适配网页浏览和数据分析场景。它能够运用推理能力，在互联网上搜索、解读和分析海量的文本、图像和PDF文件，并能根据所遇到的信息灵活调整研究方向。值得注意的是，在对这个智能体的能力评测中，OpenAI特...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...较长的小说了。更重要的是，LLM真的能在这个长度上进行推理吗？近日，有两篇独立研究分别表明：长上下文水分很大！LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员，推出了一项针对性...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...：「算力这块，你可以用别的芯片，但是这些芯片用来做推理还 OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。」但基于实证的对比研究却往往又会给出不一样的答案，比如在同一个演讲中，李沐还提到了...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...共有8点：1 强化学习加持的o1，比人类更善于发现新的CoT推理步骤2 自我批评的涌现，是o1最强有力的时刻3 让o1「超时」前完成回答，然后突然有了「啊哈」时刻 4 scaling参数规模的挑战，以及继续沿着强化学习算法进步之路5 许...……更多

2024-09-23 09:50:00整版,金牌,团队,人类,时刻,视频

谷歌大模型推理范式，主要分为两个阶段

...新研究“自我发现”（Self-Discover），重新定义了大模型推理范式。与已成行业标准的思维链（CoT）相比，新方法不仅让模型在面对复杂任务时表现更佳，还把同等效果下的推理成本压缩至1/40。核心策略其实很简单：千人千面。...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

OpenAI升级o3-mini模型思维链：提升AI推理过程透

...更新o3-mini-high的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。OpenAI在去年12月发布了推理模型o3，该系列包含两个模型，即o3和o3-mini，前者是高性能推理模型，后者是更小的精简版模型，在保持智能...……更多

2025-02-07 10:14:00透明度,推理,模型,思维,过程,升级

Sam Altman或筹数十亿美元自造AI芯片，DeepMi

...重磅发布GLM-4全家桶，性能可达90% GPT-4智谱AI最近发布了新一代基座大模型GLM-4，这一模型在在多项性能指标上已接近或超过GPT-4，并在中文能力和长文本处理上展现出卓越的性能。GLM-4的推出标志着国产大模型在全球AI领域的重要...……更多

2024-01-29 09:20:00首席,科学家,芯片,创业,科学,模型

AGI一日要闻：台积电预测2040年GPU芯片性能提升100

...ium+ 订阅者推出了 Grok。如今，马斯克更新到Grok 1.5模型。新一代模型实现了长上下文理解和高级推理能力，计划将在未来几天内向早期测试人员和 X 平台（前 Twitter）上的现有 Grok 用户提供。具体来说，首先，Grok-1.5 最明显的改...……更多

2024-03-31 04:00:00估值,美金,要闻,芯片,高达,性能

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...。谷歌表示，现有的人工智能模型通常只处理一种类型的推理，如图片或文本，而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入，组合文本、图像、音频、视频和编程代码。未来，谷歌还计划将 Gemini添...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

挑战Scaling Law，Meta发布移动端350M小模型

...做个假设，如果把GPT-4（大约有1万亿参数）以50tokens/s的推理速度部署在生活中，你需要什么样的硬件？答案是1亿个H100 GPU。别说是移动设备了，家里都放不下。那如果降低标准，用LLaMA-v2 7B这样的模型，再加上8-bit量化呢？简单...……更多

2024-07-23 09:39:00模型,性能,移动,模型,参数,架构

阿里推出全新推理模型：仅1/21参数媲美DeepSeek R

...况下，用强化学习实现了性能上的跨越。此外，阿里还在推理模型中集成了与Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。QwQ-32B 在一系列基准测试中进行了评估，测试了数学推...……更多

2025-03-06 07:42:00阿里,推理,模型,参数,全新,能力

腾讯最强！混元自研深度思考模型T1正式发布：吐字快、能秒回

...了自研深度思考模型混元T1正式版，这是腾讯自研的最强推理模型。腾讯表示，T1不仅吐字快、能秒回，还擅长超长文处理。通过大规模强化学习，并结合数学、逻辑推理、科学和代码等理科难题的专项优化，混元T1正式版进一步...……更多

2025-03-22 00:29:00腾讯,深度,模型,推理,腾讯,模型

奥特曼晒“草莓”引热议神秘新模型现身竞技场网友第一波实测

...文：i love summer in the garden。上个月OpenAI正好被曝正在开发新一代基础模型“草莓”，前身据说是之前神秘兮兮的Q*。不知是有意还是无意，但感觉就是有意，网友们就当奥特曼变相承认了。（Doge）这就是对草莓计划的引用！发布...……更多

2024-08-08 15:11:00奥特,奥特曼,一波,实测,竞技场,草莓

首个AI高考全卷评测结果发布：数学全都不及格

...三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

联发科天玑9400+拿下最强AI手机芯片：端侧推理准确率反超

...消息，今日，联发科举办天玑开发者大会2025，正式发布新一代旗舰芯片天玑9400+。天玑9400+定位旗舰5G智能体AI芯片，综合AI跑分是天玑9400的1.25倍，支持最高8B规模的DeepSeek-R1端测部署，推理准确率反超云端大模型。天玑9400+行业...……更多

2025-04-11 10:48:00联发,天玑,准确率,云端,推理,芯片

$IDC：中国大模型推理市场爆发，九章云极以\\\$

IDC：中国大模型推理市场爆发，九章云极以\"普惠算力\"领

...智能体开发、大模型训练推理、企业AI应用和科研创新的新一代智算基座。 ……更多

2025-08-08 20:05:00普惠,赛道,中国,推理,基础设施,模型

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...的任务对应套件，包含总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务，共18个子任务。其中，总结任务要求模型对视频中的关键事件、主要交互等进行概括性...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

高通：人工智能只是一个红利

...亚诺·阿蒙（Cristiano Amon）提出了以下观点：“设备上的新一代人工智能与云中的新一代人工智能并行发展，实现了全新的用例。它有可能改变我们与设备交互的方式，使用户体验更加自然、直观、相关和个性化。即时性、隐私...……更多

2024-01-28 18:00:00高通,人工智能,红利,人工,只是,智能

Hugging Face发布SmolVLM开源 AI 模型：

...lVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

谷歌发布 FACTS Grounding 基准，AI 大语言

...答生成和改写等任务，但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下：数据集分为 860 个“公共”示例和 859 个“私有”示例，目前已发布公共数据集供评估使用，私有数据集用于排行榜评分，以防止基...……更多

2024-12-19 09:32:00照妖镜,基准,幻觉,模型,语言,示例

优刻得助力智谱AI解锁智能生活

...智能生活新体验。近日，智谱AI发布认知智能大模型，其新一代基座大模型GLM-4性能大幅提升，逼近GPT-4，展现了业界领先的多模态大语言模型能力。据介绍，通过智谱大模型与优刻得算力的强强结合，GLM-4稳定、高效运行于云端...……更多

2024-02-29 22:25:00智能,生活,模型,推理,规模,能力

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...-preview和o1-mini模型已经可以使用。OpenAI宣布，“新模型在推理能力上代表了人工智能能力的新水平，因此，计数器将重置为1”。根据OpenAI的自测，o1在竞赛编程问题（Codeforces）中排名第89个百分点，在美国数学奥林匹克竞赛（AIM...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

OpenAI推迟上线语音功能，GPT-5或要等到明年，大模型

...语音功能是在5月的春节发布会上对外展示，当时发布的新一代大模型GPT-4o集文本音频视觉于一身，支持文本、音频和图像的任意组合作为输入和输出，被OpenAI称为“迈向更自然的人机交互的一步”。根据当时公布的基准测试，GP...……更多

2024-06-26 11:35:00语音,模型,速度,正在,功能,技术

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世

...。这一系列技术的驱动力，都来自联发科上个星期推出的新一代旗舰 5G 智慧体 AI 芯片天玑 9400。发布没多久，它就成为了 2024 年旗舰手机芯片的标杆，而且随着 vivo X200 系列手机的上市，马上就会与我们见面。在这块芯片的帮...……更多

2024-10-16 13:34:00天玑,全体,引擎,智能,手机,智能

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...用混合专家架构，超10TB tokens训练，覆盖大量合成数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

page 4/1000 首页上一页 1 2 345 6 7 8 9 下一页末页

更多关于财经的资讯：

邮储银行黔西南州分行积极推进储蓄国债服务示范点建设

此前，在人民银行黔西南州分行指导与支持下，邮储银行黔西南州分行积极推进储蓄国债服务示范点建设，于10月30日实现全州县域全覆盖目标

2025-12-03 14:46:00

· 人气爆棚的雪假，点燃了怎样的冰雪经济？

继“春秋假”之后，冬季的“雪假”开始了。今年12月3日至7日是吉林省义务教育阶段学生的专属冰雪假期。假期期间，全省义务教育学校学生全员放假

2025-12-04 08:10:00

党建联建聚合力金融协同促发展

11月14日，邮储银行贵州省分行迎来了一场别开生面的“机关+国企+非公”金融支部联学联建活动。省委金融办党建工作处、贵州银行贵阳会展城支行

2025-12-03 14:46:00

客户受托资金从20万元增长至超700万元，邮储银行财富管理的

近年来，邮储银行黔南州分行不断深耕专业综合服务，始终专注于为客户提供全方位、个性化的综合金融服务。针对每位客户不同的财务状况

2025-12-03 14:46:00

邮储银行黔东南州分行首笔“脱核产业链”贷款落地

近日，邮储银行黔东南州分行成功为当地一家小微企业发放该行首笔“小微易贷——脱核产业链”贷款。该笔业务的落地，标志着该行在普惠金融创新实践中取得重要突破

2025-12-03 14:46:00

邮储银行遵义市分行数字化金融为企轻松减负

“以前月底对账要3人加班3天才能完成，自从上线了邮储银行智能对账系统，几个小时就能搞定，准确率达100%，实在太赞了！”近日

2025-12-03 14:46:00

邮储+人行宣讲国债知识，村民直呼“接地气”

近日，中国人民银行贵州省分行联合中国邮政集团有限公司贵州分公司、中国邮政储蓄银行贵州省分行，在邮储银行楠木渡营业所门前共同开展“购买国债利国利民”国债下乡宣传活动

2025-12-03 14:46:00

兴业银行绍兴分行：金融服务助力珍珠产业焕发新活力

“兴业银行优惠的政策和快捷的效率，给我们这些创业者提供了资金保障，也让我们扩大经营规模和打造自有品牌更有底气了。”绍兴诸暨华东国际珠宝城的商户何先生说

2025-12-03 15:16:00

东百集团在福建成立创智投资公司

近日，福建东百创智投资有限公司成立，注册资本1000万元，经营范围包含：以自有资金从事投资活动；社会经济咨询服务；企业管理

2025-12-03 15:24:00

双杰电气在河北、湖北、新疆陆续投资成立新能源公司

近日，河北熠禾杰新能源科技有限公司成立，法定代表人为杨梓垚，注册资本为1亿元，经营范围包含：电池销售；光伏设备及元器件销售

2025-12-03 15:24:00

在践行“金融工作政治性、人民性”中厚植消保沃土，织密民生防

南京人保财险深入贯彻落实党的二十大和二十届四中全会精神，紧扣“践行金融工作政治性、人民性”主线，将贯彻落实中央决策部署与集团党委扩大会精神全面融入消保工作全过程

2025-12-03 15:47:00

超硬材料概念异动拉升！我国超六成培育钻相关企业成立超10年

据媒体报道，12月3日早盘，超硬材料概念异动拉升，四方达涨超15%，惠丰钻石、黄河旋风、沃尔德、力量钻石、英诺激光跟涨

2025-12-03 15:48:00

阳光农业相互保险公司双鸭山中心支公司因虚列费用、农险数据不真

12月2日，国家金融监督管理总局双鸭山监管分局行政处罚信息公开表显示，阳光农业相互保险公司双鸭山中心支公司因虚列费用、农险业务数据不真实被罚款25万元

2025-12-03 15:56:00

漆玉虎获批担任交通银行酒泉分行副行长

12月3日，国家金融监督管理总局酒泉监管分局发布关于漆玉虎交通银行酒泉分行副行长任职资格的批复，核准漆玉虎交通银行酒泉分行副行长的任职资格。

2025-12-03 15:58:00

葛静获批担任邮储银行酒泉市分行副行长

12月3日，国家金融监督管理总局酒泉监管分局发布关于葛静邮储银行酒泉市分行副行长任职资格的批复，核准葛静邮储银行酒泉市分行副行长的任职资格。

2025-12-03 15:59:00

头条订阅服务