推理,模型,内心,人类,世界,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...模型的短板，此前行业也多次讨论过大模型的数学和复杂推理能力较差，即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次，第一财经曾在6月报道过，根据司南评测体系OpenCompass的高考全卷测试，包括GPT-4在内，7...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

商汤科技sensetime推出“云端边”全栈大模型体系

...的指导下，会持续探索大模型能力的KRE三层架构（知识-推理-执行），不断突破大模型能力边界。”“日日新SenseNova5.0”性能超越GPT-4 Turbo：文理双修能力大幅提升，新增多模态交互自去年4月首次发布，商汤“日日新SenseNova”大...……更多

2024-04-25 01:02:00商汤,云端,模型,体系,科技,商汤

2023内容科技应用典型案例：农业银行大模型ChatABC

...解决模型并行、数据并行等训练难题，提升AI大模型训练推理效率。应用：探索大模型知识融合新架构。构建异构知识库，支持全文检索、知识推理等各类知识检索场景需求。深度定制全文检索框架，支持文档类知识的高性能精...……更多

2024-04-08 17:06:00农业银行,典型案例,模型,典型,案例,银行

这才是真开源模型！公开后训练一切，性能超越Llama 3.1

...著提升，而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此，有人认为，新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思...……更多

2024-11-26 09:44:00模型,性能,训练,模型,训练,数据

周鸿祎：发展大模型要有AI信仰

...是人类第一次让电脑能够把人类所有的知识理解、存储、推理，对人类的语言有了完整的了解。语言为什么这么重要呢？因为我们人类和动物最大的差别，是我们用语言在描述这个世界，所以一旦机器理解了人类的语言，跟人类...……更多

2023-12-12 10:05:00周鸿,模型,信仰,发展,模型,人工智能

首个AI高考全卷评测结果发布：最高分303，数学全不及格

...。在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。上海人工智能实验室领军科学家林达华此前在采访中对第一...……更多

2024-06-24 09:22:00评测结果,最高分,评测,数学,高考,结果

AI智能体，构建智慧生活新图景

...使用的语言交流服务，AI智能体还能根据上下文进行智能推理和情感分析，并模仿人类行为进行相应的操作。比如，下达“帮我做一道菜”这项任务指令，“大模型厨师”只能输出一份食谱并指出需要哪些食材；“AI智能体厨师...……更多

2024-11-01 04:20:00图景,智慧,智能,生活,智能,模型

2023IDEA大会：让大模型更好应对复杂问题

...本正经的胡说八道”怎么解？众所周之，大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性，这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷，是当下AI应用的重要课题。为此，IDEA...……更多

2023-11-24 10:53:00模型,大会,问题,模型,研究,能力

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...们刚才所述，32个基准测试中拿下30个SOTA。其中，通用、推理、数学和编程等大方向的成绩如下表所示：△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA 在多模态方面，Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOT...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

阿里巴巴“AI驱动”战略提速夸克发布自研大模型

...、智能检索的专业服务。性能方面，凭借语义理解、逻辑推理、内容生成等技术优势，夸克大模型在CMMLU权威榜单的最新评测结果中，取得优异成绩。同时，夸克大模型具备了对不良、虚假信息识别、回答和指引的出色能力。知...……更多

2023-11-14 16:05:00夸克,阿里巴巴,阿里,提速,模型,驱动

「清昴智能」完成数千万元Pre-A+轮融资，做懂国产芯片的模

文 | 周鑫雨编辑 | 邓咏仪36氪获悉，AI推理部署解决方案厂商“清昴智能”近日完成了数千万元Pre-A+轮融资，启赋资本、达晨财智领投，老股东奇绩创坛跟投。此前，清昴智能已获得某世界500强科技巨头公司的千万元战略投资。...……更多

2024-06-03 15:23:00数千,融资,芯片,模型,国产,智能

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92

...验结果发现，Movie Gen Video模型能够理解物理世界——可以推理物体运动、主-客体交互、几何关系、相机运动、物理规律，以及各种概念的合理运动。在微调阶段，研究人员精选了一部分视频，对模型在美学、运动质量方面完成...……更多

2024-10-08 09:52:00高清,架构,大片,细节,论文,技术

“80后死亡率超5%”，别上假数据的当

...》表示：“生成式人工智能的主要功能，一是搜索，二是推理。前者通常要有基础数据，它才能搜到。而幻觉更可能出现在推理的环节。” 她指出，人类本身就会产生幻觉，而人工神经网络系统学习的是人类神经系统。“生成...……更多

2025-04-02 21:37:00死亡率,数据,数据,幻觉,信息,生成

智源评测体系发布国内外“百模”评估结果出炉

...、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。评测结果显示，在中文语境下，国内头部语言...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

能与人类谈判、游戏水平媲美真人，Meta 是如何构建新人工智

...两个完全不同的人工智能研究领域并开发了新技术：战略推理（如 AlphaGo 和 Pluribus 等代理中使用的技术）和自然语言处理（如 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型中使用的技术）。举个例子，CICERO 可以推断出，在游戏后期，...……更多

2023-01-14 13:00:00人工智能,真人,人工,谈判,人类,水平

微软宣布Team Copilot发布，年内将推出初步预览版

...电脑，二是在信息日益增加的世界，电脑能不能帮助人类推理、规划以及更有效地运用所有的信息。纳德拉认为，现在这波AI浪潮能为微软找到实现这两大梦想的答案。随后，Nadella聚焦Copilot。纳德拉提到了包含随时可用本地API...……更多

2024-05-22 20:01:00微软,微软,纳德拉,纳德,模型,功能

ChatGPT o1满血版上线！实测中它竟然败给了国产AI？

...特曼用一个简单的柱状图给出了对比：可以看到o1在数学推理和编程领域的表现要明显优于o1-preview，提升幅度在50%左右，而在科研领域的测试里，o1相对于o1-preview的表现就提升有限了。图源：OpenAI考虑到o1模型不需要额外加钱就...……更多

2024-12-11 20:12:00实测,国产,模型,推理,文心,答案

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

... 2此次提供的90亿（9B）和270亿（27B）参数的两个版本，其推理性能和效率均优于第一代，并具有显著的安全性改进。事实上，270亿参数版本可以与体积超过其两倍的模型进行同等级别的竞争，并且提供了此前只有专有模型才能实...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

浙大校友自研跨模态模型，打造具身智能的“通用语法”

...型、有效预测未来行为、以及在复杂交互场景中进行灵活推理等方面仍然面临挑战。图丨谷歌 PaLM-E[2]（来源：arXiv）由功能型到智能型的转变总的来说，由于技术水平的限制，关于具身智能的构想并未得到充分发展。直到近来...……更多

2024-03-22 10:31:00模态,语法,校友,模型,智能,智能

石油巨头牵手DeepSeek

...仑大模型的问答应用“行业大家”目前已新增DeepSeek深度推理能力。用户使用“行业大家”开展行业问答时，除了可以得到昆仑大模型生成的能源化工领域专业问答结果，还能自主选择切换至“深度思考”模式，体验知识推理、...……更多

2025-02-14 22:37:00巨头,牵手,石油,沙特,模型,智能

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

机器人，“链”上滨江

...相便在全球开源圈引发轰动，它可以通过自我修正和多步推理提升泛化能力，具备准确的视觉识别能力、专业的知识推理能力、清晰的文本表达能力，目前已实现在高泛化开放视觉理解中的技术突破与应用。“依托VLM-R1模型，我...……更多

2025-06-13 08:53:00滨江,机器人,机器,滨江,机器人,智能

腾讯Angel机器学习平台获世界互联网大会领先科技奖

...腾讯Angel 机器学习平台，突破了万亿级模型分布式训练和推理以及大规模应用部署等难题，率先实现大模型技术从底层硬件到关键软件技术的自主研发，在业务场景广泛应用，显著推动实体产业和数字经济发展，提升社会效率。...……更多

2024-11-21 14:04:00科技奖,腾讯,机器,领先,大会,互联网

中国移动董事长杨杰：由云向智，共绘算网新生态

...超2.5倍，年均复合增速近40%。二是算力结构的显著变化，推理算力需求将超过训练算力需求，未来3年，推理算力年复合增速将达到训练算力的近4倍，到2028年，推理算力规模将超过训练算力规模。这一进程将给算网发展注入新的...……更多

2025-04-11 10:38:00杨杰,中国,中国移动,董事长,董事,生态

专访微软AI CEO：没有 OpenAI，我们也能训练出世界

...将其聚合成概念表征，帮助我们在复杂的空间中更有效地推理，预测世界可能会如何发展，然后根据这些预测采取行动。无论你是在做一张桌子，还是在和朋友打棒球，你所经历的每一个环境都具有这些特征。因此，如果我们能...……更多

2024-12-16 09:14:00微软,专访,模型,训练,最好,世界

首个AI高考全卷评测结果发布：数学全都不及格

...三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75...……更多

2024-06-20 11:10:00评测结果,全都,评测,数学,高考,结果

ASC24超算大赛启动会在京举行，大模型推理等成为赛题

...在上海大学举行的总决赛。据悉，今年的赛题包括大模型推理优化、渗流数值模拟，以及国际通行基准测试HPL和HPCG等。来自高性能计算和人工智能领域的中国科学院院士、中国工程院院士、专家学者及参赛师生代表等参加了启...……更多

2024-01-07 19:35:00启动会,推理,模型,大赛,模型,上海大学

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...72B在C-Eval、CMMLU、GaokaoBench等基准得分超越GPT-4。而在数学推理方面，Qwen-72B在GSM8K、MATH测评中也领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力也有质的飞跃。△72B模型做数学题 ……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

技术狂飙突进，共识规则亟待建立

...来是人的能力。但是今天的Sora能理解了，可以做出一些推理和判断了，这是它的震撼所在。颠覆性创新会越来越多记者：有人将Sora视为走向通用人工智能的重要里程碑，您怎么看？高奇琦：所谓通用人工智能，简单地讲，就是...……更多

2024-02-24 05:41:00狂飙,共识,规则,技术,人工智能,人工