推理,模型,思维,语言,社区,语言头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大语言模型如何宣告心理学的死亡？

...数据的相关性连接，以及作为表征数据内部相关性连接的推理规则和推理方法。当这些连接达到一定的密度和连通性时，LLM似乎展现出了推理的能力。但这种能力更多是因为它们处理大量相关性连接时所表现出的复杂性，而不是...……更多

2024-02-09 15:00:00心理学,模型,语言,心理,人类,心理

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...息时可能出现的错误回答，以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水，但在进一步的推理中，部分模型并不能意识到其与头孢药物共用的潜在风险。图7 模型在涉及安全问题的推理中出现...……更多

2024-07-25 09:31:00模态,清华,可信度,领衔,可信,几何

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

...类模型低 75%。端侧友好：量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。统一高清框架，高效能力一拖三：小钢炮的传统优势 OCR 能力延...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

NVIDIA RTX显卡AI推理提速5倍！

...得更好的加速和应用。其中，TensorRT-LLM是一款用于加速LLM推理的库，可大大提升AI推理性能，还在不断更以支持越来越多的语言模型，而且它还是开源的。就在10月份，NVIDIA也发布了面向Windows平台的TensorRT-LLM，在配备RTX30/40系列GP...……更多

2023-11-16 20:13:00提速,推理,显卡,微软,模型,性能

NeurIPS 2024 | 数学推理场景下，首个分布外检测

本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收，第一作者王一鸣是上海交通大学计算机系的二年级博士生，研究方向为语言模型生成、推理，以及可解释、可信大模型。该工作由上海交通...……更多

2024-12-03 13:33:00研究成果,推理,场景,成果,检测,数学

减少机械刷题提升思维能力

...通过提取整合有效信息来分析解决实际问题。同时，突出推理论证能力的考查，比如第十五题，考查了带电粒子在组合场中的运动，对分析推理和论证能力的要求较高，同时提升了对高阶思维能力的考查。此外，试题也加强科学...……更多

2024-06-09 06:56:00思维,能力,机械,考查,英语,试题

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

...70B+。跨领域表现：数学编程领域差异最大得益于强大的推理能力，OpenAI o1-preview不出所料地领先。不过，一些开源模型也有不错的表现。如DeepSeekCoderv2-Instruct，在AP(高级编程）、OS(操作系统）和其他类别中得到高分，拉开了与其...……更多

2024-12-06 09:50:00豆包,基准,字节,模型,编程,代码

AI占卜爆火，准得让算命师傅害怕？

...现了AI的深度思考，通过优化训练过程，增强了它的逻辑推理的能力。对因果关系和知识推演具有更强的把握，是否意味着推理型大模型在占卜上有更好的表现？简禾认为并非如此。以塔罗占卜为例，心理学家荣格曾经提出共识...……更多

2025-03-09 17:12:00算命,师傅,算命,命理,卜者,模型

专注于推理的OpenAI“草莓”模型两周内发布？是人工智能下

...“秋季发布”（9月至11月）要更早。上述报道称，专注于推理能力的人工智能“草莓”发布前后还有一些亟待解决的问题，但看似“仓促上马”似乎说明OpenAI感受到了大语言模型驱动产品领域的激烈竞争压力，希望通过近几个月...……更多

2024-09-11 09:55:00人工智能,推理,草莓,人工,模型,突破

表格增强生成TAG登场：解锁AI自然语言与数据库的完美结合

...题通常需要复杂的领域知识、世界知识、精确计算和语义推理的组合。为了解决这一问题，该研究提出了 TAG 系统，其实现主要包含三个步骤：查询合成、查询执行和答案生成。TAG 模型很简单，但功能强大，由以下三个方程定义...……更多

2024-09-10 13:38:00自然语言,表格,生成,自然,语言,数据库

百川智能、阿里云等进入开源大模型领域，开启商业化前奏

...用于自身业务优化并对外开放合作。大模型分为训练和推理两个过程，前者将大模型训练成型，后者即为应用。由于训练大模型需极大算力，开发成本高昂，业界多有关于不需“重复造轮”的讨论。例如，入场做大模型后，百...……更多

2023-10-14 00:21:00百川,阿里,前奏,模型,领域,智能

文生图参数量升至240亿！Playground v3发布：深

...像描述性能。实验结果表明，PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色；用户偏好研究表明，PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

2024　ASC世界大学生超级计算机竞赛启动

...13日在上海大学举行的总决赛。预赛赛题主要聚焦大模型推理优化和渗流数值模拟两个技术领域。当前,随着大模型开发和应用的快速发展,对大模型推理性能和成本的优化受到业界重视。本届大赛的大语言模型推理优化赛题要求...……更多

2024-01-05 01:38:00竞赛,计算机,大学生,大学,世界,模型

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

2023：人工智能对话年

...说，“这太激进了。”“大型语言模型有能力做一些涉及推理方面的事情。”马塞利诺说。但它们与人类的思维方式不同。他说：“我不想对其实际智能做出断言。”生成式人工智能程序通常基于人工神经网络，分析数据并找到...……更多

2023-12-30 07:56:00人工智能,人工,对话,智能,人工智能,生成

科大讯飞(002230.SZ)发布一季度业绩，归母净亏损1.

...火”大模型研发上保持战略投入，4月20日，讯飞星火深度推理模型X1重大升级，在原来数学任务行业领先基础上，推理、文本生成、语言理解等通用任务实现效果对标OpenAIo1和DeepSeekR1，成为业界首个基于全国产算力平台的通用长...……更多

2025-04-21 23:59:00讯飞,亏损,业绩,讯飞,星火,公司

具身智能竞速时刻，百度百舸提供全栈加速方案

...上。WM 模型：训练性能相比社区版本最高提升 20% 以上，推理性能相比于社区版本提升 36% 以上。VLA 模型：云厂商第一家全面适配 RDT、π0 和 GR00T N1.5 等三大开源具身 VLA 模型，为 VLA 等提供高性能的算力底座和优化的运行环境，...……更多

2025-08-13 17:25:00百舸,竞速,时刻,智能,方案,模型

AIGC风潮席卷手机：但在PC面前还是个弟弟

...全新的NPUAI独立引擎。它通过单独设置的神经计算引擎、推理流水线，彻底接手端侧的AI推理负载，其中MAC阵列可以高效执行矩阵算法和卷积运算，每周期效率多达2048。这样的性能更是手机端望尘莫及的，速度超快的同时功耗更...……更多

2023-11-19 18:15:00风潮,弟弟,还是,手机,模型,生成

港中文团队提出大模型元推理范式，革新大模型的评价体系

...一定启示。日前，相关论文以《大型语言模型评价中的元推理革命》（MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation）为题发在 arXiv，曾忠燊是第一作者，香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

智源评测体系发布国内外“百模”评估结果出炉

...、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力；针对多模态模型则主要评估了多模态理解和生成能力。评测结果显示，在中文语境下，国内头部语言...……更多

2024-05-17 17:26:00评测,评估,体系,结果,模型,评测

李开复回应旗下AI独角兽陷“套壳”争议：起步受益于开源，会进

...点进行了大量的实验和对比验证，并在这个过程中对部分推理参数进行了重新命名。在回应中，零一万物也对“沿用LLaMA部分推理代码经实验更名后的疏忽”表达了歉意：“（我们的）原始出发点是为了充分测试模型，并非刻意...……更多

2023-11-16 16:45:00李开复,独角兽,旗下,争议,进步,模型

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 scaling law、模型校准、RAG、对齐税等研究问题，后续本评测集都可以作为这些方向的重要参考之一。总之，我们希望 Chinese SimpleQA 能帮助开发者深入了解其模型在中文...……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型

EMQ 如何用DeepSeek大模型重构可观测性数据分析？

...针对相关问题提供精准建议。 ·智能化不足：缺乏问题推理能力，难以应对复杂场景下的问题分析。利用AI实现更加智能的可观测性数据分析基于大语言模型（LLM）提供的推理能力，可以显著提升可观测性数据分析的智能化水平...……更多

2025-02-27 14:45:00重构,数据分析,观测,模型,分析,数据

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...，在 MIT 完成博后，致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统，从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授，google scholar 引用量均在 10 万以上。心.……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

商汤 AI 办公小程序“Raccoon 智能助手”上线：提炼

... 大模型，该模型采用 MOE 混合专家架构，在知识、数学、推理和代码能力方面大幅提升。该模型基于超过 10TB tokens 训练，具备 200K 推理上下文窗口（相当于 36.5 万个汉字），推理时上下文窗口达到 200K 左右，提供自然语言处理...……更多

2024-06-25 09:43:00商汤,助手,重点,智能,办公,程序

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

...的任务和领域，并展示新颖的功能。我们还探讨了模型的推理能力和思维链机制的在图像生成领域的潜在应用。Paper: https://arxiv.org/pdf/2409.11340 Code: https://github.com/VectorSpaceLab/OmniGen Demo: https://huggingface……更多

2024-10-30 09:53:00易用,架构,生成,模型,图像,高度

对标GPT-4o！商汤发布两大国内首个大模型入局价格战

...短两个月，综合性能较“日日新5.0”平均提升30%，在数学推理、英文能力和指令跟随等能力明显增强，交互效果和多项核心指标实现对标GPT-4o。据了解，“日日新5.5”模型训练是基于超10TB tokens高质量数据，包括大量合成的思维...……更多

2024-07-09 09:46:00商汤,价格战,大国,模型,价格,商汤

全球权威评测榜单BIRD：蚂蚁数科超越谷歌等公司位居第一

...（组序列策略优化）强化学习训练方法，能够增强SQL内在推理，让大模型在推理阶段，深度思考SQL框架，避免潜在的逻辑错误，提升SQL逻辑准确性；此外，Agentar-SQL具备多轮反思修正的能力，让模型对生成的SQL进行多轮次的审视...……更多

2025-09-26 16:48:00蚂蚁,评测,权威,全球,公司,模型

推动大模型自我进化，北理工推出「流星雨计划」

...我进化的方式，解决代码模型在处理复杂问题时缺少中间推理过程。核心观点：自我进化的力量跟随上述自我进化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）方法中，作者无需借助额外的任何监……更多

2024-12-06 09:52:00流星雨,进化,理工,流星,模型,模型