模型,智能,测试,数据,模型,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

整合长期记忆，AI实现自我进化，探索大模型这一可能性

...。而这一切背后的机制是进化（evolution）。到了现今的大模型时代，强大的基础模型已经展现出了强大的智能水平，能完成多种多样的任务。但它们也有个缺点，训练之后就基本定型了，难以随着用户的使用而演进。但毫无疑问...……更多

2024-10-29 09:55:00进化,可能性,模型,整合,记忆,模型

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

马斯克突然发布Grok-2！数学推理能力突出，攻克“9.9与

...北京时间8月14日下午，xAI正式官宣Grok-2和Grok-2 mini两款AI模型（测试版）。xAI直接揭秘，前一阵子出现在Lmsys大模型竞技场上的神秘模型“sus-column-r”就是Grok-2。在xAI给出的大模型排行榜中，Grok-2的评分优于GPT-4o-mini和Claud……更多

2024-08-15 09:56:00马斯,马斯克,推理,难题,大小,能力

商汤科技与金山办公达成商业合作，“日日新”大模型补强办公软件

...公生产力大会上，金山办公展示了携手商汤科技等国内大模型厂商打造的办公平台WPS365。商汤“日日新”大模型凭借其卓越的代码生成及工具调用能力助力WPS365打造更高效释放场景能力的智能办公平台。最强理科能力！商汤“日...……更多

2024-04-12 15:11:00商汤,办公,补强,金山,办公软件,理科

智谱AI推出第三代基座大模型可在手机上部署

...系技术成果转化企业智谱AI推出了全自研的第三代基座大模型ChatGLM3，继此前推出千亿基座的对话模型ChatGLM和ChatGLM2之后再次实现突破。评测显示，在44个中英文公开数据集测试中，ChatGLM3在国内同尺寸模型中排名首位。ChatGLM3语...……更多

2023-10-28 08:25:00三代,基座,可在,模型,手机,模型

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...业大学工作期间，他曾和同事在一项研究中成功提高了大模型解决复杂数学问题的能力。通过此，他们不仅提高了算法推理速度，还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100，也更加符合算法在复杂数学问...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

DeepSeek本地化部署都干了啥？多家券商回应！

中新经纬2月8日电 (丁丹)人工智能开源大模型DeepSeek的“风”，近日也“吹”到证券行业。据中新经纬不完全统计，6日至今，共有华福证券、国金证券、国元证券、国泰君安、兴业证券、华安证券、广发证券、中泰证券8家券商...……更多

2025-02-08 19:30:00券商,多家,智能,证券,模型,场景

o3 压台登场：OpenAI 卷动推理 AI 模型风云，迈向

...，“12 Days of OpenAI”活动已拉上帷幕，OpenAI 的 o3 系列大模型压台登场，官方称在某些场景下，其推理能力非常接近通用人工智能（AGI）。名称最新的 AI 模型为何跳过 o2，叫做 o3 呢？OpenAI 公司首席执行官山姆・阿尔特曼（Sam Altm...……更多

2024-12-21 09:17:00巅峰,推理,模型,风云,模型,测试

清华提出CharacterGLM；DeepMind联创发全新

...技术优势：它支持智谱 AI、百川智能等国内领先的大语言模型，通过微调和优化提高模型的准确率和可读性，通过开放 API 接口支持个性化的数据应用搭建。（来源：“CSDN”微信公众号）《马斯克多次失手，OpenAI 异军突起，硅...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMi

...是指，人类对自己思维、推理过程的直观认识。那么，大模型也具备「元认知」的能力吗？研究人员对此，提出了一种假设，并设想是否可以通过知识引导，进一步提高LLM的能力。其实，此前的研究已经表明，大模型表现出一...……更多

2024-09-23 09:50:00新作,群体,性能,数学,机构,智能

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...数据，推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中，用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4回答趣味推理问题。4月23日，在2024商汤技术交流...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

成本不到150元！26分钟训出个推理模型媲美o1和R1

成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作：s1。在数学和编程能力的评测集上，s1的表现比肩Dee...……更多

2025-02-07 15:14:00推理,模型,成本,模型,团队,推理

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5.5）凭借多个任务上的出色表现，总得分位列国内大模型第一梯队，智夺金牌。商量多模...……更多

2024-10-14 13:34:00商汤,模态,基准,模型,模型,能力

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首次对...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

李飞飞空间智能之后，上交、智源、北大提出空间大模型Spati

...成绩在东南大学取得学士学位。他的研究兴趣为多模态大模型、具身智能。此工作为其在上海交通大学访问和北京智源人工智能研究院实习期间完成，导师为本文通讯作者赵波教授。此前，李飞飞老师提出了空间智能 (Spatial Intel...……更多

2024-08-08 09:39:00空间,北大,模型,智能,深度,模型

李飞飞团队“50美元”复现DeepSeek R1？真相是…

s1模型的训练并非从零开始，而是基于阿里云通义千问（Qwen）模型进行监督微调。s1模型的神奇“低成本”，是建立在已具备强大能力的开源基础模型之上，可谓依然是开源的胜利。作者 | 黄心怡今日一则关于人工智能领域的新...……更多

2025-02-07 06:25:00真相,团队,模型,通义,训练,基座

海信星海大模型接入DeepSeek

近日，海信自研的星海大模型接入DeepSeek，在智慧生活和智慧城市领域为用户带来全新的智能交互体验。海信于2024年自研星海大模型，覆盖语言大模型、视觉生成大模型、多模态理解大模型三大系列，在语言理解、文本创作、...……更多

2025-02-13 16:06:00海信,星海,接入,模型,海信,模型

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的LLM都失败了！几天前，菲尔兹奖得主...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

9.11和9.9哪个大？实测12个大模型8个都答错，Chat

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多

2024-07-17 11:56:00实测,模型,模型,数学,小数,问题

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

【新智元导读】知识密集型工作也败了！大型语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

自动化、可复现，基于大语言模型群体智能的多维评估基准

...BZUAI 等学术机构学者组成的开源组织，致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。Maitrix.org 此前成功开发了 Pandora 视频-语言世界模型、LLM Reasoners，以及……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估