模型,参数,模型,基准,问题,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

MiniMax进化论：一群「偏执者」的破浪前行

全球开源前二，来自中国大模型的Aha时刻。如果一个技术用3年时间，从默默无闻到改变世界，我们称其为第N次工业革命；如果这个技术从论文到落地的过程中，头部玩家如走马灯更迭，百亿流量砸下去只听一声响就陷入沉寂，...……更多

2025-07-02 13:31:00一群,进化论,偏执,进化,模型,技术

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练

快科技6月14日消息，摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已完成大模型训练测试。师者AI基于摩尔线程夸娥（KUAE）千卡智算集群，完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周，训练...……更多

2024-06-14 11:37:00摩尔,师者,集群,线程,模型,训练

OpenAI迄今最大、最贵模型！GPT-4.5正式发布

...28日消息，今天凌晨OpenAI举行直播活动，正式发布最新大模型GPT-4.5，将分阶段向付费用户开放。ChatGPT Pro用户今天开始就能在网页版、手机版和桌面版使用GPT-4.5了，下周将向Plus和Team用户开放，再下周向企业和Edu用户开放。GPT-4.5...……更多

2025-02-28 07:37:00模型,模型,用户,推理,能力,开放

多模态竞技场对标90B Llama 3.2！Pixtral

...杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场的自家...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

ai实验室阿里通义将推出创新视频生成大模型

...布，将在即将举行的云栖大会上推出一款创新视频生成大模型。目前，该模型的预约通道已在通义App及通义万相PC平台上开放，但具体使用权限尚未向公众开放。这款大模型由通义实验室精心打造，融合了“文生视频”与“图生...……更多

2024-09-15 02:18:00通义,阿里,生成,实验室,模型,实验

腾讯推出新一代大模型「混元Turbo」，性能大幅提升，定价低

鞭牛士 9月5日消息，腾讯宣布推出新一代大模型“混元Turbo”。腾讯介绍，该模型采用MoE架构，比上一代产品推理效率提升100%，推理成本降低50%，解码速度提升20%。腾讯公司副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏...……更多

2024-09-05 14:28:00腾讯,新一代,模型,定价,性能,腾讯

还在人工炼丹？自动提示工程指南来了，还带从头实现

...APE）是指自动生成和优化 LLM 提示词的技术，目标是提升模型在特定任务上的性能。其基于提示词工程的思路，即编写多个不同的提示词并对其进行测试，只不过是让整个过程自动化。后面我们会看到，这个过程非常类似于传统...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全

...即开源！130亿参数，成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face，一点没藏着。实际效果如何呢？目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申...……更多

2024-12-04 09:50:00腾讯,权重,推理,模型,参数,代码

微软被曝未来3年花1000亿美金囤芯片；杨元庆：AI不是取代

...媒体App获悉，4月19日，Meta公布期待已久的多模态开源大模型Llama 3系列。同时，Meta还推出了其首款基于Llama 3开源模型的AI聊天机器人产品——AI助手，直接对标ChatGPT-4。与此同时，科技行业裁员消息频出。谷歌宣布从3月10日开始...……更多

2024-04-30 11:00:00杨元庆,微软,美金,芯片,人类,智能

大模型推理乘上RISC-V快车？国内AI芯片创企推大模型系列

...算力需求大爆发的转折之年，如今随着国内两批超20个大模型获得审批、种类多样的大模型相关应用显现，企业对私有化部署的需求也水涨船高。面向这一行业趋势，2023年世界互联网大会乌镇峰会上，国内云端RISC-V大芯片创企希...……更多

2023-11-15 15:41:00模型,一体机,推理,快车,芯片,一体

联想发布DeepSeek一体机解决方案：支持千亿参数大模型训

...2月6日消息，联想集团与沐曦股份联合发布基于DeepSeek大模型的一体机解决方案。该方案以“联想服务器/工作站+沐曦训推一体GPU+自主算法”为核心架构，配合联想AI force智能体开发平台，推出智能体一体机与训推一体服务器双产...……更多

2025-02-06 15:13:00一体机,模型,一体,解决方案,训练,参数

硅谷大模型“价格战”上演，一味“卷”价格会有未来吗？

5月以来，国内大模型打响了“价格战”。从每百万个Token只要1块钱，到只要8毛钱、5毛钱……国内大厂如字节跳动、百度、智谱AI、科大讯飞等不断接力，有厂商甚至直接打出了“免费”的口号，震惊整个科技圈子。实际上，硅...……更多

2024-05-27 15:27:00硅谷,价格,价格战,一味,模型,模型

GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试

...即理解人们思维的能力，是开发具有类人社会智能的 AI 模型的重要基础。近日，来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出...……更多

2024-09-12 09:45:00模态,缺陷,测试,模态,模型,心智

百度智能云两大基础设施再升级！打造AI时代最开放的智能基础设

4月25日，以“模型的世界，应用的天下”为主题的Create2025百度AI开发者大会在湖北武汉召开。会上，百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度智能云在智能基础设施建设方面的最新成果，并在算力、模型及...……更多

2025-04-25 16:27:00基础设施,设施,智能,基础,升级,开放

大模型推理与训练的边界之争

随着大模型的发展日新月异，其推理和训练的边界问题也引起了广泛讨论。近日，清程极智CEO汤雄超在一场行业活动中明确表示，尽管外界有声音认为OpenAI发布的o1模型模糊了推理和训练的界限，但从技术角度来看，这两个阶段...……更多

2024-11-07 20:18:00边界,推理,模型,训练,推理,模型

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

NeurIPS 2024评审结果公布！AI大佬晒出成绩单，又

...非常微妙，即使在过度参数化的情况下也是如此。而对大模型而言，权重衰减则扮演者完全不同的角色。与最初一版arXiv论文相比，研究人员对其进行了很多更新。Andriushchenko表示，自己非常喜欢这项新实验，并且匹配了AdamW有效...……更多

2024-09-29 09:55:00大佬,成绩单,评审,成绩,结果,又是

DeepSeek开源惠四方（科技名家笔谈）

...州深度求索人工智能基础技术研究有限公司推出AI语言大模型DeepSeek，受到用户热烈欢迎。2025年1月20日，DeepSeek-R1发布上线，7天内用户超过1亿。ChatGPT从发布到达到相同的用户规模用时两个月。GitHub是全球最大的代码托管网站，Gi...……更多

2025-02-24 05:52:00四方,名家,科技,人工智能,人工,智能

百川智能、阿里云等进入开源大模型领域，开启商业化前奏

闭源商业化的“百模大战”暂告段落，开源大模型仍旧热闹。今年7月Meta推出开源且免费的大型语言模型LLama2后，基于该模型微调的大模型不断涌现。此外，阿联酋阿布扎比技术创新研究所推出大参数模型Falcon180B，国内8、9月份...……更多

2023-10-14 00:21:00百川,阿里,前奏,模型,领域,智能

OpenAI升级o3-mini模型思维链：提升AI推理过程透

...付费用户更新o3-mini-high的思维链，更透明、更详细地展示模型的“推理”步骤以及得出答案的方式。OpenAI在去年12月发布了推理模型o3，该系列包含两个模型，即o3和o3-mini，前者是高性能推理模型，后者是更小的精简版模型，在...……更多

2025-02-07 10:14:00透明度,推理,模型,思维,过程,升级

推理成本直降99%！百川智能「1+3」矩阵揭秘，两张4090

【新智元导读】大模型热，企业落地难？就在刚刚，百川智能推出「1+3」产品矩阵，一站式解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」，仅需10分钟就能让企业自主成为模型定制增强专家，实现行业最...……更多

2024-11-04 09:50:00百川,矩阵,旗舰,推理,模型,成本

不同量级参数模型性能同样优秀夸克大模型再登行业评测榜首

【CNMO新闻】“大模型时代，夸克有巨大机会创造出革新性搜索产品。”11月22日，夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示，夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单，...……更多

2023-11-24 13:53:00夸克,模型,量级,榜首,评测,性能

对着3个中国AI大模型，两个美国科技界大佬深聊了半小时

...行业快速发展，竞争也越来越激烈，特别是各种高级推理模型之间的竞争。过去一段时间，中国科技公司陆续发布了3款自研的AI模型，分别是DeepSeek（深度求索）的Deepseek R1、阿里巴巴的Marco-1以及香港中文大学与商汤科技的联合...……更多

2024-12-04 09:48:00大佬,科技界,美国,模型,两个,小时

全球科研团队竞逐低成本AI模型研发新范式

...外版美国斯坦福大学等机构研究团队近日宣布，在基座大模型基础上，仅耗费数十美元就开发出相对成熟的推理模型。尽管其整体性能尚无法比肩美国开放人工智能研究中心（OpenAI）开发的o1、中国深度求索公司的DeepSeek-R1等，...……更多

2025-02-27 05:08:00范式,模型,科研,团队,成本,全球

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...检索策略，这种设计不仅提高了检索效率，也显著增强了模型生成内容的准确性。为评估OmniSearch，研究团队构建了全新Dyn-VQA数据集。在一系列基准数据集上的实验中，OmniSearch展现了显著的性能优势。特别是在处理需要多步推理...……更多

2024-12-05 09:45:00模态,拆解,阿里,检索,过程,智能

DeepSeek“朋友圈”不断扩围：10家国内外云厂商宣布接

...儿。1月20日，中国AI初创公司深度求索（DeepSeek）推出大模型DeepSeek-R1。作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等...……更多

2025-02-06 07:23:00家国,接入,不断,厂商,朋友,用户

OPPO：用AndesGPT迎接下一个十年

“大模型”是2023年互联网发展技术趋势的关键词，此刻OPPO也迈入大模型竞逐的下半场。2023年初，国内大模型领域受到ChatGPT的影响，“百模大战”迅速进入白热化。今年8月，随着《生成式人工智能服务管理暂行办法》的正式施...……更多

2023-11-17 09:41:00模型,用户,能力,体验,技术,生态

NeurIPS 2024 | FaceChain团队新作，开

...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后，FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作，FaceChain-FACT。继 TransFace 之后，FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸