模型,参数,模型,训练,测试,时计头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此，北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon，它为解决这些难题带来了创新...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

科学家提出情景学习新范式，让学霸大模型向学弱大模型输送能力

近日，上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式：SLEICL（基于强模型增强的情景学习，Strong LLM Enhanced ICL），能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多

2024-03-01 09:36:00模型,范式,科学家,情景,能力,科学

“言出必行”马斯克，全球最大开源模型Grok真的来了

刚刚开源的 Grok，一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日，xAI 正式宣布开源大模型Grok-1的权重和网络架构。xAI 表示，开源版大模型Grok-1是一个由 xAI 从头开始训练的 314...……更多

2024-03-18 11:50:00马斯,马斯克,模型,全球,马斯,马斯克

亚马逊开发史上最大文本转语音模型

...能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。近年来，像ChatGPT这...……更多

2024-02-18 12:49:00开发史,亚马,亚马逊,语音,模型,文本

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

腾讯推出 Hunyuan-Large 开源大模型

IT之家11月5日消息，腾讯今日宣布推出Hunyuan-Large大模型，官方表示这是目前业界已经开源的基于Transformer的最大MoE模型，拥有3890亿总参数（389B）和520亿激活参数（52B）。腾讯今日在HuggingFace开源了Hunyuan-A52B-Pretrain、Hun……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...智元了解，字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向，团队规划了VAR为高优项目，投入研究小组和大量资源。除了VAR，团队还发表了LlamaGen等相关技术论文，新的研究成果也将在近期陆续放出。事...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

全球首个亿级参数量的地震波大模型在蓉正式发布，年底公测

...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场，全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布，标志着中国在地震监测、预警和前兆...……更多

2024-07-29 09:29:00公测,地震波,地震,模型,参数,全球

精准狙击Llama 3.1？Mistral AI开源Larg

...所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成

文生图参数量升至240亿！Playground v3发布：深

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

万字技术干货！LLM工程师必读量化指南，可视化图解揭秘大模型

...量化」的基本概念和分支方法进行了全方位总结。大语言模型（LLM）通常过于庞大，无法在消费级硬件上运行。这些模型的参数可能超过数十亿，通常需要显存较大的GPU来加速推理过程。因此，越来越多的研究开始关注如何缩小...……更多

2024-08-01 09:38:00干货,可视化,模型,工程师,指南,工程

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。开放源代码促进会（Open Source Initiative，OSI）发布了「开源 AI 定义」的 1.0 正式版。此举旨在澄清 Open Source 这一术语...……更多

2024-10-30 09:52:00权威,标准,数据,模型,系统,训练

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...Yann LeCun 批评 LLM 的推文之一相反，他更注重所谓的世界模型（World Model），也就是根据世界数据拟合的一个动态模型。比如驴，正是有了这样的世界模型，它们才能找到更省力的负重登山方法。近日，LeCun 团队发布了他们在世界...……更多

2024-11-19 09:48:00样本,模型,特征,视觉,训练,规划

苹果发布mm1.5-ui模型

...13日消息，近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数据对模型性能产生的影响，相关模型文...……更多

2024-10-13 10:57:00模型,苹果,模型,苹果公司,数据,苹果

替代NVIDIA，摩尔线程&无问芯穹联手首次实现国产GPU端

...出大招，联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训，而使用的平台就是摩尔线程国产全功能GPU MTT S4000组成的千卡集群，以及无问芯穹的AIStudio PaaS平台。这次实训充分验证了夸娥千卡智算集群在大模型训练场景下...……更多

2024-05-27 15:11:00摩尔,线程,模型,国产,摩尔,模型

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

Databricks推出目前最强开源 AI

3月31日消息，Databricks近日在推出了一款通用大语言模型DBRX，号称是“目前最强开源AI”，据称在各种基准测试中都超越了“市面上所有的开源模型”。从官方新闻稿中得知，DBRX是一个基于Transformer的大语言模型，采用MoE（Mixture...……更多

2024-04-01 12:06:00模型,基准,测试,语言,英伟,训练

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...后，开发者们甚至还发现，Reflection可能就是个「套壳」模型，而且还是连套三家的那种（Claude/GPT/Llama）。这下子，Reddit和X等平台上，立刻掀起了质疑的声浪。左右滑动查看为此，Shumer承诺将和Glaive创始人Sahil Chaudhary一起调查...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

ibm开源“最先进”和高性能的granite代码模型

...BM现已开源其“最先进”和高性能的Granite（花岗岩）代码模型。IT之家附开源链接如下：GitHub：点此进入HuggingFace：点此进入Granite代码模型的参数范围从3B到34B，并且有基础模型和指令跟随模型两种变体，适用于复杂应用现代化...……更多

2024-05-22 10:19:00高性能,最先,模型,代码,模型,代码

GPT刚刚公开「草莓」项目：推理能力翻倍，定价200美元？

...The Information 在最新的报道中披露，两位测试过「草莓」模型的人士表示，OpenAI 可能将在接下来的两周内发布「草莓」模型，并上线 ChatGPT。但不同于 GPT-4o、GPT-4o mini 是在优化使用体验和成本，「草莓」的目标是再一次让大模型...……更多

2024-09-12 09:49:00推理,草莓,定价,能力,项目,草莓

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。具体来说，此次谷歌一共带来了Gemini的三个版本：Gemini Ultra：谷歌最大、最强模型，适用于高度复...……更多

2023-12-07 09:35:00突发,模型,模态,模型,基准,数据

“重创”美科技股后，DeepSeek除夕再发新模型，文生图测

刚刚暴击完美股，国产大模型公司深度求索（DeepSeek）又抛出新模型。1月28日，DeepSeek发布开源多模态模型Janus-Pro，其中70亿参数版本的Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的 DALL-E 3和Stability AI的Stable D……更多

2025-01-28 09:10:00文生,科技股,模型,测试,科技,模型