模型,参数,模型,训练,测试,时计头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...【Future】。发布ChatGPT仅三个多月后，OpenAI亲手为这场大模型热潮再添了把柴火。北京时间3月15日凌晨，OpenAI在官网上宣告了多模态大模型GPT4的诞生。优化了模型可支持的输入模态、文本长度等性能之外，OpenAI在GPT-4的基础上升...……更多

2023-03-15 16:33:00创业者,中国,模型,创业,模型,企业

让大模型“外挂硬盘”，百川智能发布新API系列，企业定制成本

...爆全球AI浪潮以来，AI圈子已经迅速走过了造出了通用大模型的第一道关卡，如今最关键的问题在于——如何让大模型高效地在实际应用场景中落地？百川智能的最新实践是：用大模型+增强技术，可以大大提升企业应用大模型的...……更多

2023-12-21 15:32:00百川,外挂,模型,成本,硬盘,智能

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

文 | 周鑫雨编辑 | 邓咏仪当大模型加速应用落地，运行成本就成为各厂商的现实考量。将模型做小，成为现实市场需求下的趋势。但模型的Scaling Law（规模定律）已指出，参数规模是决定模型性能的最关键因素。如何用更小的参...……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

NeurIPS Spotlight｜从分类到生成：无训练的可

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为...……更多

2024-12-06 09:52:00生成,训练,分类,生成,样本,指导

交通类 AI 项目预演阶段，本地化部署的一些新思路

...段中，通常小规模算力就可以满足需求。此阶段主要是对模型的可行性、架构设计的合理性以及算法的有效性进行初步验证，此时模型规模相对较小，参数数量和复杂度都处于较低水平。例如，在构建一个简单的文本分类预演模...……更多

2025-04-24 18:00:00思路,阶段,交通,项目,模型,交通

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...领域中，序列建模是一项至关重要的任务。然而，现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此，北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon，它为解决这些难题带来了创新...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

重复造轮子的百模大战：两极热中间空

...粟“不敢下手，现在中国还没跑出来一家绝对有优势的大模型，上层应用没法投，担心押错宝。”投资人Jucy（化名）向光锥智能表示，AI项目看得多、投的少是这段时间的VC常态。ChatGPT点燃AI大爆炸2个月中，中国一直在等待自己...……更多

2023-04-14 18:02:00轮子,两极,大战,模型,中国,阿里

首届全国先进计算技术创新大赛火热报名中！赛题介绍之2：算法创

...（EDA）是芯片行业的关键技术。对于EDA工具，精确的器件模型又是所有仿真的基础。常规的器件建模需要人为对测试数据进行分析并结合相应的物理模型进行拟合。需要耗费大量的人力和时间，还存在精度误差的问题。若能够使...……更多

2023-08-23 11:00:00技术创新,算法,首届,大赛,先进,专题

复旦MOSS大模型开源了！Github和Hugging Fa

复旦大模型MOSS，正式开源了！作为国内首个开放测试的类ChatGPT产品，MOSS开源地址一放出，又冲上知乎热搜：从官网介绍来看，MOSS是一个拥有160亿参数的开源对话语言模型。它由约7000亿中英文及代码单词预训练得到，精度要求...……更多

2023-04-23 16:48:00复旦,模型,同时,复旦,模型,团队

科学家提出情景学习新范式，让学霸大模型向学弱大模型输送能力

近日，上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式：SLEICL（基于强模型增强的情景学习，Strong LLM Enhanced ICL），能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多

2024-03-01 09:36:00模型,范式,科学家,情景,能力,科学

“言出必行”马斯克，全球最大开源模型Grok真的来了

刚刚开源的 Grok，一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日，xAI 正式宣布开源大模型Grok-1的权重和网络架构。xAI 表示，开源版大模型Grok-1是一个由 xAI 从头开始训练的 314...……更多

2024-03-18 11:50:00马斯,马斯克,模型,全球,马斯,马斯克

亚马逊开发史上最大文本转语音模型

...能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。近年来，像ChatGPT这...……更多

2024-02-18 12:49:00开发史,亚马,亚马逊,语音,模型,文本

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

腾讯推出 Hunyuan-Large 开源大模型

IT之家11月5日消息，腾讯今日宣布推出Hunyuan-Large大模型，官方表示这是目前业界已经开源的基于Transformer的最大MoE模型，拥有3890亿总参数（389B）和520亿激活参数（52B）。腾讯今日在HuggingFace开源了Hunyuan-A52B-Pretrain、Hun……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

腾讯发布最大开源MoE模型，3890亿参数免费可商用

...家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。Hunyuan-Large，3890亿总参数，520亿激活参数。跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯...……更多

2024-11-07 09:54:00腾讯,商用,模型,参数,模型,数据

AI大模型行业报告：大模型发展迈入爆发期，开启AI新纪元（附

技术：大模型发展呈现“规模定律”，Transformer为技术基座1.1 大模型“大力出奇迹”的背后：Scaling Law大规模语言模型（Large Language Models，LLM）泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模...……更多

2024-10-21 10:03:00模型,行业报告,新纪元,报告,发展,行业

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶A

...读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进...……更多

2024-11-19 09:49:00模型,训练,小时,学习,世界,模型

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...智元了解，字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向，团队规划了VAR为高优项目，投入研究小组和大量资源。除了VAR，团队还发表了LlamaGen等相关技术论文，新的研究成果也将在近期陆续放出。事...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

chatgpt低成本复现流程来了

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需 1.62GB 显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch，单机训练速度最...……更多

2023-02-17 14:37:00流程,成本,模型,训练,内存,参数

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

全球首个亿级参数量的地震波大模型在蓉正式发布，年底公测

...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场，全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布，标志着中国在地震监测、预警和前兆...……更多

2024-07-29 09:29:00公测,地震波,地震,模型,参数,全球

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

最前线 | APUS发布千亿级天燕大模型AiLMe，toC应

...移动互联网公司麒麟合盛APUS推出了自研的千亿级参数大模型“天燕大模型AiLMe”，以及针对垂直应用场景的四个模型文本模型“异雀八”、图像模型“异雀三”、视频模型“异雀四”、音频模型“异雀六”。作为一家成立近九年...……更多

2023-04-20 12:47:00燕大,模型,应用,服务,模型,李涛

精准狙击Llama 3.1？Mistral AI开源Larg

...所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成