模型,参数,模型,训练,测试,时计头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

微软发布旗下最小语言模型phi-2

...会已拉开帷幕，微软在本次活动中发布了旗下最小的语言模型Phi-2，共有27亿参数，相比较此前版本有明显提升。注：微软于今年6月发布Phi-1，只有13亿代码，适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

最强数学大模型易主！阿里千问新模型成绩超GPT-4o

最强数学大模型，现在易主！阿里千问大模型团队发布的Qwen2-Math，不仅超越了Llama 3.1-405B，也战胜了GPT-4o、Claude 3.5等一系列闭源模型。而且还会解决竞赛级试题，在GPT-4只能做对一道的AIME 24中，Qwen2-Math答对的题目数量达到了两...……更多

2024-08-10 09:45:00模型,阿里,成绩,数学,模型,数据

OpenCity大模型预测交通路况，零样本下表现出色，来自港

长时间交通状况预测，可以用大模型实现了。香港大学联合华南理工大学和百度，推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强，可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...赵晨阳，卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...算集群规模，才能一路突破围追堵截，进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商，优刻得持续发力人工智能智算领域，与国内主流AI芯片厂商深度合作，共同搭建的「国产千卡智算集群」现已上线...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

Llama 4训练已开启！Meta科学家最新采访，揭秘Lla

...为什么不使用MoE架构？后训练与RLHF流程是如何进行的？模型评估是如何进行的？我们什么时候可以见到Llama 4？Meta是否会发展agent？恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题...……更多

2024-07-29 09:33:00科学家,训练,科学,模型,训练,基准

小模型正在成为AI界的新宠

大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼（Mustafa Suleyman）预测，仅在未来三年内，大模型规模以惊人的速度继续扩张，将增长 1000 倍。一方面，模型的参数量与其能够处理和学习的复杂性...……更多

2024-06-24 09:42:00新宠,模型,正在,模型,参数,训练

开源大模型的ChatGPT时刻？备受期待的Llama 3 4

...顶配，405B版本拥有4050亿个参数，是迄今为止最大的开源模型之一。昨夜凌晨，META突发Llama 3.1-405B评测数据的泄漏事件，有网友预计可能还会同时发布一个Llama 3.1-70B版本，因为“（模型提前泄露）是META的老传统了，去年的Llama模...……更多

2024-07-23 17:11:00模型,时刻,模型,数据,开发,人员

让大模型“外挂硬盘”，百川智能发布新API系列，企业定制成本

...爆全球AI浪潮以来，AI圈子已经迅速走过了造出了通用大模型的第一道关卡，如今最关键的问题在于——如何让大模型高效地在实际应用场景中落地？百川智能的最新实践是：用大模型+增强技术，可以大大提升企业应用大模型的...……更多

2023-12-21 15:32:00百川,外挂,模型,成本,硬盘,智能

面壁智能发布2B模型：适配主流手机，推理成本仅为GPT-4的

文 | 周鑫雨编辑 | 邓咏仪当大模型加速应用落地，运行成本就成为各厂商的现实考量。将模型做小，成为现实市场需求下的趋势。但模型的Scaling Law（规模定律）已指出，参数规模是决定模型性能的最关键因素。如何用更小的参...……更多

2024-02-03 16:03:00适配,推理,模型,主流,成本,智能

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

科学家提出情景学习新范式，让学霸大模型向学弱大模型输送能力

近日，上海算法创新研究院大模型团队的研究员李志宇和同事提出一种情景学习新范式：SLEICL（基于强模型增强的情景学习，Strong LLM Enhanced ICL），能更好地加速小模型的学术研究和产业落地。借助这一方法可以大幅提升小模型...……更多

2024-03-01 09:36:00模型,范式,科学家,情景,能力,科学

“言出必行”马斯克，全球最大开源模型Grok真的来了

刚刚开源的 Grok，一举拿下迄今为止“全球最大开源模型”称号。马斯克又搞了个全球第一。Grok开源美东时间3月17日，xAI 正式宣布开源大模型Grok-1的权重和网络架构。xAI 表示，开源版大模型Grok-1是一个由 xAI 从头开始训练的 314...……更多

2024-03-18 11:50:00马斯,马斯克,模型,全球,马斯,马斯克

亚马逊开发史上最大文本转语音模型

...能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。近年来，像ChatGPT这...……更多

2024-02-18 12:49:00开发史,亚马,亚马逊,语音,模型,文本

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

清华郑纬民院士：AI for Science的出现，让高性能

...准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理。关于MEET 智能未来大会：MEET大会是由量子位主办的智能科...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

全球首个亿级参数量的地震波大模型在蓉正式发布，年底公测

...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场，全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布，标志着中国在地震监测、预警和前兆...……更多

2024-07-29 09:29:00公测,地震波,地震,模型,参数,全球

精准狙击Llama 3.1？Mistral AI开源Larg

...所未有的速度加速，继 Meta 昨天推出其新的开源 Llama 3.1 模型之后，法国 AI 初创公司 Mistral AI 也加入了竞争。刚刚，Mistral AI 宣布其旗舰开源模型的下一代产品：Mistral Large 2，该模型拥有 1230 亿个参数，在代码生成、数学、推理...……更多

2024-07-26 09:36:00模型,基准,多语,测试,性能,生成