模型,参数,模型,训练,测试,时计头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

继旗下xAI公司宣布正式开源大模型Grok-1后，特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Gr...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

一块GPU都没用，苹果自研大模型干翻GPT-4？

...，上线Apple Intelligence的首个版本，同时47页的苹果自研大模型技术报告重磅发布。Apple Intelligence首个版本上线了以下AI功能：1、Siri升级。Siri唤醒后具备屏幕边缘发光特效，能理解用户表述不通顺的指令，且能回答关于苹果产品...……更多

2024-07-31 09:37:00模型,苹果,模型,苹果,开发者,开发

杨仝团队发布FairyR1模型：5%参数量数学和代码能力超越

北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座，通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下，模型在特...……更多

2025-05-28 14:17:00模型,团队,参数,能力,数学,代码

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

Scaling Law百度最早提出！OpenAI/Claud

...统团队。他们探讨了深度学习中训练集大小、计算规模和模型精度之间的关系，并且通过大规模实证研究揭示了深度学习泛化误差和模型大小的缩放规律，还在图像和音频上进行了测试。只不过他们使用的是 LSTM，而不是Transforme...……更多

2024-11-28 09:57:00模型,训练,数据,大小,研究,误差

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

苹果最新杀入开源大模型战场，而且比其他公司更开放。推出7B模型，不仅效果与Llama 3 8B相当，而且一次性开源了全部训练过程和资源。要知道，不久前Nature杂志编辑Elizabeth Gibney还撰文批评：许多声称开源的AI模型，实际上在...……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

全面开源浪潮信息发布千亿参数基础大模型“源2.0”

...浪潮电子信息产业股份有限公司在京发布“源2.0”基础大模型，并宣布全面开源。“源2.0”包括102B（1026亿）、51B（518亿）、2B（21亿）三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。基础大模型的关键能...……更多

2023-11-28 07:46:00浪潮信息,浪潮,模型,参数,基础,信息

AI探索宇宙结构新突破！超精准场级模拟，半秒完成冷暗物质仿真

...进行编码的样式参数。研究人员在六维N-body相空间上训练模型，将粒子速度预测为模型位移输出的时间导数，显著提高了训练效率和模型准确性。最终，模拟器在测试数据（训练期间未见过的各种宇宙学和红移）上实现了良好的...……更多

2024-09-20 13:34:00暗物质,仿真,宇宙,突破,结构,粒子

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

10月30日，昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列，并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型：Skywork-13B-Base模型、Skywork-13B-Mat……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

反击OpenAI，谷歌放出最强悍大模型Gemini

...斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是...……更多

2023-12-07 10:31:00强悍,模型,模态,模型,训练,能力

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

AI大模型“国标”首批测试结果公布，人工智能成市场新焦点

12月22日，国内首个官方“大模型标准符合性评测”结果公布，百度文心一言、腾讯混元大模型、360智脑、阿里云通义千问四款国产大模型首批通过测试。测试结果称，上述四款模型符合《人工智能大规模预训练模型第2部分：评...……更多

2023-12-26 14:16:00人工智能,国标,人工,模型,结果,智能

类Sora模型能否理解物理规律？字节豆包大模型团队系统性研究

视频生成模型虽然可以生成一些看似符合常识的视频，但被证实目前还无法理解物理规律！自从 Sora 横空出世，业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示，基于文本提示生...……更多

2024-11-09 09:59:00模型,豆包,系统性,字节,规律,团队

微软发布旗下最小语言模型phi-2

...会已拉开帷幕，微软在本次活动中发布了旗下最小的语言模型Phi-2，共有27亿参数，相比较此前版本有明显提升。注：微软于今年6月发布Phi-1，只有13亿代码，适用于QA问答、聊天格式和代码等等场景。该模型完全基于高质量数据...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

最强数学大模型易主！阿里千问新模型成绩超GPT-4o

最强数学大模型，现在易主！阿里千问大模型团队发布的Qwen2-Math，不仅超越了Llama 3.1-405B，也战胜了GPT-4o、Claude 3.5等一系列闭源模型。而且还会解决竞赛级试题，在GPT-4只能做对一道的AIME 24中，Qwen2-Math答对的题目数量达到了两...……更多

2024-08-10 09:45:00模型,阿里,成绩,数学,模型,数据

国产模型指令跟随全球第一！来自LeCun亲推的最难作弊LLM

What？？？一直低调行事的国内初创公司，旗下模型悄悄地跃升成国内第一、世界第五（仅排在o1系列和Claude 3.5之后）！而且是前十名中的唯一一家国产公司。（该榜上国产第二名是阿里开源的qwen2.5-72b-instruct，总榜第13）。而且...……更多

2024-11-22 09:54:00指令,模型,国产,全球,模型,模态

OpenCity大模型预测交通路况，零样本下表现出色，来自港

长时间交通状况预测，可以用大模型实现了。香港大学联合华南理工大学和百度，推出了长时间城市交通预测模型——OpenCity。而且泛化能力极强，可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预...……更多

2024-09-02 13:34:00路况,样本,模型,交通,交通,模型

Hugging Face发布SmolVLM开源 AI 模型：

...日（11 月 26 日）发布博文，宣布推出 SmolVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

英伟达发布超级芯片、OpenAI在中国申请注册“GPT-5”

...ng Face 平台中的 NVIDIA DGX Cloud AI 超级计算来训练和调整 AI 模型；与 BOXX、戴尔科技、惠普和联想等工作站制造商合作，打造了一系列全新的高性能 RTX 工作站。IBM开源地理空间AI基础模型已在Hugging Face平台发布8月8日消息，IBM与开...……更多

2023-08-15 01:10:00英伟,小米,周报,中国,芯片,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...赵晨阳，卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...算集群规模，才能一路突破围追堵截，进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商，优刻得持续发力人工智能智算领域，与国内主流AI芯片厂商深度合作，共同搭建的「国产千卡智算集群」现已上线...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

天垓100率先完成百亿级参数大模型训练，天数智芯迎来新的里程

...院（以下简称“智源研究院”）70亿参数的Aquila语言基础模型，使用代码数据进行继续训练，稳定运行19天，模型收敛效果符合预期，证明天数智芯有支持百亿级参数大模型训练的能力。图天数智芯产品线总监宋煜在北京市海淀...……更多

2023-06-13 12:00:00里程,成百,天数,里程碑,模型,训练

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练