模型,参数,模型,训练,项目,上实头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...快吧，首个开源ChatGPT项目已经出现了！基于谷歌语言大模型PaLM架构，以及使用从人类反馈中强化学习的方法（RLHF），华人小哥 PhillipWang 复刻了一个ChatGPT出来。项目GitHub星已经超过1.7k了，而且还在一路飙升ing。不过一反常态的...……更多

2022-12-30 20:18:00模型,参数,模型,训练,项目,上实

中国移动助力中国石油发布3000亿参数昆仑大模型

...晓莉）日前，中国移动助力中国石油的3000亿参数昆仑大模型建设成果发布。中国移动总经理何飚表示，中国移动作为中国石油昆仑大模型项目的总集成方，组建了14个专项工作组，全力保障项目高质量交付。在算力供给上，建成...……更多

2025-05-29 18:35:00中国,昆仑,中国移动,模型,参数,石油

杨仝团队发布FairyR1模型：5%参数量数学和代码能力超越

北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座，通过结合微调与模型合并技术构建。研究探索了在参数量大幅减少的情况下，模型在特...……更多

2025-05-28 14:17:00模型,团队,参数,能力,数学,代码

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

...转自：中国新闻网6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE，性能强劲，同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE...……更多

2024-06-03 20:59:00万维,昆仑,模型,模型,万维,昆仑

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

优刻得首个「国产千卡智算集群」落地，支持智源千亿大模型训练

...算集群规模，才能一路突破围追堵截，进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商，优刻得持续发力人工智能智算领域，与国内主流AI芯片厂商深度合作，共同搭建的「国产千卡智算集群」现已上线...……更多

2024-06-27 19:01:00集群,落地,模型,国产,训练,支持

百川智能发布baichuan3稳定语言模型

1月29日，百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

谷歌发布 MediaPipe Diffusion 插件

谷歌发布低成本可控文生图插件模型MediaPipeDiffusion，移动端提速20+倍，在v100上运行提速高达100倍。近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作...……更多

2023-07-13 05:54:00插件,图像,模型,生成,插件,文本

马斯克官宣Grok-2测试版！xAI将继续拥抱开源路线吗？

继旗下xAI公司宣布正式开源大模型Grok-1后，特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。当地时间8月11日晚，马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上，马斯克在7月份就在X平台上确认，Gr...……更多

2024-08-13 09:50:00马斯,马斯克,测试版,路线,测试,模型

小米大模型：不搞军备竞赛

轻量级的模型亦有其存在的市场空间。2022年11月底，基于GPT-3.5的ChatGPT刚出来的时候，小米集团AI实验室主任、自然语言处理（NLP）首席科学家王斌给ChatGPT抛出一个问题：证明一下勾股定理。最终，ChatGPT给出了一个基于数学归...……更多

2023-11-08 18:13:00军备,小米,竞赛,模型,模型,小米

成都人形机器人创新中心全国首发 R-DDIRM 高速推理模型

...破，于近日全国首发基于扩散架构的人形机器人高速推理模型 R-DDIRM（Denoising Diffusion Implicit Robot Model）。这是继今年 5 月推出中国首个基于扩散架构人形机器人任务生成式模型 R-DDPRM（Denoising Diffusion Probabi……更多

2024-11-25 09:49:00成都,人形,机器人,推理,模型,机器

130亿参数大模型免费商用

7月11日，百川智能发布了其最新的大模型Baichuan-13B，这是一款拥有130亿参数的开源可商用大规模语言模型。据官方介绍，Baichuan-13B在中英文基准测试中取得了同尺寸模型中最好的效果。此次发布的模型包含预训练（Baichuan-13B-Base...……更多

2023-07-12 16:58:00商用,模型,参数,模型,百川,训练

AI探索宇宙结构新突破！超精准场级模拟，半秒完成冷暗物质仿真

...进行编码的样式参数。研究人员在六维N-body相空间上训练模型，将粒子速度预测为模型位移输出的时间导数，显著提高了训练效率和模型准确性。最终，模拟器在测试数据（训练期间未见过的各种宇宙学和红移）上实现了良好的...……更多

2024-09-20 13:34:00暗物质,仿真,宇宙,突破,结构,粒子

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源

...，Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号，他们开源了一切，包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解，这应该是有史以来首个以去中心化形式训练得到的 10B 大...……更多

2024-12-03 13:34:00三洲,欧亚,开发者,模型,流程,训练

infini-attention：谷歌大内存机制

...歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提出的...……更多

2024-04-14 02:57:00大内,机制,上下文,模型,处理,上下

华人团队爆火instructblip抢跑看图聊天

碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。GPT-4看图聊天还没上线，就已经被超越了。近来，华人团队开源了多模态基础模型InstructBLIP，是从BLIP2模型微调而来的模型。BLIP家族...……更多

2023-05-15 20:17:00团队,华人,指令,数据,模型,研究

chatgpt低成本复现流程开源

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高...……更多

2023-02-15 15:47:00流程,成本,模型,训练,内存,参数

要把大模型做成人人用得起的“茶叶蛋”（图）

...自：天津日报本报记者岳付玉360集团创始人周鸿祎以大模型为代表的人工智能技术如何推动工业革命？“我有一个观点，‘要把大模型拉下神坛’。”360集团创始人周鸿祎说，以电脑为例，当年超级电脑并没有引发工业革命，...……更多

2024-06-21 05:17:00茶叶蛋,茶叶,模型,人人,模型,周鸿

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...点在于，Llama 3.2成为羊驼家族中，首个支持多模态能力的模型。Connect大会上，新出炉的Llama 3.2包含了小型（11B）和中型（90B）两种版本的主要视觉模型。正如Meta所说，这两款模型能够直接替代，相对应的文本模型，而且在图像...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...雨编辑 | 邓咏仪全球首家发布Sora同款底层架构的清华系模型公司，近期完成了新一轮融资。投资名单中，也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

chatgpt低成本复现流程来了

首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需 1.62GB 显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升 10.3倍。相比原生PyTorch，单机训练速度最...……更多

2023-02-17 14:37:00流程,成本,模型,训练,内存,参数

1行代码改进大模型训练，Llama训练速度升至1.47倍，华

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

商汤日日新大模型体系更迭升级，金融、医疗等行业场景落地已超2

今年6月拍摄的商汤大模型产品商量SenseChat界面（来源：钛媒体App编辑拍摄）时隔仅3个月，商汤“日日新”AI大模型正式更新，部分能力超越了基于GPT-3.5的ChatGPT，并且这家AI巨兽开始把重心放到大模型规模化落地应用中。钛媒体...……更多

2023-07-11 13:00:00商汤,落地,模型,场景,体系,升级

GPT-4被破解训练成本模型架构的秘密都被挖出来了？

...字节跳动、百度等在短期内都将拥有与 GPT-4 一样强大的模型。不要误解我们的意思，OpenAI 拥有令人惊叹的工程技术，他们构建的东西令人难以置信，但他们得出的解决方案并不神奇。这是一个优雅的解决方案，具有许多复杂的...……更多

2023-07-12 20:14:00挖出,架构,模型,成本,训练,秘密

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建...……更多

2024-09-06 10:01:00推理,模型,成本,参数,模型,训练

垂直大模型竞争，能突破数据“卡点”吗？

AI大模型火遍全球，中国产业也激发了对人工智能应用的新热情。随着各大厂商参与竞逐，市场正在分化为通用与垂直两大路径，两者在参数级别、应用场景、商业模式等方面差异已逐步显现。01 企业涌入垂直大模型赛道通用AI...……更多

2023-05-19 14:01:00模型,突破,竞争,数据,模型,数据

国内团队新发大模型：ceo上阵写代码

国内自研大模型迎来新面孔，而且发布即开源！最新消息，多模态大语言模型TigerBot正式亮相，包含70亿参数和1800亿参数两个版本，均对外开源。由该模型支持的对话AI同步上线。写广告语、做表格、纠正语法错误，效果都不错...……更多

2023-06-07 21:01:00新发,模型,团队,代码,模型,团队

huggingface公布“smollm”小语言模型家族

7月20日消息，如今小语言模型开始升温，许多厂商开始推出适用于手机等轻量级设备的“小模型”，本周HuggingFace便公布了“SmolLM”小语言模型家族，其中包含1.35亿、3.6亿及17亿参数模型。据介绍，这些模型号称是以精心策划的...……更多

2024-07-21 01:19:00小语,模型,家族,模型,小语,参数

神级项目训练GPT-2仅需5分钟，Andrej Karpat

...只需 233 美元。还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗？今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。llm.c ……更多

2024-11-22 09:50:00仅需,训练,项目,训练,迭代,运行

page 1/20000 首页上一页 12 3 4 5 6 下一页末页

更多关于科技的资讯：