模型,参数,模型,性能,安全,研究头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

掰开安卓手机满屏都是三个字：大模型

这年头，安卓厂商没个大模型，都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手，后脚vivo就官宣自研手机AI大模型；小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度，不亚于抢芯片首发。到底是怎...……更多

2023-11-16 20:30:00安卓,三个字,模型,三个,手机,模型

Meta大模型LLaMA 3即将登场，参数量或达1400亿

在推出开源大模型LLaMA2近一年之后，Meta的新一代大模型LLaMA3即将面世。在4月9日伦敦举行的一次活动中，Meta确认计划在下个月内首次发布LLaMA3。据了解，该模型将有多个具有不同功能的版本。但Meta并没有披露LLaMA3的参数规模。...……更多

2024-04-10 22:40:00模型,参数,模型,伯格,参数,扎克

Pika爆火，但AI视频还没到「GPT时刻」；首个GPT-4

...PT时刻」》AI视频背后有两条技术路线，一条基于Transformer模型，另一条基于扩散模型（Diffusion model）。尽管AI视频技术取得进展，但还未达到真正的GPT时刻，即AI视频融入视频生产工作流并满足广泛需求的阶段。目前AI视频领域的...……更多

2023-12-14 09:34:00模型,微软,人形,早报,机器人,机器

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

NeurIPS Spotlight｜从分类到生成：无训练的可

近年来，扩散模型（Diffusion Models）已成为生成模型领域的研究前沿，它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。然而，生成符合特定条件（如标签、属性或能量分布）的样本，通常需要为...……更多

2024-12-06 09:52:00生成,训练,分类,生成,样本,指导

揭示Transformer「周期建模」缺陷！北大提出新型神经

【新智元导读】北京大学研究团队开发的FAN模型能有效捕捉数据中的周期性模式，相比传统模型在多项任务中表现出色，同时降低了参数量和计算量，增强了对周期性特征的建模能力，应用潜力广泛。周期性现象广泛存在，深...……更多

2024-11-27 13:34:00周期,缺陷,神经网络,周期性,北大,特征

NeurIPS 2024 Oral | 小参数，大作为！揭秘

...机系的三年级博士生，研究方向涉及 MLSys 和高效大语言模型。师从栗力、须成忠教授。大型语言模型（LLMs）虽然在适应新任务方面取得了长足进步，但它们仍面临着巨大的计算资源消耗，尤其在复杂领域的表现往往不尽如人意...……更多

2024-10-22 09:57:00对称,架构,性能,参数,矩阵,任务

信号表征指数级强、内存节省35%，量子隐式表征网络

...结果也证实了 QIREN 的确表现出超越信号表示任务上 SOTA 模型的优异性能，在参数量更少的情况下，拟合误差最多减少 35%。图 1 中展示了本文的核心思想和主要结论。相关论文已经被机器学习领域最权威的会议之一 ICML 2024 接收...……更多

2024-06-27 09:24:00量子,信号,内存,指数,网络,量子

手把手教你本地部署DeepSeek：享受AI带来的便利

国内的大语言模型DeepSeek近日迅速出圈，凭借其在自然语言处理、代码生成和多轮对话等任务中的出色表现，吸引了众多开发者和研究者的关注，甚至登上了不少地区的app榜单。不过在使用时经常会遇到服务器繁忙的困扰，解决...……更多

2025-02-11 15:18:00手把,模型,速度,生成,运行,文件

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研...……更多

2024-07-30 09:37:00从头,模型,训练,参数,掩蔽,训练

首届空天信息技术大会开幕，发布全球首个百亿级遥感解译基础模型

...合鹏城实验室，正式发布自主研制的百亿级遥感解译基础模型——“空天·灵眸”3.0版，这是迄今为止全球首个百亿参数级空天一体遥感解译基础模型。近年来，我国遥感数据获取能力不断增强，已进入遥感大数据时代，人工智...……更多

2024-09-23 11:53:00空天,遥感,首届,模型,大会,基础

碾压所有对手？谷歌发布轻量化开源大模型，笔记本电脑就可跑

开源大模型赛道迎来重磅新品。当地时间2月21日，谷歌宣布正式推出全新的开源大语言模型（LLM）“Gemma”，旨在帮助开发人员和研究人员负责任地构建人工智能。据介绍，Gemma大模型与谷歌规模最大、能力最强的人工智能模型...……更多

2024-02-22 12:44:00模型,对手,笔记本,笔记,电脑,模型

首个多模态连续学习综述，港中文、清华、UIC联合发布

...态连续学习的最新进展连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘：当任务按顺序训练时，新的任务训练会严重干扰之前...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。在多个权威评测中，元象MoE效果大幅超越多...……更多

2024-09-18 13:36:00中国,商用,模型,参数,模型,专家

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分，实现了更好的上下文理解。然而，注意力机制的缺点是计算开销大，会随输入规模而二次增长，Transformer 也因此难以处理非常长的文本。...……更多

2024-09-03 09:59:00线性,新作,混合,作者,模型,线性

专家模型不要专家并行！微软开源MoE新路径

...日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

让一台普通PC欢快地跑起AIGC：Intel做到了！

...实现足够实用的AIGC，从算力强大的硬件到参数丰富的大模型，从精确合理的算法到高效便捷的应用，缺一不可。我们知道，在过去，AIGC更多在云侧服务器上，虽然性能、模型、算法都不是问题，但一则需要大量的资金投入，二...……更多

2023-10-08 21:39:00模型,文生,参数,运行,应用,越来

微软、英伟达纷纷押注小模型，大模型不香了？

...发展的道路上，科技巨头们曾经竞相开发规模庞大的语言模型，但如今出现了一种新趋势：小型语言模型（SLM）正逐渐崭露头角，挑战着过去“越大越好”的观念。视觉中国当地时间8月21日，微软和英伟达相继发布了最新的小型...……更多

2024-08-26 14:17:00模型,英伟,微软,模型,训练,性能

Llama3.1根本卖不动！业内人士：开源模型成本反而更高

Meta的开源大模型Llama 3在市场上遇冷，进一步加剧了大模型开源与闭源之争的关注热度。据外媒The Information报道，Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注，AWS的企业客户更倾向于使用Anthropic...……更多

2024-08-28 09:44:00业内人士,模型,业内,根本,人士,成本

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...又多了一个选择！今日，腾讯宣布旗下的混元视频生成大模型（HunYuan-Video ）对外开源，模型参数量 130 亿，可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的「AI 视频」板块申请试用。腾讯...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

腾讯自研大模型助力长三角打造世界级产业集群

...团副总裁、政企业务总裁李强表示，腾讯不仅通过自研大模型服务千行百业，也拥有坚实的AI基础设施服务，为中国大模型产业繁荣发展提供技术支撑。去年9月，腾讯全链路自研的腾讯混元大模型正式亮相。根据沙利文的权威报...……更多

2024-05-24 17:14:00长三角,腾讯,集群,模型,产业,世界

科学岛团队建立全球大气光学湍流预测模型

...大气光学参数建模研究团队建立了全球大气光学湍流预测模型，并首次实现了全球大气相干长度（大气光学湍流在光传输路径上的累积量）时空分布预测及可视化表征，丰富和提升了全球大气光学湍流时空分布特征的认识。该模...……更多

2023-10-17 02:32:00湍流,光学,大气,模型,团队,科学

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...手的AI论文在外网引发热议。论文中，研究团队提出了Q*模型算法，帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后，业内相关讨论始终层出不穷。...……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

Token化一切，甚至网络！北大&谷歌&马普所提出Token

...者是汪海洋，北京大学20级博士生，目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威，北京大学智能学院教授；Bernt Schiele，德国马普计算所教授；Federico Tombari 谷歌人工智能科学家等。新一代通用灵活...……更多

2024-11-15 09:51:00马普,北大,网络,模型,增量式,增量

微软开源爆火1bit大模型推理框架！千亿参数模型量化后单CP

微软开源1bit大模型推理框架！现在1000亿参数大模型量化后单CPU可跑，速度可达每秒5-7个token。就是今年爆火论文The Era of 1-bit LLMs的官方代码实现，开源不到一周GitHub已揽获7.9k Star。传统大模型参数以16位浮点数（如FP16或BF16）形...……更多

2024-10-23 12:05:00模型,微软,推理,框架,参数,模型