小语,模型,模型,四天,生成,变体头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

amd公布自家首款“小语言模型”

9月29日消息，AMD在Huggingface平台公布了自家首款“小语言模型”AMD-Llama-135m，该模型具有推测解码功能，拥有6700亿个token，采用Apache2.0开源许可。据介绍，这款模型主打“推测解码”能力，其基本原理是使用小型草稿模型生成一...……更多

2024-09-30 04:12:00小语,模型,模型,四天,生成,变体

AMD发布首个AI小语言模型：6900亿token、推测解码

快科技10月1日消息，AMD发布了自己的首个小语言模型(SLM)，名为“AMD-135M”。相比于越来越庞大的大语言模型(LLM)，它体积小巧，更加灵活，更有针对性，非常适合私密性、专业性很强的企业部署。AMD-135小模型隶属于Llama家族，...……更多

2024-10-01 17:04:00小语,提速,模型,模型,性能,训练

huggingface公布“smollm”小语言模型家族

7月20日消息，如今小语言模型开始升温，许多厂商开始推出适用于手机等轻量级设备的“小模型”，本周HuggingFace便公布了“SmolLM”小语言模型家族，其中包含1.35亿、3.6亿及17亿参数模型。据介绍，这些模型号称是以精心策划的...……更多

2024-07-21 01:19:00小语,模型,家族,模型,小语,参数

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

扩散模型也能搞定社交信息推荐，港大数据智能实验室提出RecD

用扩散模型搞社交信息推荐，怎么解决数据噪声难题？现有的一些自监督学习方法效果还是有限。针对此，港大数据智能实验室提出了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架，能够更好地捕捉用户的潜在偏好...……更多

2024-07-30 09:31:00社交,实验室,模型,实验,智能,数据

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...量，成为首个不使用位置嵌入的DiT。 - 基于仅解码器「小语言模型」的文本编码器这里，研究人员使用了Gemma（仅解码器LLM）作为文本编码器，以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展，但大多...……更多

2024-10-18 09:49:00英伟,清华,架构,大片,性能,笔记本

stabilityai推出小语言ai模型

...年推出的第二款模型，号称是“自家迄今以来最为强大的小语言AI模型”。从新闻稿中得知，这款AI模型支持英语、西班牙语、德语、意大利语、法语等7种语言，拥有“体积小、性能高效”特点，并号称在“安全透明的环境下训...……更多

2024-01-22 11:31:00小语,模型,模型,小语,新闻稿,新闻

火爆全球的AI音频大模型，最新技术细节揭秘

...月19日在Arxiv上分享了Stable Audio Open的研究论文，公开了该模型背后的技术细节。Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型，可免费生成长达47秒的样本和音效，还可生成44.1kHz高质量立体声音频，并且能在消费...……更多

2024-07-25 09:22:00最新技术,火爆,模型,细节,音频,全球

模拟5亿年自然进化史，全新蛋白质大模型ESM3诞生！前Met

...：乔杨好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理，团队还在实验中发现，它设计的新蛋...……更多

2024-06-27 09:31:00进化史,力作,老将,蛋白质,进化,蛋白

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

苹果新论文：AI 大模型可能不会推理。AI 大模型（LLM）真的像我们理解的那样能「思考」或「推理」吗？最近，苹果的一篇论文探讨了这个问题，并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

NeurIPS 2024 | FaceChain团队新作，开

...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后，FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作，FaceChain-FACT。继 TransFace 之后，FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多

2024-10-18 09:46:00人脸,拓扑,新作,模型,团队,人脸

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Col...……更多

2024-11-08 09:47:00残差,豆包,收敛,字节,模型,团队

ibm开源“最先进”和高性能的granite代码模型

...BM现已开源其“最先进”和高性能的Granite（花岗岩）代码模型。IT之家附开源链接如下：GitHub：点此进入HuggingFace：点此进入Granite代码模型的参数范围从3B到34B，并且有基础模型和指令跟随模型两种变体，适用于复杂应用现代化...……更多

2024-05-22 10:19:00高性能,最先,模型,代码,模型,代码

更快、更强、更经济！港大开源大模型RAG系统LightRAG

...LightRAG在检索准确性和响应多样性方面均优于现有的基线模型，并且在资源消耗和动态环境适应性方面表现更优，使其在实际应用中更为有效和经济。随着大语言模型（LLM）自身能力的日趋完善，很多学者的目光聚焦于如何帮助...……更多

2024-10-15 09:57:00更快,模型,经济,系统,检索,数据

o1规划能力首测！已超越语言模型范畴，preview终于赢m

...o1-preview在规划任务上，表现显著优于o1-mini。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前，OpenAI自己人也发了一张图，显示preview论性能比不过满血版，论经济性又不如mini，处...……更多

2024-09-29 09:51:00范畴,模型,能力,语言,规划,模型

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问

...需要为 LLM 构建一种能使其实现自我提升的基本机制，让模型可以持续地自我生成和自我求解更困难的问题。于是，问题就来了：语言模型能否自我创建可学习的新任务，从而实现自我改进以更好地泛化用于人类偏好对齐？为...……更多

2024-11-06 09:44:00框架,人类,问题,提示,策略,模型

2024中国生成式AI大会演讲：大模型的应用创新与落地探索

...作，大幅提升开发效率。在对话流程方面，百融云创通过小语言模型Prompt改写，可以让对话流程变得更顺畅。在业务流程方面，百融云创大模型能使之变得更加顺畅。比如很多企业的数据运营场景，涉及到大量的数据查询、需求...……更多

2024-04-26 13:16:00中国,落地,生成,模型,大会,应用

比Stable Diffusion便宜118倍！1890美元

...研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱？之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多

2024-08-13 09:42:00文生,高质量,模型,参数,模型,训练

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

加速AI落地企业！微软解读Copilot技术栈，云端混合大小

...并不是只有大模型，高效的端侧小模型同样重要。微软的小语言模型Phi-3系列，发布全新多模态模型Phi-3-vision，其具备42亿参数，可提供语言和图像处理能力，能够实现基于照片的推理，并优化对图表内容的理解能力。Phi-3小语言...……更多

2024-06-15 09:29:00微软,云端,落地,混合,模型,大小

OpenAI o1 模型 PlanBench 规划能力实测：

...州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 ...……更多

2024-09-26 09:50:00准确率,实测,模型,能力,规划,模型

openai推出gpt-4turbo：比上代便宜三倍

...天的OpenAI首届开发者大会上，OpenAI推出了GPT-4Turbo，这款模型正处于预览状态，号称对于开发者而言“比上代GPT-4便宜三倍”。据悉，GPT-4Turbo支持128k上下文，输入价格比GPT-4便宜了三倍，速率限制翻倍，知识库更新到2023年4月，此...……更多

2023-11-07 11:18:00上代,模型,开发,人民币,上下文,价格

英伟达最新技术分享：手把手教你用Llama 3.1合成数据改

【新智元导读】适逢Llama 3.1模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文，结果。真实数据稀缺可能不再是问题...……更多

2024-07-30 09:38:00手把,英伟,最新技术,模型,代码,数据

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

字节版Sora火爆24小时，同名论文再次被热议

...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型，支持文生/图生视频，时长可达10s。以PixelDance为例，其最大特色在于多主体交互，一致性多镜头生成。啥意思？？——直接来看几个官方demo。First kill，现在手上有这...……更多

2024-09-26 13:41:00字节,火爆,再次,小时,论文,指令

最新AI生图模型Flux1.1刷屏！添加单反相机文件名获得超

最新AI文生图模型Flux1.1，一夜刷屏。只需一个简单技巧，就能去除图中的“AI味”，无论人物还是风景都能达到照片级效果。评论区网友的反应be like：我分不清，真的分不清啊。这个技巧用起来也非常简单，在提示词中模仿单...……更多

2024-10-09 09:55:00文件名,模型,图像,相机,文件,模型

上千项改进！.net 9正式发布：微软用5个“最”概括

...对常用模型系列的增强标记化、新增对分词算法的支持、小语言模型和大语言模型（SLM和LLM）、嵌入、矢量存储、中间件等。此外还推出了Microsoft.Extensions.AI和Microsoft.Extensions.VectorData，为与AI服务交互提供了统一的C#抽象层。微...……更多

2024-11-14 09:52:00微软,上千,概括,应用,性能,微软