• 我的订阅
  • 头条热搜
amd公布自家首款“小语言模型”
9月29日消息,AMD在Huggingface平台公布了自家首款“小语言模型”AMD-Llama-135m,该模型具有推测解码功能,拥有6700亿个token,采用Apache2.0开源许可。据介绍,这款模型主打“推测解码”能力,其基本原理是使用小型草稿模型生成一...……更多
AMD发布首个AI小语言模型:6900亿token、推测解码提速3.88倍
快科技10月1日消息,AMD发布了自己的首个小语言模型(SLM),名为“AMD-135M”。相比于越来越庞大的大语言模型(LLM),它体积小巧,更加灵活,更有针对性,非常适合私密性、专业性很强的企业部署。AMD-135小模型隶属于Llama家族,...……更多
huggingface公布“smollm”小语言模型家族
7月20日消息,如今小语言模型开始升温,许多厂商开始推出适用于手机等轻量级设备的“小模型”,本周HuggingFace便公布了“SmolLM”小语言模型家族,其中包含1.35亿、3.6亿及17亿参数模型。据介绍,这些模型号称是以精心策划的...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
用扩散模型搞社交信息推荐,怎么解决数据噪声难题?现有的一些自监督学习方法效果还是有限。针对此,港大数据智能实验室提出了新项目RecDiff。RecDiff是一种全新的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...量,成为首个不使用位置嵌入的DiT。 - 基于仅解码器「小语言模型」的文本编码器这里,研究人员使用了Gemma(仅解码器LLM)作为文本编码器,以增强对提示词的理解和推理能力。尽管T2I生成模型多年来取得了显著进展,但大多...……更多
stabilityai推出小语言ai模型
...年推出的第二款模型,号称是“自家迄今以来最为强大的小语言AI模型”。从新闻稿中得知,这款AI模型支持英语、西班牙语、德语、意大利语、法语等7种语言,拥有“体积小、性能高效”特点,并号称在“安全透明的环境下训...……更多
火爆全球的AI音频大模型,最新技术细节揭秘
...月19日在Arxiv上分享了Stable Audio Open的研究论文,公开了该模型背后的技术细节。Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型,可免费生成长达47秒的样本和音效,还可生成44.1kHz高质量立体声音频,并且能在消费...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurI……更多
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Col...……更多
ibm开源“最先进”和高性能的granite代码模型
...BM现已开源其“最先进”和高性能的Granite(花岗岩)代码模型。IT之家附开源链接如下:GitHub:点此进入HuggingFace:点此进入Granite代码模型的参数范围从3B到34B,并且有基础模型和指令跟随模型两种变体,适用于复杂应用现代化...……更多
更快、更强、更经济!港大开源大模型RAG系统LightRAG
...LightRAG在检索准确性和响应多样性方面均优于现有的基线模型,并且在资源消耗和动态环境适应性方面表现更优,使其在实际应用中更为有效和经济。随着大语言模型(LLM)自身能力的日趋完善,很多学者的目光聚焦于如何帮助...……更多
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回
...o1-preview在规划任务上,表现显著优于o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐? 为...……更多
...作,大幅提升开发效率。在对话流程方面,百融云创通过小语言模型Prompt改写,可以让对话流程变得更顺畅。在业务流程方面,百融云创大模型能使之变得更加顺畅。比如很多企业的数据运营场景,涉及到大量的数据查询、需求...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类...……更多
加速AI落地企业!微软解读Copilot技术栈,云端混合大小模型是关键
...并不是只有大模型,高效的端侧小模型同样重要。微软的小语言模型Phi-3系列,发布全新多模态模型Phi-3-vision,其具备42亿参数,可提供语言和图像处理能力,能够实现基于照片的推理,并优化对图表内容的理解能力。Phi-3小语言...……更多
OpenAI o1 模型 PlanBench 规划能力实测:准确率 97.8%
...州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 ...……更多
openai推出gpt-4turbo:比上代便宜三倍
...天的OpenAI首届开发者大会上,OpenAI推出了GPT-4Turbo,这款模型正处于预览状态,号称对于开发者而言“比上代GPT-4便宜三倍”。据悉,GPT-4Turbo支持128k上下文,输入价格比GPT-4便宜了三倍,速率限制翻倍,知识库更新到2023年4月,此...……更多
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码
【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。Epoch AI上个月刚刚发文,结果。真实数据稀缺可能不再是问题...……更多
非Transformer架构站起来了!首个纯无注意力大模型,超越Llama 3.1
Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首...……更多
字节版Sora火爆24小时,同名论文再次被热议
...憋了个大的——一口气推出Seaweed和PixelDance两款豆包视频模型,支持文生/图生视频,时长可达10s。以PixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。啥意思??——直接来看几个官方demo。First kill,现在手上有这...……更多
最新AI生图模型Flux1.1刷屏!添加单反相机文件名获得超写实图像
最新AI文生图模型Flux1.1,一夜刷屏。只需一个简单技巧,就能去除图中的“AI味”,无论人物还是风景都能达到照片级效果。评论区网友的反应be like:我分不清,真的分不清啊。这个技巧用起来也非常简单,在提示词中模仿单...……更多
上千项改进!.net 9正式发布:微软用5个“最”概括
...对常用模型系列的增强标记化、新增对分词算法的支持、小语言模型和大语言模型(SLM和LLM)、嵌入、矢量存储、中间件等。此外还推出了Microsoft.Extensions.AI和Microsoft.Extensions.VectorData,为与AI服务交互提供了统一的C#抽象层。微...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。到现在为止,我们仍旧对大模型「幻觉」如何、为何产...……更多
OpenAI推出GPT商店,人人可0代码自制智能体,业界看好成为下一个苹果
...—更长的上下文长度、更强的控制、知识升级、多模态、模型微调定制和更高的速率限制。GPT-4的付费服务将“加量不加价”。 OpenAI还宣布,ChatGPT每周用户数量已达到1亿。自3月发布ChatGPT的API功能以来,该公司现在已拥有超过2...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。...……更多
更多关于科技的资讯:
高通打赢芯片诉讼!未违反Arm许可协议
快科技12月21日消息,当地时间周五,高通公司在与芯片设计公司Arm进行的一场诉讼中取得胜利。据悉,Arm此前指控高通通过收购芯片创业公司Nuvia获得并使用了Arm的技术
2024-12-21 10:01:00
快买正版!国际唱片业:现在中国互联网每天上百万AI做的音乐都是非法盗版
快科技12月21日消息,国际唱片业协会大中华区总兼中国区首席代表郭彪公开表示,现在中国互联网上每天有上百万AI做的音乐
2024-12-21 10:01:00
女子每天凌晨2点多被隔壁鸡鸭声惊醒:一波接一波根本停不下来
12月21日消息,有过农村生活经验的朋友对公鸡打鸣肯定不陌生,这些叫声非常嘹亮,在安静的凌晨能传出非常远的距离。而且如果有多只公鸡
2024-12-21 10:31:00
于东来直播员工午休打麻将引围观:要让员工每周工作36小时、月薪8千+
快科技12月21日消息,一个企业的老板,公开直播手下员工打麻将,这是什么体验?昨天于东来个人账号开播,带网友云逛胖东来办公区域
2024-12-21 10:31:00
周鸿祎:AGI发展遇瓶颈 智能体和专业大模型将扛大旗
快科技12月21日消息,近两年AI发展迅速,但目前种种迹象表明,一些AI巨头寄予厚望的AGI(通用人工智能)之路似乎已经遭遇瓶颈
2024-12-21 10:31:00
江苏:2024世界智能制造大会在南京开幕
本文转自:人民网2024年12月20日,以“加快打造智能制造升级版,因地制宜发展新质生产力”为主题的2024世界智能制造大会在南京开幕
2024-12-21 11:10:00
大众帮办|遭美团强制调低房价,百元酒店陷“低价内卷”困局
“美团一单能给我们调低20元,现在快到年底了,调价幅度又要加大,调价助手又关不掉,后期也不给商家补偿,有时候害怕进订单
2024-12-21 11:18:00
三年破万!小鹏汽车欧洲第10000辆交付:中国新势力第一
快科技12月21日消息,小鹏汽车达成了一项新成就——首家在欧洲市场交付达成1万辆的中国造车新势力,这距离其首次向欧洲出口汽车仅3年时间
2024-12-21 11:31:00
近期关于“年轻人开始反向驯化大数据杀熟”的关键词冲上热搜,引发全网热议。大数据杀熟,这个听起来颇具科技感的词汇,实则是对消费者权益的严重侵害
2024-12-21 11:57:00
世界智能制造大会在宁举行,玄武大模型工厂携“友”参展
“智慧”的制造业,是什么模样?12月20日至22日,2024世界智能制造大会在宁举行。大会期间,依托江苏国际数据港建设的玄武大模型工厂携“友”亮相——既有灵活摇动酒杯而滴酒不洒
2024-12-21 13:44:00
花几个亿建智算中心,八成的GPU租不出去丨焦点分析
作者丨邱晓芬编辑丨苏建勋在过去两年的中国AI行业,有一项奇观:许多没有任何GPU背景、算力行业经验的上市公司,将智算中心当做他们发展第二曲线的抓手
2024-12-21 12:12:00
超算+AI,我国科研团队解锁地球20亿年生命演化“密码”
南京大学科研团队联合中外多家科研单位,研究通过建立早期地球化石大数据,揭示了地球大约从20亿年到5亿年前早期生命多样性演化历程
2024-12-21 08:57:00
社交应用收入排名超ChatGPT,“出道晚增长快”的产品如何靠短剧崛起
“当地人不太爱存钱,有了钱就消费,比较推崇享乐主义,泛娱乐产品在当地比较有市场”一位在巴西做娱乐应用的出海人讲述,在这个拥有2
2024-12-21 09:07:00
抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好
【新智元导读】北京大学等研究团队优化了Sdcpp框架,通过引入Winograd算法和多项策略,显著提升了图像生成速度和内存效率
2024-12-21 09:14:00
谷歌版o1突发即屠榜!思考速度比所有模型快5倍,能解摩斯代码
谷歌版o1来了!在奥特曼“双十二”倒数第二天——他们发布Gemini 2.0 Flash Thinking,顾名思义,以闪电般的速度解决复杂问题并展示其思考过程的实验模型
2024-12-21 09:15:00