• 我的订阅
  • 头条热搜
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
【新智元导读】谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型,又上新了!就...……更多
...然图像是一个重要的里程碑。QST研究人员称,人类已使用显微镜和其他设备来观察肉眼看不见的世界,但还无法看到一个人的内心世界,这是人类第一次窥视另一个人头脑中的思想。从本质上讲,它可用来帮助创建新的通信设备...……更多
世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想
...人员使用一种名为“字典学习”的技术,通过“稀疏自动编码器”,开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底,他们在极小的“玩具”版本的语言模型上取得了一些成功,发现了模型在处理DNA...……更多
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
...解大型语言模型如何工作方面取得了突破性进展:稀疏自编码器(SAE)在其激活空间中发现了大量可解释为概念的点(「特征」)。最近,此类 SAE 点云已公开发布,因此研究其在不同尺度上的结构正当其时。最近,来自 MIT 的...……更多
稀疏自编码器是如何工作的,这里有一份直观说明
...阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解...……更多
...精细化覆盖。最内层“1公里×1公里”的网格犹如“环境显微镜”,能够敏锐捕捉街道级别的污染变化特征。为了让模型更加“聪明”,不需人工干预,就可以定时定点智能计算,在前期系统的开发上,创蓝科技针对南京的地形...……更多
...式的跨越。文|闻静功能性磁共振成像(fMRI)是一种测量大脑活动的非侵入性方法,原理是通过刺激特定感官,激活大脑皮层相应部位的神经,并通过磁共振图像来显示。近日,科学家将fMRI与大型语言模型(LLM:一种人工智能算...……更多
谷歌 AI 绘画 4 大牛携手创业,天使估值 7 个亿
...含一个冻结的语言模型T5-XXL(谷歌自家出品),当作文本编码器。T5-XXL的C4训练集包含 800GB 的纯文本语料,在文本理解能力上比CLIP强不少,因为后者只用有限图文对训练。图像生成部分则用了一系列扩散模型,先生成低分辨率...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...究表示了认可:「我们知道,当使用自监督学习训练视觉编码器时,使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像...……更多
...任程和平院士介绍,团队通过自主研发的双侧扫描双光子显微镜,首次实现SCN区域近万颗神经元跨昼夜的钙成像。研究发现,SCN中以钙脉冲为基本单元,可形成从秒到小时到近日周期的跨尺度钙信号,展示出潜在的时间编码能力...……更多
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...纽约大学的Yann LeCun的转发。当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...过程。 语义遵从:业界首个以多模态大语言模型为文本编码器的视频生成模型,天然具备超高语义理解能力,在处理多主体及属性绑定等生成领域的难点挑战时表现出色。 原生镜头转换:多视角镜头切换主体保持能力,艺术...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...GPT是一种创新的时空大型语言模型,它通过结合时空依赖编码器和指令微调技术,展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖,即使在数据稀缺的情况下也能提供准确的...……更多
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...预训练的视觉表征重要吗?该团队使用不同的预训练通用编码器作为世界模型的观察模型,并评估了它们的下游规划性能。 在涉及简单动态和控制的 PointMaze 任务中,该团队观察到具有不同观察编码器的世界模型都实现了近乎...……更多
谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo
...够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜,它使用稀疏自编码器 (SAE) 放大模型的内部工作原理,使其更易于解释。Gemma Scope 技术报告:https://storage.googleapis.com/gemma-scope/gemma-sc……更多
300次实验磨一剑!南京空气质量预报添利器守护蓝天“显微镜”,预报细至1公里南报网讯(记者杜莹)守护蓝天白云的科技力量在南京再次升级。近日,由江苏省南京环境监测中心携手南京创蓝科技有限公司打造的“南京市空...……更多
轻量化模型架构catvton的优势在哪里
...著帮助的文本交叉注意力,同时也不需要任何额外的图像编码器来辅助生成。 下表详细地比较了不同方法与CatVTON的模块数量、参数量、可训练参数量、显存占用、推理条件。在网络模块上,CatVTON只需要VAE+UNet,无需任何额外的...……更多
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...。那么,Wan 2.1是如何实现又好又省的呢?创新3D变分自动编码器和主流的视频生成技术路线一样,Wan 2.1的主体采用了DiT(Diffusion Transformer)架构。Wan利用T5编码器对输入的多语言文本进行编码,并在每个Transformer块内加入交叉注...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...长图形设计。与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decoder-only)大型语言模型的知识,来进...……更多
150万条多语种音频数据!浙大清华发布语音伪造检测框架SafeEar,兼顾隐私保护|CCS 2024
...离与重建的过程中实现语音特征解耦。如图3所示,包括编码器(Encoder)、多层残差向量量化器(Residual Vector Quantizers, RVQs)、解码器(Decoder)、鉴别器(Discriminator)四个核心部分。其中,RVQs主要包括级联的八层量化器,在第...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...练过程就是基本的「预测下一个词」,不过「词」是通过编码器从语音或文本中提取的,然后通过解码器以原来的模态进行重新呈现;训练数据包括三种:仅包含文本的序列、仅包含语音的序列以及交错的语音-文本序列的混合...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...资料看,腾讯混元视频生成模型还有三个亮点。1、文本编码器部分,已经适配多模态大模型当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。腾讯在开源图像生成模...……更多
OpenCity大模型预测交通路况,零样本下表现出色,来自港大百度
...律性。 动态交通模式:除了周期性变化外,作者的时间编码器还捕捉交通数据随时间演变的复杂、非线性时态动态和趋势。周期性交通转换建模作者利用时间嵌入D和空间嵌入C捕获交通中的周期性模式,目标是揭示历史交通模式...……更多
科大讯飞构建全新语音建模框架 降低AI声音复刻门槛
...突破了语义表征,采用mel VQ-AE模型结合语音自监督预训练编码器,并引入音色最小互信息约束,成功解耦出音色无关的离散语义token。这种结构实现了发音内容与音色特征的可控分离,也显著提升了语义LLM的建模稳定性。在音色...……更多
华人团队爆火instructblip抢跑看图聊天
...方法。如上图所示,Q-Former被设计用来从一个冻结的图像编码器的输出中提取视觉特征。根据BLIP-2的论文,Q-Former已经分成两个阶段进行了预训练,通过预训练,它学会了提取可以被LLM消化的文本对齐的视觉特征。在推理过程中...……更多
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
...础模型 UniTraj在模型的架构设计上,UniTraj 采用了灵活的编码器 - 解码器架构,为了提升模型的计算效率、鲁棒性和对各种数据质量的适应能力,作者在模型训练过程中进一步集成了一系列的重采样策略和掩码策略。重采样策略...……更多
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...器进行微调。在语义分割中,可以将已经训练好的模型的编码器部分用于新任务,然后在新任务上训练新的解码器,并帮助利用已有的大规模标注数据集来训练模型,从而减少对新数据集的标注需求,提高模型性能。WIMI微美全...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...型架构根据介绍,Ferret 主要由用于提取图像嵌入的图像编码器;用于提取区域连续特征的空间感知视觉采样器;以及用于对图像、文本和区域特征进行联合建模的大语言模型组成。输入将图像输入经过预训练的视觉编码器 CLIP-Vi...……更多
硅谷来信:诺奖“盖戳”认证,AI成科研“最强大脑”?
...算机视觉?研究人员形象地把深度计算机视觉比作"数字显微镜"。它不仅能"看"到人眼难以分辨的细节,更重要的是能自动学习和理解看到的内容。就像一个经验丰富的天文学家,AI系统能够:1. 自动特征学习: 不需要人工定义"太阳黑...……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...性(similarity)时,传统指标LPIPS等方法依靠预训练的图像编码器,将图像特征嵌入后再计算距离。然而,这类方法只能评估图像与图像之间的相似度(image-to-image metric),而无法判断文本和图像之间的相似度(text-to-image metric)...……更多
更多关于科技的资讯:
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00
“FutureBOT未来引力”2025北京机器人文化节首日盛况 打造国庆科技打卡新地标
国庆首日,“FutureBOT未来引力”2025北京机器人文化节在北京昌平超极合生汇正式拉开帷幕,成为国庆假期极具科技温度的打卡地
2025-10-03 19:06:00
走到白石山巅的尽头,这家建在悬崖边的“云端咖啡厅”绝对让你惊呼。
2025-10-03 11:37:00
泰康人寿发布新品“泰康百万药无忧(庆典版)医疗保险”(以下‬简称“百万药无忧”),以广覆盖、易投保、强保障、低费率为优势
2025-10-03 09:17:00
厦门网讯(厦门日报记者 翁华鸿 通讯员 林雨新)在近日举行的2025全球数据管理峰会“数据要素分论坛暨大数据统计与人工智能技术创新管理研讨会”上
2025-10-03 08:38:00
兴趣-实践-视野:达芬奇金奖少年带来的教育启示录
摘要:2025“你是达芬奇”全球青少年科学与艺术创新赛圆满落幕,其中金奖获奖少年的亲身实践告诉我们,在AI赋能的新时代
2025-10-02 16:22:00
单日调用近1万亿次,高德助力北斗规模化民用跨入新量级
2025年10月1日,随着国庆长假首日出行高峰的到来,高德基于北斗卫星导航系统的定位数量接近1万亿次,支撑导航总里程数超90亿公里
2025-10-02 22:31:00
10月1日,从太钢获悉,今年以来,太钢不锈进料加工团队以“精准备案、高效协同”为核心,在进料铬铁镍铁资源利用方面取得突破性进展
2025-10-02 17:39:00
厦门网讯(厦门日报记者 林露虹)记者昨日从中国移动咪咕公司获悉,该公司打造的“鼓浪屿AI伴游”服务已正式上线。市民和游客只需打开“鼓浪屿元宇宙”微信小程序
2025-10-02 08:57:00