• 我的订阅
  • 头条热搜
图结构转文本序列,大模型直接读懂!图推理性能大涨
...法来了:将图(Graph)转换为适合Transformer架构的线性token序列。belike:这种最新图线性化方法,反映了自然语言中局部依赖性和全局对齐性两个关键属性,即:不仅需要保留基于前文上下文预测下一个token的能力(局部依赖性)...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...间层的token下采样,在32层中,在中间层将图像键和值的序列长度减少了四倍,使整个网络类似于只有一个下采样的传统卷积U-Net,略微加快了训练和推理时间,而且没有性能下降。3. 位置嵌入,与llama3中的旋转位置嵌入(RoPE)...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;还能开启更多的前沿突破,比如在基因进化、合成生物学、设计/创造生命等方面创造价值……这样一个与我们每个人都息息相...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能优势。随着近年来大型...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...施,该研究建立了一个高效且用户友好的框架,即多模态序列并行 (MM-SP),它支持训练记忆 - 密集型长上下文 VLM。对于训练 pipeline,研究者实施了一个五阶段训练流程,如图 1 所示:即 (1) 多模态对齐,(2) 大规模预训练,(3) 短...……更多
从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型
...度的状态空间模型,它能够以线性计算复杂度实现对输入序列的有效建模,在近几个月受到了广泛的关注。本文给出了一个十分有趣的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一...……更多
AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)
...络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。相较于RNN,Transformer具有两个显著的优势。1)处理长序列数据:RNN受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...建模为相机运动,ObjCtrl-2.5D 将三维轨迹表示为相机姿态序列,从而无需训练即可使用现有的相机运动控制 I2V 生成模型(CMC-I2V)进行物体运动控制。为了使最初为全局运动控制而设计的 CMC-I2V 模型适应于处理局部物体运动,他...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...过程的先验知识。 为了解决这个问题,研究人员在输入序列中插入一个基于文本的tile标签以标记图块的开始以及在整个平铺结构中的位置,然后在标签后附加tile的256个图像token,总共设计了三种标签:1)无标签:无tile标签直...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
...链接:https://huggingface.co/spirit-lm/Meta-spirit-lm将语音和文本序列拼接成一条token流,并使用一个小型的、自动整理(automatically-curated)的语音-文本平行语料库,采用逐词交错的方法进行训练。Spirit LM有两个版本:……更多
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...分为多个组,自回归时每组在单个帧上建模。不仅减少了序列长度、加速推理,还通过缓解长上下文建模问题来提高性能。值得注意的是,VALL-E 2仅需要简单的语音-转录文本数据进行训练,不需要额外的复杂数据,大大简化了数...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...sformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句子中距离较远的单词,模型也能有效地捕获其...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平...……更多
零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT | KDD 2024
...量模式。然而,它在处理具有复杂时空依赖性的数字时间序列数据时,有时会出现预测失误。与此同时,虽然预训练的基线模型在编码时空依赖关系方面表现良好,但它们可能会因为过度适应源数据集而在零样本场景中表现不佳...……更多
腾讯发布最大开源MoE模型,3890亿参数免费可商用
...切换的计算成本。 二是增加了常数项2.3×108D,反映了长序列MoE模型attention计算的额外开销。为了确定最优激活参数量,团队投入大量成本展开实验:训练一系列激活参数范围从10M到1B的模型,使用最高1000亿tokens的训练数据,覆...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。继AlphaFold 3更新后,我们又看到了一个生命科学领域的大模型ES...……更多
腾讯推出 Hunyuan-Large 开源大模型
...贡献长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力广泛的基准测试:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,...……更多
AI真·炼丹:整整14天,无需人类参与
...更大输入长度 另一方面,AlphaFold2因其高维张量运算和长序列并行计算,在推理过程中常⾯临超⼤内存需求,不光影响推理速度,还会限制更长蛋白质序列的预测。为此英特尔从软硬协同的方式给出完整解决方案。一面是提升内...……更多
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。同时,使用T5将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。最后,反向拼接嵌...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...本以外的领域,Scaling Law 的踪迹正在逐渐显现,比如时间序列预测以及图像、视频这类视觉领域。下面这张图来自投稿给 ICLR 2025 的一篇论文。论文发现,在把类似于 GPT 的自回归模型应用于图像生成时,Scaling Law 同样可以被观...……更多
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...长文本任务处理依然存在诸多挑战,未来将进一步探索长序列人类偏好对齐,优化推理效率以减少运算时间,并继续研发更大、更强的长文本模型。据介绍,阿里云百炼已上线Qwen、Llama、Flux等超200款国内外主流开源和闭源大模...……更多
出门问问重磅发布全新2.5D数字人系统 WetaAvatar 4.0
...人系统——基于多尺度3D模型的WetaAvatar 4.0,通过整合「序列猴子」的强大文案生成能力以及「魔音工坊」的高质量语音合成技术,我们进一步强化了数字人的呈现效果,实现高度仿真的外观,同时还精心打造了生动的表情,媲...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...问答 (VQA) 基准生成器。LoCoVQA可以提供与问题相关的图像序列,以及一组可配置的视觉干扰项,从而准确评估VLM如何在杂乱的上下文中仅提取与查询相关的信息。从原理上讲,这也是一项「大海捞针」的任务。另外,LoCoVQA的方法...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
AI也会「刷抖音」!清华领衔发布短视频全模态理解新模型 | ICML 2024
...ONN通过以下三部分创新,使其能够处理自然图像、视觉帧序列、语音、音频事件和音乐元素等各种视频基本元素:第一部分:音视频编码和时间对齐video- SALMONN使用Whisper语音编码器和BEATs音频编码器,分别得到语音和音频的编码...……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...了执行规划,他们要训练一个 Transformer 来建模一个 token 序列,而该序列则是以顺序方式来表示该规划任务、A* 算法的计算、由 A* 搜索得到的最优解。图 3.1 展示了其 token 化方法,其中示例是一个 3×3 迷宫的导航任务,目标是找...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...,速度也要够快才行。 Mamba凭借固定的推理开销,在长序列中的优势明显,但Transformer这边也是有推理加速方案的,比如推测解码。而由于Mamba本身的结构特性,不能直接应用这种方案,所以作者设计了全新的算法,并结合硬件...……更多
史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍
...的是时间步 t 的特征。并行下图 3 为本文方法与原始动态序列并行(Dynamic Sequence Paralle, DSP)之间的比较。当时间注意力得到传播时,则可以避免所有通信。为了进一步提升视频生成速度,本文基于 DSP 来改进序列并行。序列并...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非...……更多
更多关于科技的资讯:
在数字经济浪潮奔涌、国企改革持续深化的时代背景下,绵阳安鼎元作为四川安州发展集团旗下专业的国有资产管理平台,勇立潮头,以深刻的变革意识和前瞻的战略视野
2025-11-27 10:07:00
厦门网讯(厦门日报记者 沈彦彦 王元晖)“政策一出台,咨询电话就没停过!”厦门厦旅国际旅行社有限公司湖滨东营业部负责人谢晓燕放下手中的咨询电话
2025-11-27 08:12:00
“脑”力全开!江西抢滩脑机接口新蓝海
当好莱坞经典电影《盗梦空间》描绘的人类通过脑机接口潜入他人意识的场景,从科幻照进现实,一场关乎未来产业格局的竞赛已悄然启幕
2025-11-27 07:13:00
专利技术遭盗用,创新成果被侵犯,专利权人该如何维权?11月24日,市知识产权纠纷调委会通过一起实用新型专利侵权的调解案例释法
2025-11-26 08:11:00
感恩节“心”守护:灵动生活集团全链条心理服务破局,让3000万用户听见温暖的回响
当感恩节的暖意在街头巷尾流转,“守护”与“感恩”成为叩击人心的关键词。在心理健康已从“小众需求”转变为“全民刚需”的今天
2025-11-26 08:35:00
省发展改革委近日批复了山西省教育科技人才一体化服务产业云平台项目可行性研究报告,建设地址位于中北大学校内。作为山西聚焦“产学研用深度融合”的关键信息化基建项目
2025-11-26 08:41:00
为推动智能建造落地应用,搭建行业交流平台,近日,“晋塔”智能装备观摩活动在太原市多个施工项目同步启动。“晋塔”智能施工升降机
2025-11-26 08:42:00
经济热力站|绿色转型为基 金融创新为翼 科技赋能为核——助推首都经济高质量发展再上新台阶
11月19日,“京彩不设限・经济热力站”月度主题走访活动再度启程,记者跟随采访团先后走进北京绿色交易所、中国邮政储蓄银行北京分行及北京银行顺义科技研发中心
2025-11-26 10:06:00
赞皇县:AI赋能“一网通办” 业务办理效率提升70%
河北新闻网讯(次柳静)近日,石家庄市赞皇县数据和政务服务局依托DeepSeek大模型与智能算法,创新打造AI“智能填报”平台
2025-11-26 10:07:00
河北师范大学金融学院举行“产品经理人才共创培养体系”主题培训
河北新闻网讯 近日,河北师范大学金融学院邀请北京来学吧信息技术有限公司相关负责人到校,开展了主题为“产品经理人才共创培养体系”主题培训
2025-11-26 10:09:00
南京生物医药:研发“拔节孕穗”,产业新星闪耀
第91届全国药交会在宁落幕南京生物医药:研发“拔节孕穗”,产业新星闪耀□南京日报/紫金山新闻记者张甜甜连续3天,南京国际博览中心人流如织
2025-11-26 10:26:00
2025年两院院士增选结果揭晓 南京地区7人入选 在宁院士总数达102人
南报网讯(记者何洁张安琪)11月21日,2025年两院院士增选结果正式揭晓,选举产生中国科学院院士73人、中国工程院院士71人
2025-11-26 10:27:00
隐风文化:锚定四大理念,以精品力穿越短剧周期
由北京隐风文化科技有限公司出品的奇幻爱情短剧《岁岁怀安》延续预约150万的热度,上线后迅速跃居红果站内热播榜高位,这也是今年团队继《咬清梨》《怎敌她动人》之后
2025-11-26 11:06:00
视源股份荣获2024年度广东省科技进步一等奖
2025年11月20日,广东省人民政府正式发布《2024年度广东省科学技术奖通报》(粤府〔2025〕50号)。视源股份牵头完成的“高自然度智能交互显示终端关键技术及产业化”项目
2025-11-26 11:06:00
视源股份成为英特尔首批尊享级合作伙伴 合作再升级
近日,英特尔合作伙伴联盟完成战略升级,联盟最高等级“钛金级”正式更迭为“尊享级”。视源股份凭借其在计算机领域的深厚积累
2025-11-26 11:06:00