• 我的订阅
  • 头条热搜
海贝R3二代掌中Hi-Fi巨兽,颠覆你的听觉体验!
...更以其多样化的功能和出色的便携性,成为了新一代掌心小钢炮。如果你也是一位热爱音乐的朋友,不妨考虑一下这款播放器,相信它会给你带来不一样的音乐体验。 ……更多
科学家提出大模型分子交互学习框架,已在400多万分子对中验证
...模态大语言模型分子交互学习框架——MolTC。通过利用图编码器(Encoder)和映射器(Projector),MolTC 可以高效地建模分子图信息。此外,为了加强数据间的信息共享,以及实现统一的分子交互学习,课题组提出了多层级思维链(...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...型架构仍然处于混乱状态,开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异,性能优异的闭源多模态大模型也没有公布相关信息,无法直接进行模型对比和研究。并且,不同模型在处理高分辨率图像输入时的设...……更多
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
...取器这一模块中,使用了包括文本嵌入、面部嵌入和面部编码器这三个关键组件。需要独立学习细粒度的面部视觉和文本嵌入,并将它们输入到设计的轻量级面部编码器中,以生成细粒度的多模态面部特征。△用于生成细粒度多...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。2024 年 5 月,OpenAI 推出了全新的多模...……更多
外星人在呼叫我们?研究发现8个疑似出自人工的信号,来自5颗恒星
...是基于这种思路,该项目设计了一种叫做“β-卷积变分自编码器”的深度学习模型,它可以在无人干预的方式下,自动识别出观测数据中可能存在的“候选者”,其效率比传统的方法更高,同时还保持了更低的误报率。在此次研...……更多
重庆一男孩突然四肢抽搐,去医院检查,竟发现大脑中有条“活蛆”
...发现了一个白色肉芽形状的东西。这个肉芽形状的东西在显微镜下大约只有几毫米的长度。可是,当医生想要把这个异物取出来时,却发现,这个东西竟然是活着的。随后的场景再次令医生吃惊,肉芽下面竟然还有条索状物质。...……更多
Meta 公司发布 Imagine Yourself AI 模型
...括:生成合成配对数据以鼓励多样性; 整合了三个文本编码器和一个可训练视觉编码器的完全并行注意力架构; 以及一个从粗到细的多阶段微调过程这些创新技术使该模型能够生成高质量、多样化的图像,同时保持强大的身...……更多
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治「切分增大分辨率」后遗症
...近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就,但由于处理分辨率有限,以前的多模态大语言模型并没有很好地实...……更多
...于西班牙巴塞罗那的住所里建立了一个实验室,并开始在显微镜下研究人脑切片。他从附近的医院获得了捐赠的器官。一次,在观察脑切片时,他看到显微镜镜头另一端有一片“千丝万缕的丛林”。当他深入研究这片“丛林”时...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
【新智元导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!...……更多
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
...远超图像数据。为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...基于大量的图像-文本配对的数据集,将预训练的CLIP视觉编码器与大型语言模型(Vicuna)通过映射矩阵相连接,来实现视觉和语言特征的匹配。根据该模型的研发团队成员Haotian Liu在X平台的介绍,此增强版本建立在其前身的简约...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...征处理器,来分别处理音乐、图像和视频输入。接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模态的输入,进而为下游任务做决策。然后,再将理解和生成任务巧妙地结合在同一个大模型中。最...……更多
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...理解模块的能力。团队采用原生双语大语言模型作为文本编码器,显著提升了模型理解中文的能力,因此,面对「唐代」、「元宵节」等国风元素,豆包・文生图模型也展现出了更加深刻的理解力。对于 Diffsuion 模型架构,豆包...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...图像输入方面,训练了一组适配器权重,将预训练的图像编码器集成到预训练的大语言模型中。具体来说,该适配器:由一系列交叉注意力层组成,负责将图像编码器的表示输入进大语言模型通过在文本-图像对上的训练,实现...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...目前的大模型主要基于Transformer架构,有三种主流架构:编码器(encoder-only,例如BERT)、编码器-解码器(encoder-decoder,例如T5),以及解码器(decoder-only,例如GPT)。这几个架构都是国外设计并流行起来的。“国内在原始创新和自主研发...……更多
傅利叶发布通用人形机器人GR-2,开启GRx系列新征程
...有更强的负载能力和流畅的运动控制。新版执行器采用双编码器系统,编码器精度提升了2倍,提供更准确的绝对位置与速度反馈,保证GR-2在执行各种动作时的控制精度,实现高动态响应。更开放的开发平台,加速AI具身落地傅...……更多
...能力。这项名为“晶莹剔透法”的新技术,将透明粒子、显微镜与激光技术相结合,使科学家能够看到构成晶体的每个单元,并据此创建出动态三维模型。相关论文3日发表于《自然·材料》杂志上。为了深入研究晶体,许多科学...……更多
3秒让AI生成风险减少30%!复旦新研究拿下扩散模型概念移除新SOTA
...思考文本引导的机制——交叉注意力。SD利用CLIP作为文本编码器得到提示词的嵌入形式,并且获得key与value,与表征视觉特征的query一起,得到输出:如果能得到一个新的概念嵌入,满足在编辑后的交叉注意力映射后,足够接近...……更多
拨开“烟雾”见阳光——济南市人民医院神经外科成功开展脑血管搭桥治疗烟雾病手术
...敷术,术中游离出颞浅动脉,保护脑膜中动脉,蔡司P800显微镜下吲哚菁绿荧光造影,选择显影延迟的大脑中动脉枕部分支为受体血管,颞浅动脉穿过颞肌与受体血管应用10-0显微缝线镜下显微端侧吻合,吻合成功后再次吲哚菁绿...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈送给语言模型。为了将图像表征与语言表征对齐,Meta 在「文...……更多
马斯克关注的“脑机接口”,让人类更懂自己的大脑
...的最新进展,以及它在恢复瘫痪病人功能方面的潜力和对大脑组织理解的影响。文章指出,脑机接口技术不仅能够帮助瘫痪病人控制假肢和交流,还提供了研究大脑组织和功能的独特途径。通过记录大脑活动,科学家们可以更好...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
... Space)中进行生成。为此,他们训练了一个单一的时间自编码器(TAE),用于将RGB图像和视频映射到潜在空间。然后,再使用预训练文本编码器,来编码用户提供的文本提示,并获得文本提示嵌入,这些嵌入用作模型的条件。流...……更多
更高效准确!西电最新视频人脸修复算法研究成果来了
...陷的人脸结果。该研究还包括了一个时间空间矢量量化自编码器(TS-VQGAN)的预训练模型,以及一个时间解析引导的码本预测器(TPCP),这些创新技术显著提高了人脸恢复的效率和准确性。华商报大风新闻记者 任婷来源:华商...……更多
人工智能以纳米级精度检测癌症和病毒感染
...的高分辨率图像。这些图像是通过一种名为 STORM 的特殊显微镜技术获得的,这种技术所生成的图像能够捕捉到比普通显微镜所能看到的更多更精细的细节。高清快照显示了纳米级分辨率的结构。纳米(nm)是一米的十亿分之一,...……更多
字节版Sora火爆24小时,同名论文再次被热议
...为训练中的图像指令。据了解,文本指令由预训练的文本编码器编码,并通过交叉注意力融入扩散模型。图像指令由预训练的VAE编码器编码,并与受扰的视频潜变量或高斯噪声一起作为扩散模型的输入。在训练过程中,团队使用...……更多
...组试验结果。第一组是体外培养的类脑神经网络。在40倍显微镜放大下,无数个神经元细胞展开长长的触手,相互连接,形成一张复杂而神秘的网络,像一个多层的立交桥,上下穿叠。其间,一些非常不起眼的明亮小点,形态迥...……更多
metareality推出sapiensai视觉模型
...到20亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的...……更多
语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
...对于数据集中每条语音-文本数据,分别用音频编解码器编码器(audio codec encoder)和文本分词器将其表示为编解码器代码=[0,1,…,(−1)]和文本序列=[0,1,…,(−1)],用于自回归(AR)和非自回归(NAR)模型的训练。 AR和NAR模型都采用...……更多
更多关于科技的资讯:
2025世界制造业大会|超聚变全栈数智化方案,为安徽建设“制造强省”贡献力量
大皖新闻讯 9月20日至23日,以“智造世界 创造美好”为主题的2025世界制造业大会主在合肥举行。记者在采访中注意到
2025-09-23 13:16:00
新品首销,烟台联通胜利路营业厅人气火爆
9月19日上午8时,iPhone 17系列新品在烟台联通胜利路营业厅正式首销,现场人气火爆,众多消费者一早前来,共同体验新一代旗舰产品的魅力
2025-09-23 13:36:00
PITAKA自研PitaTap™拍照按键,重新定义手机壳交互体验
近日,在2025年德国柏林IFA展会上,PITAKA凭借其自研的PitaTap™拍照按键的创新突破,一举夺得两家国际权威科技媒体SlashGear与BGR颁发的Innovation Awards奖项
2025-09-23 11:40:00
MOVA生态链企业获数千万融资,瞄准海外电动工具赛道、预计2025年营收破亿|硬氪首发
作者|黄楠编辑|袁斯来硬氪获悉,沃庭科技(苏州)有限公司(以下简称“沃庭科技”)近日完成数千万元天使轮融资,本轮资金将用于加大技术研发投入
2025-09-23 06:51:00
刘强东,正悄悄孕育“山姆杀手”
前不久,刘强东现身宿迁,又给老家人送上了一份大礼:四家京东折扣超市。有人问,这不是赚老乡钱吗,算什么礼物?因为这些超市主打的
2025-09-22 10:23:00
近日,合众人寿秦皇岛中支开展“鎏金岁月,匠心相伴”主题金箔手作沙龙活动,通过沉浸式手工体验,为参加客户呈现了一场融合艺术鉴赏与情感联结的特别回馈
2025-09-22 10:32:00
东港股份转型科技先锋 AI具身机器人深耕为民服务
海报新闻记者 宋嵩 张彤彤“您好,我是小智,有什么可以帮助您?”在政务大厅、大型展馆、学校可以看到忙碌的“小家伙”,它们各司其职
2025-09-22 10:33:00
“人拉肩扛”到“云端挖矿” 山东黄金的数智蜕变
海报新闻记者 张彤彤三山岛金矿的井下巷道里,5G信号正穿梭于岩壁之间,中控室的大屏上,矿石流动的情况与千米深的矿洞数据实时变化
2025-09-22 10:33:00
从莱阳田野到国际餐桌 春雪食品引领鸡肉调理品行业高质量发展
海报新闻记者 宋嵩故事的起点,要追溯到2012年。彼时,山东春雪食品有限公司在莱阳设立莱阳春雪食品有限公司,最初只是一家区域性的鸡肉加工企业
2025-09-22 10:37:00
大窑饮品重磅推出“宜养说” 植物蛋白赛道再添“实力派”
当下消费者正变得前所未有的理性,这一趋势在饮品市场尤为明显:“好喝”是基础,“健康”已成为新门槛。基于对“轻养生”需求的深度洞察
2025-09-22 10:38:00
近日,西贝创始人贾国龙与网红企业家罗永浩就预制菜价值展开的公开论战,将这一话题推向了舆论漩涡。这场争论背后,折射的正是全社会对食品安全认知的深化——从单纯的“无害”向更高层次的“真实
2025-09-22 10:38:00
从鼓房到健身房:无人值守场景重塑消费体验
本报记者 胡 静 □ 陈跃佳中午十二时,李先生步入街角的24小时无人便利店,扫码开门、自选商品、刷脸支付,全程耗时不足两分钟
2025-09-22 10:39:00
鱼竿里的“大国重器” 光威复材以碳纤维技术书写国产突围之路
海报新闻记者 宋嵩 张彤彤“以前用玻璃纤维竿,钓条十斤的鱼就胳膊酸,这碳纤维的又结实又轻,真是材料不一样了!” 威海的老钓手王师傅喜欢“炫耀”他的新鱼竿
2025-09-22 10:40:00
南山智尚:纤维经纬织就智造之路
大众网·海报新闻记者 康洁一条条线可以让提线木偶惟妙惟肖的表演,而一根根强度高、耐磨损的纤维可以实现机器人手部灵巧的运动
2025-09-22 10:41:00
刚拿到新iPhone就提示设备空间不足?微信员工回应:有bug
日前,iPhone 17系列开售,很多拿到新机的用户第一时间就是转移数据。但最近有微信用户发现,在向新iPhone导入聊天记录时
2025-09-22 10:51:00