小钢炮,显微镜,大脑,模型,编码器,特征头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

海贝R3二代掌中Hi-Fi巨兽，颠覆你的听觉体验！

...更以其多样化的功能和出色的便携性，成为了新一代掌心小钢炮。如果你也是一位热爱音乐的朋友，不妨考虑一下这款播放器，相信它会给你带来不一样的音乐体验。 ……更多

2024-04-24 09:14:00二代,海贝,听觉,颠覆,体验,二代

科学家提出大模型分子交互学习框架，已在400多万分子对中验证

...模态大语言模型分子交互学习框架——MolTC。通过利用图编码器（Encoder）和映射器（Projector），MolTC 可以高效地建模分子图信息。此外，为了加强数据间的信息共享，以及实现统一的分子交互学习，课题组提出了多层级思维链（...……更多

2024-03-07 10:44:00分子,科学家,框架,模型,验证,科学

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...型架构仍然处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。并且，不同模型在处理高分辨率图像输入时的设...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

杨幂+小兰会是什么样？中山大学新AI成果，实现人脸个性化SO

...取器这一模块中，使用了包括文本嵌入、面部嵌入和面部编码器这三个关键组件。需要独立学习细粒度的面部视觉和文本嵌入，并将它们输入到设计的轻量级面部编码器中，以生成细粒度的多模态面部特征。△用于生成细粒度多...……更多

2024-05-22 15:47:00小兰,中山大学,人脸,中山,成果,个性

让大模型能听会说,国内机构开源首个端到端语音对话模型Mini

...非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。随着多类型大模型的飞速发展，全球 AI 已经进入到了多模交互时代。2024 年 5 月，OpenAI 推出了全新的多模...……更多

2024-09-07 09:44:00模型,语音,对话,机构,语音,文本

外星人在呼叫我们？研究发现8个疑似出自人工的信号，来自5颗恒

...是基于这种思路，该项目设计了一种叫做“β-卷积变分自编码器”的深度学习模型，它可以在无人干预的方式下，自动识别出观测数据中可能存在的“候选者”，其效率比传统的方法更高，同时还保持了更低的误报率。在此次研...……更多

2024-05-30 13:59:00外星,恒星,外星人,呼叫,人工,信号

重庆一男孩突然四肢抽搐，去医院检查，竟发现大脑中有条“活蛆”

...发现了一个白色肉芽形状的东西。这个肉芽形状的东西在显微镜下大约只有几毫米的长度。可是，当医生想要把这个异物取出来时，却发现，这个东西竟然是活着的。随后的场景再次令医生吃惊，肉芽下面竟然还有条索状物质。...……更多

2024-09-12 18:48:00重庆,四肢,大脑,男孩,检查,医院

Meta 公司发布 Imagine Yourself AI

...括：生成合成配对数据以鼓励多样性；整合了三个文本编码器和一个可训练视觉编码器的完全并行注意力架构；以及一个从粗到细的多阶段微调过程这些创新技术使该模型能够生成高质量、多样化的图像，同时保持强大的身...……更多

2024-08-24 09:44:00模型,公司,模型,生成,图像,身份

2B多模态新SOTA！华科、华南理工发布Mini-Monke

...近年了引起了很大的关注。研究人员正在积极探索将视觉编码器与LLM集成的有效方法。一些方法，如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已经取得了这些成就，但由于处理分辨率有限，以前的多模态大语言模型并没有很好地实...……更多

2024-08-13 09:42:00模态,华南,专治,后遗症,理工,分辨率

人脑中发现新型“混合细胞”

...于西班牙巴塞罗那的住所里建立了一个实验室，并开始在显微镜下研究人脑切片。他从附近的医院获得了捐赠的器官。一次，在观察脑切片时，他看到显微镜镜头另一端有一片“千丝万缕的丛林”。当他深入研究这片“丛林”时...……更多

2023-10-12 02:32:00人脑,混合,细胞,细胞,神经元,神经

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面

【新智元导读】面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！...……更多

2024-08-07 09:42:00多图,小钢炮,模态,上端,手机,视频

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源

...远超图像数据。为应对此挑战，团队提出了基于3D变分自编码器（3D VAE）的视频压缩方法。其中，3D VAE通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。模型结构包括编码器、解码器和潜在...……更多

2024-08-07 09:43:00画质,电影,视频,模型,生成,团队

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...基于大量的图像-文本配对的数据集，将预训练的CLIP视觉编码器与大型语言模型（Vicuna）通过映射矩阵相连接，来实现视觉和语言特征的匹配。根据该模型的研发团队成员Haotian Liu在X平台的介绍，此增强版本建立在其前身的简约...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...征处理器，来分别处理音乐、图像和视频输入。接着，将编码器的输出引入所选用的 LLaMA2 开源大模型，让其能够理解、处理多模态的输入，进而为下游任务做决策。然后，再将理解和生成任务巧妙地结合在同一个大模型中。最...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...理解模块的能力。团队采用原生双语大语言模型作为文本编码器，显著提升了模型理解中文的能力，因此，面对「唐代」、「元宵节」等国风元素，豆包・文生图模型也展现出了更加深刻的理解力。对于 Diffsuion 模型架构，豆包...……更多

2024-08-13 09:39:00文生,出图,美感,秘籍,心意,更快

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...图像输入方面，训练了一组适配器权重，将预训练的图像编码器集成到预训练的大语言模型中。具体来说，该适配器：由一系列交叉注意力层组成，负责将图像编码器的表示输入进大语言模型通过在文本-图像对上的训练，实现...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

...目前的大模型主要基于Transformer架构，有三种主流架构：编码器(encoder-only，例如BERT)、编码器-解码器(encoder-decoder，例如T5)，以及解码器(decoder-only，例如GPT)。这几个架构都是国外设计并流行起来的。“国内在原始创新和自主研发...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型