模态,基准,弱点,团队,模型,任务头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

支持1024帧、准确率近100％，英伟达「LongVILA」

...统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活的输入信号，以便人们可以以更多样化的方式与模型交互。而更长的上下文使模型...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

清华提出CharacterGLM；DeepMind联创发全新

...大模型版“5年高考3年模拟”来了！6141道数学题，还是多模态的那种｜微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集，由微软、UCLA和UW联合开发，包含6141个数学问题，涵盖丰富的任务类型、推理能力和图...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

昆仑万维SkyReels团队正式发布并开源SkyReels-

...fusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。回顾过去……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

商汤启动智慧医院建设示范样板工程

...第一医院、北京清华长庚医院，在行业内率先启动医疗多模态大模型赋能的智慧医院创新示范共创，打造由大模型“智慧中枢”驱动的智慧医院建设示范样板。2024世界人工智能大会（WAIC）期间，多方正式签约。作为医疗多模态...……更多

2024-07-11 11:36:00商汤,样板,示范,智慧,医院,建设

谷歌 VS OpenAI：当搜索霸主和屠龙少年迈入同一条河流

...、代码等方面的表现也都高过GPT-4。而作为首个「原生多模态」模型，在一系列多模态基准测试中，对标GPT-4V，Gemini Ultra 也展现出了先进的性能。图源：谷歌新闻稿在chatGPT发布一周年之际，谷歌通过 Gemini 赶了个晚集，想要再度...……更多

2023-12-08 11:02:00霸主,河流,少年,搜索,模型,模态

CVPR最佳论文被生成式AI占领，清华武大华南农大上科校友获

...并得到最终反馈标签。之后，设计了一种基于ViT和T5X的多模态Transformer模型RAHF，使用三种预测器预测上述丰富的人类反馈信息:使用卷积层和上采样层预测失真和不匹配的热力图使用卷积层和全连接层预测4个方面的评分使用Trans...……更多

2024-06-21 09:21:00华南,清华,农大,获奖,校友,生成

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...也出现了大模型独角兽智谱AI的身影。36氪获悉，近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍，融资主要用于多模...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

刚刚，谷歌宣布35岁Keras之父Francois Chol

...也是朝着实现强大人工智能工具访问民主化和加速创新多模态应用开发迈出的重要一步。Francois，感谢你所做的一切。你的贡献为机器学习框架和更广泛的人工智能领域留下了不可磨灭的印记。我们鼓励大家继续关注 Francois。 Fr...……更多

2024-11-15 09:53:00人工智能,人工,智能,任务,基准,开发

本周硅谷发生了什么？｜OpenAI推出5项更新；微软组建新的

...GenAI团队研发小模型，减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy，官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时，国内大模型也有不少进展，通义千问团队升级了视觉语言模型Qwen-VL，图片内文字处理能力得到提升。此外...……更多

2024-01-29 09:34:00文生,硅谷,微软,模型,团队,更新

提质降价，国产大模型加速奔跑

...主任工程师程莹认为，国产大模型技术在语言、视觉、多模态等领域持续突破，在文本、音频、视觉、3D等数据方面实现多模态统一，持续突破人工智能感知、理解和推理世界的能力边界。这些，拓展着大模型与各行各业融合的...……更多

2025-02-05 03:48:00模型,国产,模型,国产,能力,成本

马斯克 xAI 展示首个多模态模型 Grok-1.5V

...下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。xAI ...……更多

2024-04-13 16:20:00马斯,马斯克,模态,模型,模态,模型

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

...对用户指令的忠实性。具体而言，AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰，忠实地完成用户预设的目标，是一个尚待研究的问题，也是实际应用之前必须回答的问题。针对上述问题，本文以图形用户界面智...……更多

2024-09-03 09:59:00模型,环境,智能,手机,环境,干扰

NeurIPS | 消除多对多问题，清华大规模细粒度视频片段

...大学计算机系媒体所的二年级博士生，主要研究方向是多模态大模型与视频理解，在 NeurIPS 、ACM Multimedia 等顶级会议发表多篇论文，曾获国家奖学金、北京市优秀本科毕业生等。视频内容的快速增长给视频检索技术，特别是细...……更多

2024-10-29 09:55:00大规,粒度,范式,清华,片段,大规模

Google推出全新人工智能模型Gemini 2.0 用途更

...。但与此同时，Google将发布一个应用程序接口（API）--多模态实时应用程序接口（Multimodal Live API），以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示，通过使用多模态实时 API，开发人员可以创建实时、多...……更多

2024-12-12 09:54:00人工智能,人工,模型,用途,全新,智能

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能

...了 Gemini-1.5-Flash-8B-Exp-0924升级版，进一步增强了文本和多模态应用。用户可以通过 Google AI Studio、Gemini API 和 Vertex AI（面向 Google Cloud 客户）访问新的 Gemini 模型……更多

2024-09-26 09:51:00进化,更快,模型,成本,性能,模型

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世

...抓不住经典瞬间了。相比之下更加「基础」的能力，如多模态大模型的推理，也可以在手机端侧进行：无论是拍数学题让 AI 解题，还是看一张外文菜单让 AI 帮忙点菜，都是几秒钟就能办到的事。这一系列技术的驱动力，都来自...……更多

2024-10-16 13:34:00天玑,全体,引擎,智能,手机,智能

阿里大模型，再次开源大放送

...版让不少人都迫不及待想试试。并且还顺便问问，那个多模态大模型Qwen-VL-Max有可能开源吗？除此之外，还集成到了Huggingfacetransformers，以及同主流的十余个框架合作，从微调、部署、量化到本地推理一步到位。 01Qwen1.5开源此次...……更多

2024-02-20 14:45:00阿里,模型,再次,模型,多语,能力

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...混元API服务调用，可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。2024年年初，腾讯混元就宣布在国内率先采用MoE架构模型，总体性能比上一代密集模型提升50%。此后，腾讯混...……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

中文大模型最新评测出炉：腾讯混元国内第一！

快科技8月5日消息，在最新发布的中文多模态大模型SuperCLUE-V基准评测中，腾讯混元大模型获国内排名第一，稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力，即多模态理解，俗称“图生文”。多模态...……更多

2024-08-05 08:07:00腾讯,中文,模型,评测,模型,模态

科学家研发自动驾驶新模块，让自动驾驶场景理解更接近人类认知

...一款名为 LVAFusion 的模块，旨在更高效、更准确地融合多模态信息。图 | 徐冬阳（来源：徐冬阳）自动驾驶在路上应该具备学习优秀人类驾驶员的能力，因为人类在面对多数场景的时候，可以迅速地定位在关键区域。为了提高端...……更多

2024-04-11 10:53:00驾驶,认知,科学家,模块,场景,人类

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

AI潮起共筑数智之基

...大会上，中国移动正式发布了由万卡级智算集群、千亿多模态大模型、汇聚百大要素的生态平台共同构成的“九天”人工智能基座，并开放三大人工智能基地，加快大模型产业化、规模化发展，为数字中国建设注入更加强劲动能...……更多

2024-05-25 07:21:00潮起,模型,中国,中国移动,移动,模态

大模型新趋势之MoE：现状、挑战及研究方向

...模和处理，提升模型的准确性和专业能力，更好地适应多模态数据及复杂/特定任务计算。二是根据任务的需求灵活选择并组合适宜的专家模型，使得模型能够动态地适应不同的输入样本和任务场景，提高模型的灵活性、可解释...……更多

2024-11-04 16:00:00研究方向,模型,现状,方向,趋势,研究

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

...布Baichuan 3大模型，更好理解中文阿里巴巴开发的自主多模态AI代理MobileAgent上线苹果Vision Pro正式在美开售，库克称将很快登陆中国脑机接口公司Neuralink完成首例人脑植入手术 Hugging Face推出可定制AI个人助手苹果发布2024年Q1财报...……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速

...性消息——结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准...……更多

2024-10-08 09:47:00神坛,光速,团队,世界,模型,基准