模态,推理,北大,视觉,模型,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...的视频教程！具体来说，团队提出了用于机器人的大型多模态数据集IKEA Video Manuals，已入选NeurIPS。数据集涵盖了6大类IKEA家具，每种家具都包含完整的3D模型、组装说明书和实际组装视频。而且划分精细，拆解出的安装子步骤多...……更多

2024-11-27 09:57:00新进,机器人,步骤,机器,家具,智能

文档处理效能飙升！浩鲸科技“文档大模型”核心技术揭秘！

...的整体性方案，不仅包含了文档大模型能力，还提供了多模态文档工具链 DocChain 和开箱即用的软硬件一体机，基于垂直模型能力和软硬件相互配合，可帮助企业实现文档的知识抽取、知识融合，直至知识推理和问答的全流程覆...……更多

2024-09-26 13:36:00文档,效能,模型,核心,处理,技术

生成式AI收入增超2.5倍！商汤上半年减亏两成，总算力突破两

...来，商汤先后发布了日日新大模型的5.0及5.5两大版本，多模态能力全面加强，实时交互体验对标GPT-4o，同时还推出了云、端、边全栈大模型产品矩阵。商汤董事会执行主席兼CEO徐立27日在业绩会上再次强调了聚焦端侧，他表示该...……更多

2024-08-27 23:47:00两成,商汤,生成,收入,突破,商汤

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

人形机器人进厂“实习”，汽车制造还需要工人吗？

...的执行成功率，需要机器人拥有自主可靠的决策能力、多模态感知能力以及实时精准的运控能力，这些能力离不开大量的数据采集、模型训练、仿真测试。只有这样，才能真正将大模型适配到人形机器人的“大脑”。此前，人形...……更多

2024-03-20 11:28:00人形,机器人,工人,实习,机器,制造

AI大模型应用商机：“AI+”还是“+AI”

...nAI公司最新发布的GPT-4o，就通过对文本、音频和视觉三种模态统一进行混合训练，带来了更大的泛化能力，可实时对音频、视觉和文本进行推理，标志着AI大模型应用向更自然的人机交互持续迈进。GPT-4o的推出进一步推动了AI应...……更多

2024-05-16 14:00:00模型,还是,商机,应用,模型,联想集团

顶流大模型应用！天工AI不炫技，实测真正的生产力工具

...AI搜索，相比New Bing搜索和谷歌AI搜索，它的最大特色是多模态搜索体验毫不逊色，可以在搜索结果中做到多步骤推理、图文并茂、图表生成以及非常精准的时效性，让我可以直接使用在内容创作中。同时，天工AI还支持AI视频转...……更多

2024-06-29 09:39:00天工,实测,生产力,模型,工具,应用

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

... Meta 对 Llama 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还正式发布了 Llama Stack Distribution，其可……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

AI PC是噱头还是更快的马车？

...有了AI助手，这就是一句话的事。理解较长的上下文、多模态输入等等，这些都必须依赖大语言模型的能力，但其实是在本地运行的，而非借助云端的推理能力。讲真，应该没有人会认为整理文件名这种本地文件系统的操作还需...……更多

2024-03-28 13:00:00噱头,马车,更快,还是,模型,处理

PC产业驶入创新超车道，英特尔蓉城撬动AI新引擎

...了最新的 GLM-Edge 系列端侧大模型，涵盖语言大模型、多模态大模型，并包含不同参数规模，支持意图理解、智能对话、文本创作与视觉理解等多场景。英特尔为GLM-Edge端侧大模型提供推理加速，实测推理速度超过70 tokens/s。双方...……更多

2024-11-27 09:58:00英特,蓉城,英特尔,引擎,产业,英特

疯狂一夜！美国AMD、谷歌纷纷亮出大杀器，人类迎来巨变前夜？

...布，谷歌公司正式发布迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemini（中文称“双子座”）。具体来看，谷歌最新发布的Gemini 1.0系列，主要是英语模型，共包括三个不同尺寸版本：Ultra（超大杯）、Pro（大...……更多

2023-12-07 13:02:00美国,人类,疯狂,焦点,媒体,英伟

Hugging Face发布SmolVLM开源 AI 模型：

...lVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练...……更多

2024-11-28 09:47:00推理,模型,参数,模型,吞吐量,吞吐

高通aihub正式发布：支持75个ai模型

...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型（LMM）。在这一演示中，高通展示了一个超过70亿参数的LMM，其支持文本、语音和图像输入，并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多

2024-02-27 02:14:00高通,模型,支持,高通,模型,开发者

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实

...方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理，接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话...……更多

2024-05-14 16:45:00本实,和文,推理,新品,音频,对话

大模型的未来，快手在自己身上找答案

...有 GPT-4o 不具备的表情和肢体动作，是一个真正意义的多模态输入输出的实时互动智能体。快手展位「AI 关小芳」数字人 | 图片来源：视觉中国而另一片场地上，快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短...……更多

2024-07-11 14:20:00快手,模型,答案,快手,模型,小芳

大厂又盯上这块肥肉了

...产品“纳米搜索” App，支持文字、语音、拍照、视频等模态搜索方式。11月15日，腾讯推出AI搜索ima，除综合检索全网信源外，还整合了微信公众号文章的生态资源。11月5日，昆仑万维旗下“天工”APP发布了天工AI高级搜索功能。...……更多

2024-11-29 14:37:00大厂,肥肉,搜索,大厂,产品,用户

阿维塔07 Ultra版将在10月下旬开始生产

...车型形成竞争关系。近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数据对模型性能产生的影响，...……更多

2024-10-15 02:11:00阿维,生产,阿维,模型,别为,苹果公司

深圳：“深目”AI模盒发布 “深目2.0”生态联盟成立

...目”AI模盒的大模型能力，来源于云天励飞自主研发的多模态大模型“云天天书”。云天天书大模型包含语言大模型、多模态大模型等不同系列。 ……更多

2024-03-29 23:02:00深圳,生态,联盟,模型,云天,算法

加速落地京东云大模型已支持数百个场景

...态资源统一管理。在智能体构建方面，平台提供一系列多模态组件与应用框架，如文生图、语音识别等多模态组件，以及检索增强生成、智能体等AI应用框架，分钟级即可启动AI Agent构建，帮助企业高敏、高效地进行AI应用的开发...……更多

2024-06-07 11:04:00云大,京东,落地,模型,场景,支持

联想王传东：2027年AI PC将成为市场主流

...IPC产品，应具备五大特征：首先是内嵌个人智能体实现多模态自然语言交互；其次是内嵌由本地大模型和个性化本地知识库构成的个人大模型；第三是全面标配CPU+GPU+NPU的本地混合AI算力；第四是连接开放的AI应用生态；第五是供...……更多

2023-12-17 21:00:00王传,主流,市场,推理,服务,个人

不到半年，Figure AI发布第二代人形机器人，称为“地表

...“行走的ChatGPT”，预计将会把OpenAI最新发布的GPT-4o等多模态大模型继续集成在其中，打造能推理、看、听、说的人形实体ChatGPT机器人。目前，其竞争对手Agility Robotics的人形机器人Digit，以及Apptronik公司的机器人Apollo都已部署到...……更多

2024-08-07 09:30:00二代,地表,人形,最先,机器人,机器

AI如何落地智慧交通？网新IN-TRANS产品给你答案

...十倍级效率提升的核心优势。网新系统研发总监沈巍多模态交通算法引擎In-TransAI，通过图像识别和语义理解算法，将基石化为沃土，赋予数据意义。能对海量异构数据进行高效、智能地识别分析，将静态数字转变为动态知识...……更多

2024-05-29 10:00:00落地,答案,智慧,交通,产品,交通

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...，检测是否发生危害。研究过程Anthropic在工具使用和多模态的工作，为AI识别和解释图像奠定了基础。在此基础上，Claude还需要推理如何以及何时根据屏幕内容执行操作。为此，研究者训练Claude准确计算像素，从而完成命令，...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表

...Meta最近开源了多个AI项目，包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等，提升了AI在图像处理和语音识别领域的能力，进一步推动了AI研究的进展。开源绝对是AI如今发展迅猛的...……更多

2024-11-28 12:02:00一文,大礼包,大礼,安全性,语音,图像

大的要来了：谷歌Bard被曝将更名为Gemini，Ultra

...ini Ultra 1.0 终于要来了去年 12 月，谷歌正式推出了原生多模态大模型 Gemini 系列，标志着谷歌 Bard 问世以来的最大更新。Gemini 有三个版本，分别是适用于端侧的 Gemini Nano，适用于多任务的 Gemini Pro，以及能力最强的 Gemini Ultr……更多

2024-02-04 17:29:00安卓,收费,安卓,用户,应用程序,更新