模态,推理,北大,视觉,模型,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...家王晓刚17日宣布，商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧8B模型首包延迟在300毫秒以内，推理速度40Tokens/秒，覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”，目前扩展并支...……更多

2024-07-19 22:04:00商汤,模态,模型,业内,商汤,模态

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

全国首个成都创新团队发布机器人多模态模型

中国首个机器人多模态模型，可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果，根据语音指令，机器人会把苹果送到你手上；如果想收拾干净桌面，机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多

2024-08-13 09:51:00模态,人多,成都,模型,团队,机器

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...超过90%。在启用视觉感知能力的情况下，o1模型在MMMU（多模态理解）测试中获得了78.2%的高分，成为首个能与人类专家展开竞争的AI模型。在 MMLU（大规模多任务语言理解）测试中，在总计57个子类别中，o1在54个类别上都超越了GPT...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

云计算一哥终于搞多模态了：一口气6个大模型，还有个3nm芯片

...—亚马逊CEO Andy Jassy亲自站台re:Invent24，发布自家新款AI多模态系列大模型，名曰Amazon Nova。而且是一口气涵盖文本对话、图片生成、视频生成，甚至直接吐露一个小目标：将来我们不仅要Speech to Speech，更要Any-to-Any！整体而言，Am...……更多

2024-12-05 09:45:00模态,一口,芯片,模型,一口气,亚马

昆仑万维：“天工大模型3.0”将于4月17日正式发布同步开

...型”“天工3.0”是一款集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体的人工智能大模型。“超级模型”(Super Model)的概念诞生于“超级应用”(Super App)。互联网时代，超级应用是一种集成了多种...……更多

2024-04-01 19:56:00万维,昆仑,模型,将于,同步,参数

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

Figure AI发布人形机器人通用大模型：能识别陌生物品，

...器人应用场景中进行了验证，最新测试结果显示，经过多模态能力扩展的DeepSeek-R1能够让人形机器人在执行任务前结合看到的场景和接收到的指令进行思考验证，零样本推理水平与调优后的同级别大模型推理水平相当。公司将基...……更多

2025-02-21 12:11:00机器人,机器,人形,模型,运行,物品

机器人多模态模型及双臂协作系统在川发布

●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素，综合判断、生成任务并执行任务，是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多

2024-08-13 06:37:00模态,人多,双臂,协作,模型,机器

人工智能应用场景不断拓展

...业大模型占比七成。大模型已具备文本、语言、视觉的多模态能力，成为推动产业发展与社会进步的重要变量。在阶跃星辰创始人兼首席执行官姜大昕看来，通用人工智能的实现路径可以划分为模拟世界、探索世界和归纳世界3...……更多

2024-09-26 04:44:00人工智能,人工,场景,不断,智能,应用

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

OpenAI没有放弃的机器人梦想

...捕捉到的语音转录文本，输入到一个由OpenAI训练的大型多模态模型中，然后由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。“同样的模型，也负责决定在机器人上运行哪些学习的...……更多

2024-03-18 10:00:00机器人,机器,梦想,机器人,机器,模型

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。在实际的执行过程中，这会用到一种名为思考标签（thinking tag）的机制。模型会在这个标签内部进行反思，直到它得到正确答案或认为自己得到了正确...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

OpenAI机器人亮相，大模型有了“肉身”，英伟达微软都有投

...麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的多模态大模型中，模型能够理解图像和文本。模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，再通过文本到语音的方式向人类回话。△Figure 01训练方法...……更多

2024-03-14 17:17:00英伟,微软,肉身,机器人,模型,机器

云从科技发布从容大模型可支持图文理解、文案写作、逻辑推理等

...要物理世界数字化，实现知识找人，能够陪伴执行。而跨模态大模型是其中的技术关键。（记者黄心怡） ……更多

2023-05-18 10:50:00逻辑推理,文案,推理,从容,逻辑,模型

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成