模态,推理,北大,视觉,模型,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

《永劫无间》手游首次将具有18亿参数的大语言模型引入终端侧

...龙8至尊版适配优化 GLM-4V端侧视觉大模型，支持丰富的多模态交互方式。GLM-4V端侧视觉大模型能够实现令人惊叹的处理能力，以超过 70tokens/秒的速度在终端侧高速运行。此外通过与骁龙8至尊版进行深度适配和推理优化，终端侧...……更多

2024-10-23 02:55:00终端,模型,参数,语言,高通,终端

“智算融合共创未来”——开普云AI战略暨新产品发布会召开

...，公司的AI战略是以自主构建算力能力为底座，以开悟多模态大模型为支撑，通过中台体系的构建，实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多

2024-04-11 10:30:00新产,开普,共创,共创未来,发布会,新产品

商汤科技sensetime推出“云端边”全栈大模型体系

...a5.0”性能超越GPT-4 Turbo：文理双修能力大幅提升，新增多模态交互自去年4月首次发布，商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。基于超过10TBtokens训练、覆盖大量合成数据，全新的“日日新SenseNova5.0”（以...……更多

2024-04-25 01:02:00商汤,云端,模型,体系,科技,商汤

商汤升级“日日新5.0”大模型，对标GPT-4Turbo

...金融、数据分析等场景落地提供基础。“日日新5.0”的多模态能力在多模态大模型权威综合基准测试MMBench中综合得分排名首位，在多模态榜单MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU中取得领先成绩。“日日新5.0”支持高清长图...……更多

2024-04-24 09:32:00商汤,模型,升级,商汤,模型,推理

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

阿里云CTO周靖人：全面投入升级AI大基建

...模型Qwen2.5系列，同时上架语言、音频、视觉等100多款全模态模型，通义开源模型累计下载量已经突破4000万，通义原生模型和衍生模型总数超过5万，成为仅次于美国Llama的世界级模型群。打造最强AI基建不同于传统IT时代，AI时代...……更多

2024-09-19 15:53:00阿里,基建,投入,升级,模型,通义

北京智源研究院发布原生多模态世界模型Emu3

...者刘峣）近日，北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成，成功验证了基于下一个token（词元）预测的多模态技术范式，释放其在大规模训练和推理上...……更多

2024-10-24 05:12:00模态,北京,研究院,模型,研究,世界

2023IDEA大会：让大模型更好应对复杂问题

...机视觉领域在呼唤通用大模型的来临。以GPT-4V为代表的多模态大模型，是在语言能力上增加视觉能力；IDEA研究院的计算机视觉团队则选择了另一条路径，先将基础的视觉能力做到极致，再增加语言能力。目前风靡全球的“大模...……更多

2023-11-24 10:53:00模型,大会,问题,模型,研究,能力

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-

...以适应不同领域和多样化的数据特性，无法在多任务、多模态的环境中有效工作。4. 缺乏端到端的任务执行框架：由于在结构化推理和时间信号的数值计算交叉点上的研究较少，实现端到端的时间序列任务执行仍然面临挑战。现...……更多

2024-10-29 09:55:00推理,时间序列,序列,框架,难题,突破

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 |

...失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。想要看懂短视频，除了视觉内容外，语音和音频等听觉信息，如视频音乐、音效...……更多

2024-08-01 09:45:00模态,清华,领衔,模型,视频,音视

商汤绝影在行业内率先实现了原生多模态大模型的车端部署

...家王晓刚17日宣布，商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧8B模型首包延迟在300毫秒以内，推理速度40Tokens/秒，覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”，目前扩展并支...……更多

2024-07-19 22:04:00商汤,模态,模型,业内,商汤,模态

全国首个成都创新团队发布机器人多模态模型

中国首个机器人多模态模型，可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果，根据语音指令，机器人会把苹果送到你手上；如果想收拾干净桌面，机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多

2024-08-13 09:51:00模态,人多,成都,模型,团队,机器

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...超过90%。在启用视觉感知能力的情况下，o1模型在MMMU（多模态理解）测试中获得了78.2%的高分，成为首个能与人类专家展开竞争的AI模型。在 MMLU（大规模多任务语言理解）测试中，在总计57个子类别中，o1在54个类别上都超越了GPT...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

通义千问再放大招：720亿大模型开源，全尺寸赶上LLaMA-

...阿里云也首次开源了音频理解大模型Qwen-Audio，这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文...……更多

2023-12-01 21:07:00通义,模型,尺寸,移动,模型,阿里

昆仑万维：“天工大模型3.0”将于4月17日正式发布同步开

...型”“天工3.0”是一款集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体的人工智能大模型。“超级模型”(Super Model)的概念诞生于“超级应用”(Super App)。互联网时代，超级应用是一种集成了多种...……更多

2024-04-01 19:56:00万维,昆仑,模型,将于,同步,参数

支付宝发布多模态医疗大模型：支持千亿级视觉识别

...快科技7月5日消息，在2024世界人工智能大会上，支付宝多模态医疗大模型正式亮相，成为国内首批多模态医疗大模型之一。据悉，该医疗大模型的基石，源自蚂蚁集团自主研发的蚂蚁百灵大模型，这一先进平台不仅拥有“视听言...……更多

2024-07-05 16:17:00模态,模型,支付,视觉,医疗,支持

人工智能应用场景不断拓展

...业大模型占比七成。大模型已具备文本、语言、视觉的多模态能力，成为推动产业发展与社会进步的重要变量。在阶跃星辰创始人兼首席执行官姜大昕看来，通用人工智能的实现路径可以划分为模拟世界、探索世界和归纳世界3...……更多

2024-09-26 04:44:00人工智能,人工,场景,不断,智能,应用

机器人多模态模型及双臂协作系统在川发布

●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素，综合判断、生成任务并执行任务，是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多

2024-08-13 06:37:00模态,人多,双臂,协作,模型,机器

OpenAI没有放弃的机器人梦想

...捕捉到的语音转录文本，输入到一个由OpenAI训练的大型多模态模型中，然后由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。“同样的模型，也负责决定在机器人上运行哪些学习的...……更多

2024-03-18 10:00:00机器人,机器,梦想,机器人,机器,模型

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。在实际的执行过程中，这会用到一种名为思考标签（thinking tag）的机制。模型会在这个标签内部进行反思，直到它得到正确答案或认为自己得到了正确...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

OpenAI机器人亮相，大模型有了“肉身”，英伟达微软都有投

...麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的多模态大模型中，模型能够理解图像和文本。模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，再通过文本到语音的方式向人类回话。△Figure 01训练方法...……更多

2024-03-14 17:17:00英伟,微软,肉身,机器人,模型,机器

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

苹果发布mm1.5-ui模型

10月13日消息，近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数据对模型性能产生的影响，相关模...……更多

2024-10-13 10:57:00模型,苹果,模型,苹果公司,数据,苹果

Mistral放大招！124B多模态巨无霸登场，免费版Cha

...大招了！一连发布两大更新——Pixtral Large：前沿级124B多模态模型，用于驱动新Le Chat。全新Le Chat：具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供！Mistral的CEO兼联创Arthur Mensch宣布道：「此次发布是...……更多

2024-11-20 09:43:00巨无霸,免费版,模态,突袭,模型,生成