模态,模型,支付,视觉,医疗,支持头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

【新智元导读】多模态大语言模型（MLLM）在医学视觉问答（VQA）领域展现出巨大潜力，通过提供针对医学图像的具体临床问题的回答，有助于提高医疗专业人员的工作效率。然而，现有医学VQA数据集规模较小且问题过于简单，...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

Sora再度颠覆AI视频行业，A股哪些公司有相关布局？

...实现AGI（通用人工智能）的重要里程碑。券商建议关注多模态技术Sora视频一出，立刻震惊业界。360集团创始人、董事长周鸿祎2月16日在微博发文表示，这意味着AGI实现将从10年缩短到1年。其实，Sora出现之前，也有其他类似的AI...……更多

2024-02-19 08:10:00颠覆,布局,行业,视频,公司,模型

云知声推出山海多模态大模型：实时生成文本、音频和图像

IT之家 8 月 26 日消息，云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息，山海多模态大模型能够接收文本、音频、图像等多种形式作为输入，并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多

2024-08-27 09:38:00模态,山海,实时,生成,模型,图像

对话云天励飞董事长陈宁：2030年人类将实现AGI，推理芯片

...搭载了国产 14nm 的边缘训推芯片Deep Edge10 Max，以及自研多模态大模型“云天天书”。陈宁在会上表示，离不开核心能力算法芯片化。而“深目”AI模盒的算力基础，来源于去年云天励飞推出的14nm Chiplet大模型训推芯片DeepEdge10 Max...……更多

2024-03-30 18:00:00陈宁,云天,推理,董事长,芯片,董事

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

【新智元导读】Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适配了Arm处理器，手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月，全新升级后的Llama 3....……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...像与语音识别能力。本月初，微软更是公布了 166 页的多模态版 GPT-4V 的相关文档，详细探讨了 GPT-4V 的功能和使用情况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

...，使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多

2024-09-03 09:45:00二代,通义,阿里,模型,视觉,语言

苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为 A

...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多

2023-12-26 14:06:00模型,生态,模态,零碎,苹果,模型

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...Qwen-VL-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

击败Gemini-1.5-Pro、GPT-4V，从容大模型多

...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示，云从科技的从容大模型在该体系中的平均得分为 65.5，这一成绩使得从容大模型跻身全球前三，超越了谷歌的 Gemini-1.5-Pro...……更多

2024-06-29 09:36:00模态,从容,模型,能力,全球,模态

多模态竞技场对标90B Llama 3.2！Pixtral

...客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型...……更多

2024-11-20 09:42:00模态,推理,北大,视觉,模型,推理

银河通用王鹤：用三维视觉小模型+基础大模型实现具身智能

...径。为什么这样认为。对此，王鹤在具身智能大会具身多模态大模型论坛上给出了解释，科技行者就这一演讲关键内容进行了不改变原意的整理：机器人从动嘴到动手有多难最近，具身多模态大模型非常火，我们看到了OpenAI和Fig...……更多

2024-04-15 10:13:00模型,三维,银河,视觉,智能,基础

联汇科技荣登「AI中国」机器之心2022年度评选两大重量榜单

...联汇科技预训练大模型拥有国际领先的能力优势，自研多模态预训练大模型OmModel是全球最早一批基于大规模自监督学习的多模态人工智能算法之一，在ECCV 2022等多个顶会竞赛中领先谷歌、微软等技术团队取得多项冠军，大模型...……更多

2023-02-01 10:00:00联汇,之心,中国,重量,机器,年度

讯飞星火V3.0发布，打造每个人的AI助手

...学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力，进一步提升星火的落地应用能力。升级AI人设、启发式对话，打造每个人的AI助手自讯飞星火9月5日全民开放后，当前已有1200万用户，也...……更多

2023-10-24 15:02:00讯飞,星火,助手,讯飞,星火,模型

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 A...……更多

2024-08-01 09:34:00模态,拟人,玩家,模态,情感,模型

世卫组织：人工智能在医疗领域应用前景广阔

...内瓦1月18日电（记者曾焱）世界卫生组织18日发布的多模态大模型治理相关新指南说，人工智能在医疗卫生领域应用前景广阔，但同时也要防范其中可能出现的诸如“自动化偏见”导致的过度依赖等风险。作为一项快速发展的...……更多

2024-01-20 00:19:00人工智能,人工,前景,领域,医疗,智能

首个免费多模态大模型API：GLM-4V-Flash上线智谱

...技术普惠的理念，在今天上线备受期待的第一款免费的多模态模型——GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力，更在图像处理上实现了精确度的提升。这一多模态免费模型将进一步降低开发者在各个领域深入...……更多

2024-12-12 09:49:00费多,模态,模型,开放,平台,模型

更快、更强、更可控：智谱“起舞弄清影”，视频生成卷出新高度！

...张鹏则表示，对于Sora的出现，他并不吃惊，因为立足多模态领域的深耕，智谱也正在做这件事。如今，“清影”面世，让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态，也让没有视频制作基础的小...……更多

2024-07-27 10:00:00更快,生成,高度,视频,清影,视频

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉

【新智元导读】全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。来自中国的视频生成模型，再一次震惊了全球大模型圈。生数科技推出...……更多

2024-11-15 09:52:00模型,果仁,上下文,地表,上下,视觉

vivo自研蓝河操作系统发布：支持大模型、多模态交互

...号称一款面向未来的自研智慧操作系统，支持大模型、多模态交互，还号称是全球首款用Rust语言来编写系统框架的操作系统。近年来，Rust重构的热潮席卷整个开发圈，Rust在安全性、高效性和可维护性等方面都有一定优势，包括...……更多

2023-11-03 02:14:00模态,模型,支持,系统,系统,支持

马斯克：未来两年内AI或将比“最聪明的人类更聪明”【附人工智

...景划分，AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图...……更多

2024-04-09 11:24:00马斯,马斯克,人工智能,发展前景,人工,前景

CHINC2024丨史文钊：大模型时代神州医疗全面领跑医疗

...作为医疗大数据AI行业领军者，神州医疗依托大数据及多模态等核心技术，倾力打造神州医疗大模型。创新性地自主研发文本、影像、病理、精准4大模型支持的多模态大模型，赋能医疗领域多场景应用。同时，史文钊强调医学研...……更多

2024-04-08 10:02:00医疗,神州,模型,时代,行业,医疗

商汤科技sensetime推出“云端边”全栈大模型体系

...a5.0”性能超越GPT-4 Turbo：文理双修能力大幅提升，新增多模态交互自去年4月首次发布，商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。基于超过10TBtokens训练、覆盖大量合成数据，全新的“日日新SenseNova5.0”（以...……更多

2024-04-25 01:02:00商汤,云端,模型,体系,科技,商汤

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力｜甲子

...示，这个生成速度在业内已经算非常快了。张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度...……更多

2024-07-27 09:30:00亦庄,甲子,生成,模型,视频,模型

首个多模态连续学习综述，港中文、清华、UIC联合发布

...址：https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习（CL）旨在增强机器学习模型的能力，使其能够不断从新数据中学习，而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗...……更多

2024-11-14 09:46:00模态,清华,中文,联合,学习,模态