• 我的订阅
  • 头条热搜
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
vivo发布自研大模型,为用户和开发者带来诸多惊喜
...随着大模型技术日益成熟,vivo在语言、图像、语音、多模态等全模态的AI技术上逐步升级为大模型能力,正从传统的AI技术时代迈向大模型AI技术时代。vivoAI算法技术总监李方圆全新蓝心大模型带来4项核心升级:1、语言大模型升...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
... S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...布,“大杀器”Gemini 1.0,正式上线。Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenA...……更多
AIGC工具测评:生成式AI的产品表现如何
...力上也有了重大突破。更值得一提的是,GPT-4引入了“多模态”功能,支持图像和语音输入,甚至可以输出图片,大大拓宽了其应用范围。界面体验ChatGPT-4的用户界面呈现了现代化和直观的设计风格,其简洁的设计语言和优化的...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...究团队及其合作者旨在为足球视频理解开发一个全面的多模态框架。具体来说,他们做出了以下贡献:(1)他们提出了 SoccerReplay-1988,这是迄今为止最大的多模态足球数据集,其中包括来自 1988 场完整比赛的视频和详细注释,...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
科大讯飞股价跌停,市值蒸发120亿元
...升9%,其次是逻辑推理(8%),文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时,七大能力大幅度提升,其中语言理解能力提升78%,文本生成、知识问答、数学能力等提升也超70%,逻辑推理能...……更多
Gemini 开启大模型路线之争,新战场将“数流成河”
...一种可能性:具有原生数据优势的互联网巨头,可能在多模态大模型竞争中占据优势。这意味着,谷歌、马斯克、Meta以及中国的腾讯、抖音、阿里、百度等公司都有可能在Gemini 开创的路线上加速迭代大模型。大模型战局,进入...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测,360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
Manus和DeepSeek的差别是什么 谁更厉害:一文秒懂!
...用成本仅为同类产品的1/15,支持企业级规模化应用。多模态兼容:可处理高分辨率图像输入,但视觉模块尚未完善。Manus:执行型“全能打工人”技术架构:采用多智能体协作架构,通过虚拟机运行子Agent,整合工具链(如浏览...……更多
科大讯飞入局大模型混战,刘庆峰:10月底将赶超ChatGPT
...理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。“这将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的机会。”“认知大模型成为通用人工智能的曙光,科大讯飞有信心实现智能涌现。”刘庆峰表...……更多
Claude 3.5深夜觉醒,学会模仿人类用电脑!编程干翻o1,Agent一夜变天
...,检测是否发生危害。 研究过程Anthropic在工具使用和多模态的工作,为AI识别和解释图像奠定了基础。在此基础上,Claude还需要推理如何以及何时根据屏幕内容执行操作。为此,研究者训练Claude准确计算像素,从而完成命令,...……更多
百度发布深度思考大模型文心X1:性能对标R1,API调用价格减半
...千帆平台上线。据介绍,文心大模型4.5是百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于GPT4.5,API调用价格仅为GPT4.5的1%;文心大模型X1为深度思考模型,性能对标DeepSeek-R1,调...……更多
产品角度分析GPT-4的更新及影响
...现之间是有区别的,一定要弄清楚这个概念!!虚假的多模态LLM:LLM本身不理解图像,我们先用一些图转文的工具(例如CLIP),把图片转成文字,再将这个文字拼接进Prompt中,例如“我刚给你发了一张图,图的内容是一只黑色...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...眼镜等更多领域上的应用前景有多广阔。“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有...……更多
生成式AI在金融行业的应用及思考
...金融行业也有广泛应用。值得一提的是,张呈刚强调了多模态场景在金融行业的应用趋势。传统的人机交互方式是文本,但现在人们越来越倾向于使用图像、语音等多模态方式与生成式人工智能进行交互,这给金融行业带来了新的机...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...示,这个生成速度在业内已经算非常快了。张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...,挑战性任务基准,领域特定基准,以及其他多语言,多模态,指令跟随基准等等。 表 2:LLM-as-a-judge 数据集和基线展望:挑战和机遇(1)偏见与脆弱性:大模型作为评判者,一直受困扰于各种各样影响评价公平性的偏见,例...……更多
更多关于科技的资讯:
《不内耗:阿德勒自我超越之书》出版发行
2025年7月,由江苏凤凰文艺出版社推出的心理学力作《不内耗:阿德勒自我超越之书》正式面世。在“内卷”“焦虑”“躺平”成为时代关键词的当下
2025-07-28 11:58:00
我的文化账单
每一个买下的会员资格、每一张演唱会门票、每一次文化消费的打卡,都是一次声明:我在靠近那个更好的自己七八月的文化市场,和入伏的天气一样灼热
2025-07-28 11:59:00
这个暑期用鸿蒙5开启缤纷夏日,多款应用福利享不停
暑期已至,休闲娱乐需求高涨。鸿蒙 5特别推出“鸿蒙一夏”专题活动,联动华为音乐、华为视频、华为阅读、AppGallery
2025-07-28 12:37:00
2025年,中国家居消费市场在一系列国家补贴政策的强力驱动下,呈现出蓬勃复苏与结构升级的良好态势。《关于促进绿色智能家电消费的若干措施》及《县域商业三年行动计划》等政策的密集出台与深入实施
2025-07-28 12:38:00
夏季盗窃高发季 你家门锁可能正在“欢迎”小偷
夏季历来是入室盗窃案件的高发期,2024年公安部部署全国公安机关开展夏季治安打击整治行动期间,共破获入室盗窃案件1.9万起
2025-07-28 12:38:00
杭州零小淘黄红霞:挖掘新电商多方位机遇,开启价值共生新纪元
新电商作为一股不可忽视的力量,正在以多维度、全方位的方式深刻影响着经济社会的发展,推动整个消费模式的全新升级。近日,杭州零小淘科技有限公司(以下简称“零小淘”)董事长黄红霞做客新华网
2025-07-28 12:40:00
聚焦2025交流周|“凉资源”赋能“热电竞”!“中国数谷”助“Z世代”逐梦数字战场
7月26日,当青岩古镇广场的环形大屏幕上实时跳动着选手操作数据、团队协同效率等复杂指标,场外几十公里处的国家大数据(贵州)综合试验区核心区内
2025-07-28 13:06:00
双奖加冕!中科星图荣获第九届麒麟国际广告奖“年度杰出品牌”与“年度影响力品牌人物”
2025年7月25日,第九届麒麟国际创意节在上海盛大启幕,广告、品牌管理、数字营销等领域的精英齐聚一堂。麒麟国际广告奖以专业评审标准
2025-07-28 13:22:00
当AI能够在交互中自主掌握互动节奏,“读”懂情绪,说得“人话”,人机互动体验会有怎样颠覆式的改变?在2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2025)展览现场
2025-07-28 13:22:00
第五届中国新电商大会丨包华:义乌老板娘8国语言无缝切换的背后
从鸡毛换糖到“世界小商品之都”,再到第六代全球数贸中心……7月27日,第五届中国新电商大会在吉林省延边朝鲜族自治州举行
2025-07-28 13:41:00
第五届中国新电商大会丨打好“三张牌”,将流量优势转化为产业优势
7月27日,第五届中国新电商大会在吉林省延边朝鲜族自治州举行。在开幕式暨主论坛中的主题演讲环节,深圳商务局党组成员、副局长池卫国分享了深圳促进跨境电商的探索和实践
2025-07-28 13:42:00
共生共赢 变革创新——潍柴后市场产业化发展开启全球服务新版图
大众网记者 闫晓辉 潍坊报道在全球制造业竞争日益激烈的当下,后市场服务已成为企业提升核心竞争力、实现可持续发展的关键领域
2025-07-28 14:38:00
在人工智能深刻变革企业管理的浪潮中,选择适合的AI工具至关重要。以下是五款值得关注的企业管理AI解决方案:1.金蝶:企业管理AI领航者金蝶于2025年正式升级为“企业管理AI公司”
2025-07-28 14:57:00
Osome在港、新两地联合发起创业主题活动,赋能企业家业务增长
全球领先的数字化企业服务平台Osome与一站式财务管理平台Aspire携手,于6月24-25日在香港、新加坡成功举办了“Idea
2025-07-28 14:58:00