• 我的订阅
  • 头条热搜
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...与资源研究所正式发布全球首个多模态地理科学大模型“坤元”。作为专为地理科学领域量身打造的专业语言大模型,“坤元”不仅精通地理学的精髓,更在“懂地理”、“精配图”、“知人心”、“智生图”四大核心功能上展...……更多
...学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地理学全谱系高质量语料...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
中国首个音乐SOTA模型「天工音乐大模型」今日公测
...赋予「天工3.0」超强的性能表现。在MMBench等多项权威多模态测评结果中,「天工3.0」超越GPT-4V,全球领先。 (天工3.0多模态性能超越GPT-4V,全球领先) 同时,「天工3.0」旗下的「天工SkyMusic」音乐大模型也在今日面向全社会开...……更多
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
...型”“天工3.0”是一款集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体的人工智能大模型。“超级模型”(Super Model)的概念诞生于“超级应用”(Super App)。互联网时代,超级应用是一种集成了多种...……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...在阶跃星辰开放平台通过API接入使用Step-2。语言模型和多模态模型全都要开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。Step-1.5V是阶跃...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时,模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题,模型反而更擅长复杂的英语题。解理科题目时,模型会出现以超出年级知识范围外的...……更多
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了
国产大模型,多模态能力都开始超越GPT-4-Turbo了??权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet..……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有效加速」和「超级对齐」已经成为两个主要的发展动向,...……更多
百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
...高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它...……更多
马斯克 xAI 展示首个多模态模型 Grok-1.5V
...下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI ...……更多
杀疯了!1分钟完成100页PPT,天工AI人工智能速成法!
...工AI软件,自研4千亿级参数MoE混合专家模型【全球首个多模态“超级模型”(SuperModel)】。网页端tiangong.cn,app天工,小程序天工AI智能助手,任君挑选!该说不说,目前国内各类AI都是子chatGPT爆火后的跟风套壳,国内具备自研...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...同完成,是全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
顶流大模型应用!天工AI不炫技,实测真正的生产力工具
...AI搜索,相比New Bing搜索和谷歌AI搜索,它的最大特色是多模态搜索体验毫不逊色,可以在搜索结果中做到多步骤推理、图文并茂、图表生成以及非常精准的时效性,让我可以直接使用在内容创作中。 同时,天工AI还支持AI视频转...……更多
字节跳动为企业提供极具性价比的多模态大模型能力
...正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。火山引擎总裁...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
...益课程内容,为居民提供了更加便捷的生活服务。它通过地理定位技术,让成都市民可以一键找到离自己最近的图书馆、健身房、影音室等公共设施。无论身在何处,只需打开小程序,即可轻松查找周边提供各类服务的群团分中...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...示,这个生成速度在业内已经算非常快了。张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为...……更多
●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素,综合判断、生成任务并执行任务,是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形机器人领域率先取得突...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
... S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集...……更多
苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像
...Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE可以理解用户下达的自然语言命令,进行Photoshop风格的修改、全局照片优化和局部编辑等操作。苹果公司和加...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...中包含不可复现的论文。 CORE-Bench的优势能力要求高、多模态(Skills and modalities)解决CORE-Bench中的任务需要多种能力,包括理解指令、调试代码、检索以及跨学科解释结果,模型只有具备这些技能才能在CORE-Bench上拿到更高分数...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提...……更多
更多关于科技的资讯:
发展新质生产力 推进新型工业化11月18日至25日,全球半导体行业盛会——德国慕尼黑半导体展览会隆重举行。总部位于太原的山西天成半导体材料有限公司受邀参展
2025-11-20 06:54:00
第二届雷克沙杯高校电竞挑战赛总决赛落幕
2025年11月16日,2025雷克沙杯高校电竞挑战赛全国总决赛于“电竞重镇”成都圆满收官。本届赛事由国际高端消费类存储品牌雷克沙主办
2025-11-19 08:26:00
厦门网讯(厦门日报记者 谢瑞真)新闻工作者普遍面临用眼过度、睡眠不足等问题,长时间用眼导致眼部健康问题频发。昨日,国内首份聚焦媒体从业者的眼健康报告——《厦门市新闻工作者眼健康白皮书》(以下简称“白皮书”)正式发布
2025-11-19 08:46:00
邮储银行临沂市蒙阴县支行成功举办“智享理财 共筑财富”主题沙龙活动
鲁网11月18日讯为积极践行“金融为民”服务理念,精准满足广大客户多元化财富管理需求,搭建专业高效的金融交流平台,近日
2025-11-19 09:27:00
“具身智能”开辟青年创业新赛道
原标题:政策东风助力产业发展 年轻团队研发“灵巧手” 产品销量一年增长五倍“具身智能”开辟青年创业新赛道11月17日,中国共产党北京市第十三届委员会第七次全体会议召开
2025-11-19 10:57:00
大皖新闻讯 11月19日,记者从合肥市召开的新闻发布会获悉,“十四五”以来,合肥市以科技创新引领产业创新,获批2个国家级制造业创新中心
2025-11-19 14:05:00
“双十一”最后一公里日均单量远超去年峰值,顺丰同城联动无人车、公交车末端提效
第17个“双十一”落幕,星图数据显示,本届大促综合电商平台销售额为1.619万亿元,同比增长12.3%;即时零售成为今年最大黑马
2025-11-19 14:28:00
阿里千问App支持119种语言,上线全新实时翻译能力
11月19日,阿里千问App在公测三天后,迅速推出多项翻译能力升级。基于Qwen模型的多语言能力,千问App推出全新实时翻译功能
2025-11-19 14:55:00
再绽国际舞台!柏星龙创意包装斩获2025年度五项Pentawards大奖
摘要:2025年Pentawards全球获奖名单揭晓,深圳市柏星龙创意包装股份有限公司报送的五件作品从全球数千件参赛作品中突围
2025-11-19 16:37:00
中新经纬11月19日电 11月19日,工业和信息化部举行新闻发布会,介绍GB 6675《玩具安全》系列强制性国家标准修订情况
2025-11-19 16:58:00
你开店,我出钱!郑州用“青春计划”留住年轻人
大河网讯(记者 赵檬)11月18日,由共青团郑州市委联合市委金融办、市人社局等六部门推出的“商都新活力·青春小店成长计划”正式启动
2025-11-19 17:01:00
鲁网11月19日讯2025年11月1日至2025年11月30日,中国银行泰安分行开展“臻享新户礼遇,尽享美好生活”主题活动
2025-11-19 17:14:00
为啥爆款短剧都爱用它?
大河网讯(记者 赵檬)打开手机刷几分钟短剧,早已成为不少人碎片时间的标配。从手机拍摄到专业设备加持,从流量博弈到内容为王
2025-11-19 17:32:00
2025年11月8日窪田制药控股株式会社为应对全球日益严重的“近视”问题,作为眼科医疗解决方案公司,窪田制药控股株式会社(总部
2025-11-19 20:39:00
三大核心价值赋能,浪潮海岳智能服务平台为企业运维保驾护航
在数智化转型加速推进的今天,企业运维正面临前所未有的挑战。传统运维模式响应慢、协作难、效率低,难以支撑业务的快速发展;运维环节中的流程堵点与系统孤岛
2025-11-19 22:02:00