• 我的订阅
  • 头条热搜
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。...……更多
自主研制!我国发布“全球首个”
...。 “空天·灵眸”2022年首次推出,是我国:首个面向多模态遥感数据生成式基础模型;首个专为遥感领域打造的专业基础模型。今年3月起,研究团队基于中国算力网“鹏城云脑II”枢纽节点,历时数月攻关完成了在4亿张国产化...……更多
...式的变革提供了可能。“空天·灵眸”是我国首个面向多模态遥感数据生成式基础模型,也是首个专为遥感领域打造的专业基础模型。自2022年首次推出后,空天院研究团队在“基础模型+下游任务”计算范式积累上持续探索。于...……更多
...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地...……更多
背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
...布,“大杀器”Gemini 1.0,正式上线。Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenA...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
苹果公司公布“mm1”多模态大模型
...omMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...,引起舆论哗然。起因是这个团队在5月29日发布了一个多模态大模型Llama3-V,声称只花500美元训练,就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现,该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
... S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
Claude 3大模型引起学界关注,业内人士:或将开启科研新范式
...网)包含三款能力逐级递增的模型,在自然语言处理、多模态整合等方面表现卓越如果讨论本世纪最激动人心且影响深远的科学技术领域,AI 必定榜上有名。以“确保变革性 AI 帮助人们和社会繁荣发展”为使命的 Anthropic,则是...……更多
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
...模块:超越了简单的文件解析,支持跨33种不同格式的多模态数据的读取和理解4 搜索模块:提供了对代码的上下文理解,并且可以快速检索高度相关的代码片段,以及其背后细微差别5 检索模块:从上下文中提取信息,识别轨迹...……更多
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
...的视频教程!具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals,已入选NeurIPS。数据集涵盖了6大类IKEA家具,每种家具都包含完整的3D模型、组装说明书和实际组装视频。而且划分精细,拆解出的安装子步骤多...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好……这个关于人工智能描...……更多
谷歌王者归来?最新推出的大模型到底有多强,能否挑战GPT-4
...Demis Hassabis)在发布会上表示,谷歌运行了32个完善的多模态基准测试来比较Gemini和OpenAI的GPT-4,Gemini“在32项基准测试的30项中大幅领先”。据谷歌介绍,在训练后期,Gemini在各类任务上都表现优异。例如,MMLU(大规模多任务语...……更多
马斯克官宣Grok-2测试版!xAI将继续拥抱开源路线吗?
...来,于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision,整体迭代速度已足够惊人。但要超越当前所有AI大模型,Grok-2要面对的问题或许远没想象中简单。所有指标超越当前AI大模型,真的假的?2023年11月,x...……更多
OpenAI推出GPT5模型引爆AI竞赛,微软/谷歌/微美全息加码千亿市场竞逐AGI
...应。目前,GPT-5有四个版本,针对逻辑、多步骤任务和多模态企业应用程序进行了优化。开发人员可以通过AzureAIFoundry利用GPT-5,利用其模型路由器来确保AI驱动的应用程序中特定于任务的精度。另一边,近日,谷歌(GOOG.US)Deepmind...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...和音频并与之交互的能力。这很大程度上是设计使然:多模态在最开始就是Gemini计划的一部分。谷歌没有像OpenAI构建DALL·E(文生图模型)和Whisper(语音识别模型)那样单独训练图像和语音模型,而是从一开始就建立为一个多感...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
全球首个多模态地理科学大模型“坤元”发布:可据指令生成专业地理图表
...,中国科学院地理科学与资源研究所正式发布全球首个多模态地理科学大模型“坤元”。作为专为地理科学领域量身打造的专业语言大模型,“坤元”不仅精通地理学的精髓,更在“懂地理”、“精配图”、“知人心”、“智生...……更多
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等目标,并利用环境反馈推进强化学习以进行长周期推理。实际上,这也是目前国内外大模型正在追求的重点方向,如最近先后更新GPT-4o和o3的OpenAI,在多模态和...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...,但其中未见蔡英华的动向。(36氪)贾佳亚团队推出多模态大模型LLaMA-VID据介绍,该模型可支持单图、短视频,还可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。(36氪)蚂蚁集团回应职级...……更多
云从科技从容大模型荣登中国大模型第一梯队
...有力证明。 云从科技在综合评测权威平台OpenCompass的多模态评测领域中也取得了重大进展。最新评测结果显示,从容大模型在该体系中的平均得分为65.5,这一成绩使其跻身全球前三,超越了谷歌的Gemini-1.5-Pro和GPT-4v,仅次于GPT...……更多
...”Ultra性能优于迄今最先进的人工智能模型,具有天然多模态性,显示出拥有更复杂推理能力的早期迹象。谷歌公司还表示,“双子座”能够理解、解释和生成世界上主流编程语言的代码,可以用作高级编码系统的引擎。此外“...……更多
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
【新智元导读】Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。...……更多
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态...……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...在阶跃星辰开放平台通过API接入使用Step-2。语言模型和多模态模型全都要开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。Step-1.5V是阶跃...……更多
更多关于科技的资讯:
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00
阿里巴巴承办COP30中国角边会 展示AI驱动气候治理新成果
第30届联合国气候变化大会(COP30)于11月10日至21日在巴西帕拉州首府贝伦市举办,这是2015年《巴黎协定》签署以来最受瞩目的气候大会
2025-11-21 11:36:00
数绘星云与腾讯云达成战略合作,共同推动AI出海电商智能化升级
11月18日,数绘星云(深圳)科技有限责任公司与腾讯云正式签订战略合作协议,双方将在云计算、大数据、AIGC等核心领域开展深度合作
2025-11-21 11:48:00
中新经纬11月21日电 据彭博社报道,当地时间20日,谷歌宣布了一款名为Nano Banana Pro的新型图像生成和编辑模型
2025-11-21 11:53:00
回望“十四五”,西安交通大学方涛教授说,他们团队倍感振奋。“在国家能源结构转型关键期,我们扎根国家‘双碳’战略,依托西安交大强大科研平台
2025-11-21 13:29:00
舒朗秋11月19日,工业和信息化部举行新闻发布会,介绍GB6675《玩具安全》系列强制性国家标准修订情况。据介绍,我国建成了全球最为完善的玩具产业链
2025-11-21 14:19:00
向长河英国剑桥大学出版社近日宣布,与追星相关的词语“准社交”(parasocial)成为2025年《剑桥词典》年度词汇
2025-11-21 14:19:00
2025世界计算大会发布全球计算十大创新成就
20日,2025世界计算大会在湖南长沙开幕。大会发布了2025全球计算十大创新成就及2026十大发展趋势。此次发布的全球计算十大创新成就包括
2025-11-21 15:35:00
系统创业 自由人生|首届雨大王大健康私域 IP 创业峰会在深圆满落幕
2025年11月1日-2日,为期两天一夜的首届雨大王大健康私域IP创业峰会在深圳成功举办。本次峰会以"系统创业,自由人生"为主题
2025-11-21 15:41:00
《保险AI智能体应用白皮书》发布,四层架构+七大场景定义行业智能新范式
随着人工智能技术加速重塑千行百业,以AI智能体为代表的AI技术正成为推动产业智能化转型的核心引擎。在保险行业,伴随数字化进程的深入推进
2025-11-21 15:42:00