• 我的订阅
  • 头条热搜
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过GPT5、Claude Opus 4等,跻身全...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
2023内容科技应用典型案例:传播大脑科技(浙江)股份有限公司打造传播大模型
...媒体相关任务下进行微调训练,以提高模型的可用性。多模态向量检索技术:利用向量库将多模态信息转成向量,通过向量检索技术,建立了一个高效的资源检索框架,用户可通过多种方式快速找到所需的媒体资料和信息。知识...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室...……更多
...业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预训练的基础上加上强化学习,提高模型...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地...……更多
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了
...现得更好吗? Q2: HOVER 能比其他训练方法更有效地训练多模态仿人机器人控制器吗? Q3: HOVER 能否在真实世界的硬件上实现多功能多模态控制?与专家策略的对比该团队在不同控制模式下比较了 HOVER 和相应专家策略的表现。以 ExB...……更多
美国东北大学提出视频数据增强方法,能让视频模型学到更好的表征
...张一天等人重新审视了色调变换这一操作在视频数据这一模态下的作用,并观察到了完全相反的现象,即这种操作能让视频理解模型的性能和泛化性得到提升。通过进一步地分析其在不同模态数据下(图像/视频)表现差异的原...……更多
大模型“遍地”都是,谁能真正解放生产力?
...,其苦于人工标注久矣,不想再人工打标视频、图片等多模态信息。但市场现实情况是,供不应求:除了大厂以外,少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然,听到了太多客户关于大模型难以落地...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...以适应不同领域和多样化的数据特性,无法在多任务、多模态的环境中有效工作。4. 缺乏端到端的任务执行框架:由于在结构化推理和时间信号的数值计算交叉点上的研究较少,实现端到端的时间序列任务执行仍然面临挑战。现...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
... S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
...融等关键行业,评估并保障这些领域中LLMs的安全性。 多模态扩展:探索多模态数据的越狱评估,结合文本、图像、音频等多种数据类型,全面评估LLMs在多模态环境下的安全表现。 协作防御机制:开发基于多Agent的协作防御机...……更多
若愚科技推出九天机器人大脑,大模型总参数规模达130亿 |项目报道
...商合作,提供先进的机器人大脑产品。若愚科技的基于多模态大模型的通用机器人大脑研究主要聚焦在两个方向:一是负责感知层面的感知模型,二是控制层面的控制模型。感知模型通过语音交互、视觉信息传感器信号提取等方...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...在阶跃星辰开放平台通过API接入使用Step-2。语言模型和多模态模型全都要开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。Step-1.5V是阶跃...……更多
...大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多
BAT等互联网大厂,如何入局人形机器人?
...智能公司,其研制的文心产业级知识增强大模型,具备跨模态、跨语言的深度语义理解与生成能力,百度认为,大模型等人工智能工具,核心在于提高效率,因此在上一次机器人发展浪潮中,百度就尝试通过飞桨深度学习平台和...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
开年“王炸”!智能体再升级,科大讯飞打造办公新范式
...化应用的标准化平台产品。通过集成大模型、虚拟人、多模态语音、知识库等技术,利用人机对话的交互方式,轻松完成展厅和展会的讲解互动,实现用户行为分析,精准定位商机。在团队碰头会场景,星火快答可通过问答快速...……更多
自然语言处理:大模型理论与实践
...预训练数据工程,包括通用、专业、多类别等数据源,多模态数据集,以及数据处理方法和对模型性能的影响。还介绍预训练方法如语言建模和去噪自编码,优化参数设置和可扩展训练技术。- 微调:涵盖指令微调概念、构造指...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
更多关于科技的资讯:
“数字之城”杭州如何驶入文旅发展新赛道?
中新网杭州12月18日电(曹丹)近日,《AI涌现——2025杭州数字文旅产业发展年度报告》在浙江杭州发布。报告显示,该市数字文旅骨干企业2025年前三季度营收同比增长10
2025-12-19 08:24:00
天立教育与腾讯教育达成战略合作,携手推动K12教育智能化升级
2025年12月16日,天立教育与腾讯教育达成战略合作。双方将深度融合腾讯的前沿AI技术能力,与天立启鸣在K12教育领域积累的教学经验与实践场景
2025-12-19 08:26:00
特步签约全运会冠军刘景扬,从耐力赛道到速度赛场的战略延伸
12月18日,中国领先体育用品品牌特步正式宣布第十五届全运会女子100米栏冠军刘景扬成为特步体育代言人。此次合作不仅是特步运动资源矩阵的拓展
2025-12-19 08:26:00
西交利物浦大学启用沉浸式球幕影院,MEGA创意媒体盛典与国际沉浸媒体联盟同步亮相
12月18日,西交利物浦大学影视与创意科技学院揭幕沉浸式球幕影院,并举办第五届MEGA国际创意媒体盛典,同时宣布国际沉浸媒体联盟正式成立
2025-12-19 08:26:00
协同作战、共创大美食材节,良之隆集团328百天倒计时动员会举行
12月18日,是良之隆・2026第十四届中国食材电商节的倒计时100天。在此之际,良之隆集团举办了3·28百天倒计时动员会
2025-12-19 08:26:00
马克思曾指出:“生产力是社会发展的最终决定力量。”AI作为第四次工业革命的重要推动力量,正用数据、算法和算力重构生产力的模样
2025-12-19 10:56:00
我国虚拟数字人领域首个国家标准《信息技术客服型虚拟数字人通用技术要求》近日正式发布。该标准的出台填补了行业技术规范的空白
2025-12-19 12:14:00
“有烟草证就能办纯信用贷款,50万元额度随借随还,这下旺季订烟的资金缺口彻底补上了!”上饶市余干县一家超市负责人李先生
2025-12-19 12:14:00
在数字经济与日常生活深度融合的今天,优质的服务体验已成为衡量企业核心竞争力的重要标尺。中国移动通信集团江苏有限公司无锡分公司(下称“无锡移动”)再次荣获国家级“用户满意服务”认证
2025-12-19 13:15:00
米连科技布局多元社交矩阵,满足不同情感连接场景
当提及线上社交平台时,许多人脑海中首先浮现的仍是“婚恋”或“约会”的单一标签。然而,米连科技通过其创新实践,正在系统性地打破这一固有印象
2025-12-19 13:58:00
浙江日报杭州12月18日讯 (记者 何冬健 通讯员 肖乐) 记者18日从之江实验室举办的021科学基础模型创新合作大会上获悉
2025-12-19 08:54:00
在共享经济与人工智能技术加速融合、新就业形态不断涌现的当下,如何规范发展、保障权益、激发创新活力成为关键。近日,由杭州高新区(滨江)市场监督管理局牵头起草的两项团体标准——《共享
2025-12-19 06:51:00
本报记者 程宬3000元本金、一张百货柜台、十来个工人,这是彭广杰2020年春天的全部家底;三年半后,他的PAOFU宠物用品旗舰店在拼多多日出5000单
2025-12-19 07:18:00
在工厂轻松搬运物料、在医院为患者做预诊、在赛场上竞速奔跑……2025年即将收官,“具身智能”以高票入选年度十大流行语榜单第二名
2025-12-19 07:18:00
出门问问打造的AIGC产品服务用户数已超1500万、江苏奥赛康研制的新型抗感染药物加速攻关……时至今日,在南京,一个个令人瞩目的成果背后
2025-12-19 07:18:00