• 我的订阅
  • 头条热搜
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...模型智能水平、Agent工具调用和Coding能力、深度推理、多模态等方面实现多项突破。2025云栖大会,阿里云CTO周靖人发布多项重磅技术更新在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过GPT5、Claude Opus 4等,跻身全...……更多
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
多模态检索增强生成(mRAG)也有o1思考推理那味儿了!阿里通义实验室新研究推出自适应规划的多模态检索智能体。名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。随便上传一张图,...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。语言模型已经可以写诗写小说...……更多
刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的
...择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1 所代表的关于推理 Scaling Law 的探索。具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经...……更多
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工智能大会上,腾讯集团副总裁...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商...……更多
2023内容科技应用典型案例:传播大脑科技(浙江)股份有限公司打造传播大模型
...媒体相关任务下进行微调训练,以提高模型的可用性。多模态向量检索技术:利用向量库将多模态信息转成向量,通过向量检索技术,建立了一个高效的资源检索框架,用户可通过多种方式快速找到所需的媒体资料和信息。知识...……更多
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室...……更多
...业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了...……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...张鹏则表示,对于Sora的出现,他并不吃惊,因为立足多模态领域的深耕,智谱也正在做这件事。如今,“清影”面世,让外界看到了智谱在视频生成领域的阶段性成果。而“人人可用”的开放姿态,也让没有视频制作基础的小...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预训练的基础上加上强化学习,提高模型...……更多
击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三
...云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。最新评测结果显示,云从科技的从容大模型在该体系中的平均得分为 65.5,这一成绩使得从容大模型跻身全球前三,超越了谷歌的 Gemini-1.5-Pro...……更多
...藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力,研发团队完成了地...……更多
让机器人拥有人一样潜意识,英伟达1.5M小模型就能实现通用控制了
...现得更好吗? Q2: HOVER 能比其他训练方法更有效地训练多模态仿人机器人控制器吗? Q3: HOVER 能否在真实世界的硬件上实现多功能多模态控制?与专家策略的对比该团队在不同控制模式下比较了 HOVER 和相应专家策略的表现。以 ExB...……更多
美国东北大学提出视频数据增强方法,能让视频模型学到更好的表征
...张一天等人重新审视了色调变换这一操作在视频数据这一模态下的作用,并观察到了完全相反的现象,即这种操作能让视频理解模型的性能和泛化性得到提升。通过进一步地分析其在不同模态数据下(图像/视频)表现差异的原...……更多
大模型“遍地”都是,谁能真正解放生产力?
...,其苦于人工标注久矣,不想再人工打标视频、图片等多模态信息。但市场现实情况是,供不应求:除了大厂以外,少有大模型团队具备多模态大模型开放能力。深耕于产业多年的考拉悠然,听到了太多客户关于大模型难以落地...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
...以适应不同领域和多样化的数据特性,无法在多任务、多模态的环境中有效工作。4. 缺乏端到端的任务执行框架:由于在结构化推理和时间信号的数值计算交叉点上的研究较少,实现端到端的时间序列任务执行仍然面临挑战。现...……更多
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
... S-Lab 的博士生 Bo Li, 字节跳动研究员 Wei Li, Zejun Ma.视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
...融等关键行业,评估并保障这些领域中LLMs的安全性。 多模态扩展:探索多模态数据的越狱评估,结合文本、图像、音频等多种数据类型,全面评估LLMs在多模态环境下的安全表现。 协作防御机制:开发基于多Agent的协作防御机...……更多
若愚科技推出九天机器人大脑,大模型总参数规模达130亿 |项目报道
...商合作,提供先进的机器人大脑产品。若愚科技的基于多模态大模型的通用机器人大脑研究主要聚焦在两个方向:一是负责感知层面的感知模型,二是控制层面的控制模型。感知模型通过语音交互、视觉信息传感器信号提取等方...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...音乐理解和生成结合在一起的想法比较新颖,论文也是多模态大模型领域的先期工作之一。并且,除了大模型本身,我们提出的针对模型训练的数据集制作流程和整理的数据集,对学术界也具有较大价值。”腾讯 ARC Lab 刘山松研...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...在阶跃星辰开放平台通过API接入使用Step-2。语言模型和多模态模型全都要开篇咱们提到,Step模型是一个系列,而Step-2是其语言模型的实力代表。在这个系列中,除了语言模型,阶跃星辰的多模态模型也很有看头。Step-1.5V是阶跃...……更多
...大量通用数据、行业数据,支持文本、图像、视频等多种模态,并打造了全流程的数据处理工具。超过700万亿字节的通用数据集可以开展通用模型训练,同时,4.33万亿字节的行业垂类数据对模型训练也极为重要。当前已知的全...……更多
BAT等互联网大厂,如何入局人形机器人?
...智能公司,其研制的文心产业级知识增强大模型,具备跨模态、跨语言的深度语义理解与生成能力,百度认为,大模型等人工智能工具,核心在于提高效率,因此在上一次机器人发展浪潮中,百度就尝试通过飞桨深度学习平台和...……更多
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
开年“王炸”!智能体再升级,科大讯飞打造办公新范式
...化应用的标准化平台产品。通过集成大模型、虚拟人、多模态语音、知识库等技术,利用人机对话的交互方式,轻松完成展厅和展会的讲解互动,实现用户行为分析,精准定位商机。在团队碰头会场景,星火快答可通过问答快速...……更多
自然语言处理:大模型理论与实践
...预训练数据工程,包括通用、专业、多类别等数据源,多模态数据集,以及数据处理方法和对模型性能的影响。还介绍预训练方法如语言建模和去噪自编码,优化参数设置和可扩展训练技术。- 微调:涵盖指令微调概念、构造指...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大...……更多
更多关于科技的资讯:
中新经纬12月23日电 23日,据微信官方辟谣平台“谣言过滤器”发布消息称,12月22日晚某直播平台遭到黑灰产攻击,部分传言称“违规直播间中隐藏着病毒链接
2025-12-23 13:44:00
“我们每天吃的米面油,安全与品质究竟如何保障?”带着消费者的共同关切,主播以“质量观察员”的身份,走进益海嘉里金龙鱼,实地探访其覆盖全产业链的品控体系,寻找“全链条透明,高质量守
2025-12-23 11:28:00
邢台任泽区:电商直播培训助力农产品“出圈”
河北新闻网讯(苏行、孟学岗)为顺应数字经济发展新趋势,激发乡村产业新活力,12月17日至18日,邢台市任泽区举办电商直播带货现场培训观摩会
2025-12-23 10:44:00
家装测量难搞定?Fanttik激光测距仪帮你解决烦恼
在日常家装、看房验收或DIY创作中,精准与高效的测量至关重要。然而,传统工具常局限于单一功能,面对多种测量需求,用户不得不反复切换设备
2025-12-23 08:56:00
“前往杭州参加阿里巴巴的‘真牛奖’,全情投入,期待美好发生!”张英俊在朋友圈写道。工业化4.0时代,人要怎么跑赢机器?关于这个问题
2025-12-23 06:44:00
刘雨彤摘要:随着数字化进程的加速推进,大数据技术在风险管理中的作用愈发突显。传统风险管理依赖静态数据与人工判断,难以适应当前风险多变
2025-12-23 07:04:00
在日前举行的2025浙江省机器人行业发展大会上,由浙江大学机器人研究院(杭州市余杭区海创人形机器人产业创新中心)牵头,浙江省质量科学研究院
2025-12-23 07:14:00
12月17日至19日,惠购商盟“新零售数字化合规运营”高级人才研修班在国家市场监督管理总局行政学院(深圳南山)成功举办
2025-12-23 06:44:00
家委必藏!毕业照别乱找!忆学堂封神级拍摄,给娃留一辈子的青春纪念
在毕业季影像服务赛道,“专业”与“可靠”是始终不变的核心诉求。忆学堂从一间工作室成长为全国连锁品牌,凭借实打实的硬实力
2025-12-22 14:13:00
喜茶携手泡泡玛特星星人,首次全球同步联名活动正式上线
鲁网12月22日讯12月22日,喜茶与泡泡玛特(POP MART)旗下人气IP星星人的联名活动正式登陆喜茶全球门店,不少喜茶门店开业后就迅速进入制茶繁忙状态
2025-12-22 14:14:00
正雅于法国巴黎迪士尼成功举办早期矫治学术峰会
2025年12月13日,正雅齿科在法国巴黎迪士尼乐园酒店成功举办了"儿童早期矫治学术研讨会"。本次会议吸引了来自法国、瑞士
2025-12-22 14:20:00
2025游戏公益+研究报告在沪发布:公益是游戏体验的“加分项”
有多少游戏企业在游戏产品里做公益?他们做的公益活动被多少玩家接触过?在游戏里做公益是否会影响玩家游戏体验?在12月19日举办的2025中国游戏产业年会游戏公益+论坛上
2025-12-22 14:21:00
青岛城市传媒广场发布2026业态升级战略,携手多元品牌共筑“潮趣换新,自在未来”
12月20日,“潮趣换新,自在未来——青岛城市传媒广场新起点暨2026业态升级发布会”在青岛西海岸隆重举行。活动标志着这座扎根区域八年的文化商业地标正式开启全面焕新阶段
2025-12-22 14:49:00
年底前一项大利好政策来了!刚刚,央行发布《关于实施一次性信用修复政策有关安排的通知》,这意味着个人信用救济的重磅政策落地
2025-12-22 14:57:00
【宅男财经|专家面对面】据看看新闻报道,12月21日,俞敏洪在讲话中谈及董宇辉离职,仍亲切地喊他“孩子”,表示对目前结果感到满意
2025-12-22 15:00:00