• 我的订阅
  • 头条热搜
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
...,使得其可以更灵活高效地进行图像处理。二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三...……更多
高通aihub正式发布:支持75个ai模型
...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型(LMM)。在这一演示中,高通展示了一个超过70亿参数的LMM,其支持文本、语音和图像输入,并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多
2024年投资展望丨AI、MR、短剧等概念爆发,传媒板块去年逆市涨近17%
...的发展,带来结构化的成长趋势。一、AI应用拓展 1、多模态加速应用端落地 目前,多家厂商快速布局卡位多模态大模型,AI文生图、文生视频等多模态能力持续提升带动AI应用持续迭代升级。海内外爆款AI应用频现,如Pika 1.0、R...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...榜首,再度证明通义开源系列业界最强的竞争力。通义多模态模型和专有能力模型也具备业界顶尖影响力。在多个多模态标准测试中,通义千问视觉理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V,这款模型已在多家企业落地;代码...……更多
...者刘峣)近日,北京智源人工智能研究院正式发布原生多模态世界模型Emu3。该模型实现了视频、图像、文本三种模态的统一理解与生成,成功验证了基于下一个token(词元)预测的多模态技术范式,释放其在大规模训练和推理上...……更多
“大装置+大模型”战略:助力商汤迅速获取生成式AI商业化果实
...台作为大算力AI基础设施能力,既打造具备通用能力的多模态大模型,也将深入垂直行业开发专业大模型,从根本上降低模型的应用门槛,同时让生成式AI技术实现普惠。基于新的目标和使命愿景,商汤将其业务板块划分为生成...……更多
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
...。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。Google表示,通过使用多模态实时 API,开发人员可以创建实时、多...……更多
多模态概念持续活跃 苏州科达3连板 【多模态概念持续活跃 苏州科达3连板】财联社12月11日电,多模态概念持续活跃,苏州科达3连板,宣亚国际大涨超10%,引力传媒、力盛体育、因赛集团等跟涨。消息面上,Google Al大模型Gemini...……更多
趣丸科技推出天谱乐大模型,可一键让视频开口唱歌
...inaJoy)在上海新国际博览中心开幕。由趣丸科技打造的多模态配乐大模型“天谱乐”惊喜亮相,成为本届大会最具创新的展品之一。天谱乐大模型不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,多模态输入能力...……更多
搭建交流平台 推动技术创新 “认知世界 智创未来”主题论坛在沪举办
...型等。除大模型外,算法团队正深入研究小样本学习、多模态机器学习、鲁棒学习和知识推理等核心技术,力求在认知智能领域实现重大突破。论坛上,牛津大学DeepMind人工智能教授Michael Bronstein带来了关于“几何深度学习—从...……更多
智能化应用将出现爆发式增长(AI前沿观察)
...的热点目标,企业也需要持续建设自己的人才队伍。■多模态大模型塑造“多边形战士”应用——多模态大模型是当前大模型训练和开发的重要方向,能够提升智能化应用中的信息丰富度和全面性。多模态大模型在行业实践中显...……更多
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...进行统一的处理。在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。设计 RDT:双臂机器人操作的新架构「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通...……更多
自主研制!我国发布“全球首个”
...。 “空天·灵眸”2022年首次推出,是我国:首个面向多模态遥感数据生成式基础模型;首个专为遥感领域打造的专业基础模型。今年3月起,研究团队基于中国算力网“鹏城云脑II”枢纽节点,历时数月攻关完成了在4亿张国产化...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
基于多模态大模型和超大算力,车路云一体化进入3.0阶段
车路云一体化已经从1.0迈入到3.0新阶段,基于多模态大模型和超大算力,实现从数据获取、数据处理到数据分析的自动化、智能化升级,同时根据人类反馈进行强化学习,使数据更精准、质量更高,为解决自动驾驶“长尾问题...……更多
AI顶会自动驾驶挑战赛:无图小米汽车 全球第二
...自动驾驶世界模型占用网络与光流的运动预测具身智能多模态3D视觉定位CARLA自动驾驶挑战LLM在自动驾驶的应用无图自动驾驶CVPR主办方介绍说,LLM与世界模型的出现,给自动驾驶带来巨大潜力,可解释的端到端模型将是未来。 ...……更多
联汇科技荣获2024人工智能隐形冠军企业标杆Top10
... 2024“人工智能+”标杆示范征集活动。联汇科技凭借在多模态大模型与智能体行业的突破性技术创新,以及在细分市场中的卓越表现,荣获2024人工智能隐形冠军企业标杆Top10。联汇科技拥有卓越的技术能力,其核心技术包括向量...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
...出前10详情见下表: 三、机构观点① 游戏新品上线+AI多模态模型赋能,游戏板块或迎来业绩与估值双轮驱动开源证券认为,海外科技巨头基于AI多模态大模型的竞争日趋激烈,或驱动大模型多模态底层能力不断突破,叠加GPTs的...……更多
大模型的未来,快手在自己身上找答案
...有 GPT-4o 不具备的表情和肢体动作,是一个真正意义的多模态输入输出的实时互动智能体。快手展位「AI 关小芳」数字人 | 图片来源:视觉中国而另一片场地上,快手视频生成大模型明星「可灵」发布了一系列重磅升级和 AIGC 短...……更多
苹果的封闭生态为大模型打开!发布开源多模态大模型、每天为 AI 烧百万美元,零碎的 Android 生态打得过吗?
...人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时,该版本包含代码和权重,但仅供研究使用,而非商业许可。但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Andr...……更多
讯飞输入法发布行业首个输入法认知大模型:生成式AI全赋能
...一代输入法认知大模型,涵盖文本生成、多语言语音、多模态生成的生成式AI能力矩阵,做更靠近业务的解决方案。丁克玉特别提到,当前一代的输入法基于编解码模式预测输出,对用户意图理解能力有限。然而下一代的输入法...……更多
【产业互联网周报】字节回应被曝秘密利用OpenAI;英特尔预告Gaudi 3将超越H100;阿里云M7蔡英华离职;马斯克回应Grok抄ChatGPT作业
...,但其中未见蔡英华的动向。(36氪)贾佳亚团队推出多模态大模型LLaMA-VID据介绍,该模型可支持单图、短视频,还可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。(36氪)蚂蚁集团回应职级...……更多
商汤绝影在行业内率先实现了原生多模态大模型的车端部署
...家王晓刚17日宣布,商汤绝影在行业内率先实现了原生多模态大模型的车端部署。车载端侧8B模型首包延迟在300毫秒以内,推理速度40Tokens/秒,覆盖主流算力平台。商汤绝影为多模态大模型打造计算引擎“HyperPPL”,目前扩展并支...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适配了Arm处理器,手机、AR眼镜边缘设备皆可用。Llama 3.1超大杯405B刚过去两个月,全新升级后的Llama 3....……更多
实体“贾维斯” vivo发布PhoneGPT:可自动打电话定餐厅
...能力,并带来vivo自研的语音大模型、图像大模型以及多模态大模型。蓝心图像大模型强化了中国特色与东方美学的融合生成能力,是国内最懂中文语境的图像模型之一,甚至还支持国风水墨,支持在图片生成过程中,增加汉字...……更多
文小言定位百度旗下“新搜索”智能助手
...其他常规的搜索产品而言,文小言推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等"新搜索"能力,可以更加全面地满足用户搜、创、聊的需求。值得一提的是,文小言独家首发了记忆和自由订阅等新功能,这...……更多
千亿级神经元数字孪生脑平台在沪发布,为治疗抑郁症等打开思路
...器人领域发布了全球首个具备动态双目立体视觉和视听多模态控制的机器头脑,满足机器在未知环境下自主移动及人机协作应用需求。千亿级神经元数字孪生脑平台以复杂的人脑为原型,实现了人脑全尺度千亿级神经元功能的精...……更多
理想汽车多模态认知大模型Mind GPT正式上线 【理想汽车多模态认知大模型Mind GPT正式上线】财联社3月28日电,理想汽车今日宣布,全自研多模态认知大模型Mind GPT已正式上线,成为首个通过备案的汽车厂商自研大模型。(财联社...……更多
中国科学家绘制全新猕猴脑网络组图谱 全球开放共享
...系统,能够有效整合多尺度脑图像和多组学信息,从而多模态跨尺度呈现猕猴脑部空间组织架构。作为一套描绘猕猴脑部空间组织架构的全景式脑图谱,全新猕猴脑网络组图谱还将克服现有图谱的诸多缺陷,包括仅针对特定解剖...……更多
更多关于科技的资讯:
全国26家实验室参与!由雷沃支持的这场“田间论剑”举行
日前,2025年农业机械检测实验室间比对活动在山东潍坊举行。该活动由中国农业机械化协会主办、农机鉴定检测分会承办、潍柴雷沃智慧农业协助开展
2025-09-26 07:05:00
人们依托脑力开展思维活动,而人工智能则依赖算力进行“思考”。“十四五”期间,中国在算力建设上的投入力度相当大,发展成效显著
2025-09-26 07:31:00
王灿:以笔为犁 深耕“城事”
王灿。 臧翔宇 摄□胡欣玥芮天舒祁绩外出采访结束后,王灿轻轻推开南京报业传媒集团融媒中心时政新闻部的门。工位上屏幕亮起
2025-09-26 07:41:00
560余家企业携4.8万余个岗位来东大揽才“AI+”岗位热度不减,实战经验是核心指标□南京日报/紫金山新闻记者何洁 实习生黄佳琪杨久久9月25日
2025-09-26 07:41:00
厦门网讯(厦门日报记者 沈彦彦 应洁)明日,厦门岛外首家永辉“胖东来模式”调改店将在杏林万科里正式开业。作为厦门第二家
2025-09-25 08:53:00
9月24日,“青春华章・向西而歌”网络大思政课活动上,西安交通大学微电子学院集成电路工程专业博士研究生魏上杰介绍,集成电路是“国之重器”的“心脏”
2025-09-25 09:44:00
杜建英一持股公司被吊销,名下关联60家企业其中8家已注销或吊销
企查查APP显示,近日,杜建英持股的杭州芸台文化创意有限公司被吊销,原因是公司成立后无正当理由超过6个月未开业,或者开业后自行停业连续6个月以上
2025-09-25 11:20:00
雷军“五十来岁正是闯的年纪”,出生于1969年,和余承东、陈明永同龄
9月25日,雷军发文:这5年,小米一路摸爬滚打、跌宕起伏,依然启动了造车、芯片和高端化……没什么好犹豫的,五十来岁,正是闯的年纪
2025-09-25 11:20:00
贵州国企“智”变攻坚推动数实融合
赤水河畔,国内首台高温复合型仿生压曲机稳定运转,物联网实时优化发酵参数……这场酿酒的“数字革命”,也是贵州习酒公司以全链数智革新推动产业跃迁的生动缩影
2025-09-25 11:57:00
近8成职场人每周都会用AI工具 “人机互信”仍在磨合期
在人工智能技术日臻成熟的2025年,AI已是深度融入职场生态的“数字同事”,在AI辅助下的2025年职场迎来了哪些变化
2025-09-25 13:30:00
9月23日下午,2025北京文化论坛“破界共生:科技激发文化原创力”平行论坛在京举办。本场论坛由中国文联、中国作协指导
2025-09-25 13:38:00
国庆前夕,房山区物美超市“胖改店”、居然之家房山店、瑞莱广场分别于9月26日、27日、28日开业,进一步丰富了房山区消费场景
2025-09-25 13:38:00
OPPO杭州研发总部项目易主,山子高科接手公司95%股权
企查查APP显示,近日,负责OPPO项目的杭州逗酷软件科技有限公司发生工商变更,新增山子高科旗下浙江山子超影科技有限公司为股东
2025-09-25 16:25:00
雷军提前透露年度演讲细节,晒照新T恤“正是闯的年纪”被粉丝要链接
9月25日,雷军年度演讲将在今晚7点举行,这次不光是演讲,还是小米17系列等各种新品的发布会。关于今晚的演讲和发布会,25日下午
2025-09-25 17:34:00
齐鲁晚报·齐鲁壹点 记者 张召旭近日,为紧密配合《山东省食品经营许可审查细则》的落地施行,山东省全新改造升级的食品经营许可系统正式上线运行
2025-09-25 17:34:00