• 我的订阅
  • 头条热搜
机器人成了我的遛弯搭子!室外复杂地形难不住,还能上“健身房”
...。除此外,天工的另一大升级是搭载了大模型,具备了多模态操作能力。现在能开口说话和人类交互,支持中英文。还能听从人类指令抓取物品:【此处无法插入视频,遗憾……可到量子位公众号查看~】而这些只是其中的一部...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试,输入时不提供任何与图像相关的信息给模型,仅提供文本。所有评估均采用零样本(zero-shot)思维链(Chain of ...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(文本、图像、语音、视频等)输入和输出,具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人工智能,实现AI的自我解释、自我评测和自我监督,构建...……更多
华中科技大学白翔教授发布多模态大模型
...华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲图源Monkey项目的GitHub页面IT之家注:多模态大模型是一类可...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...能(GMAI):GMAI 是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展...……更多
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。然而,CLIP 的文本处理能力被广...……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...内容可溯源的能力。目前主要针对图片、音频和视频等多模态内容,采用隐式水印方法建立互认机制。文本内容上的实现仍有一定技术难度,后续将持续有针对性地突破。 此外,计划将通过AI保险机制,为相关人员和单位给予...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...期版本,并接近最新版本的表现。此外,GLM-4还增强了多模态能力,其CogView3模型在多项评测维度上达到了DALL·E3的90%以上水平。智谱AI还发布了GLMs和GLM Store,为用户提供定制化的个人GLM大模型和模型应用商店。GLMs降低了大模型...……更多
支付宝多模态医疗大模型正式亮相
...2024世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。据CNMO了解,支付宝医疗大模型的基座模型为蚂蚁百灵大模型。据蚂蚁集团大模型应用部总经理顾进杰介绍...……更多
新网银行“多模态深度神经网络风控模型体系”入选10项首批代表性创新产品榜单
...暨第一批人工智能应用场景发布大会上,新网银行的“多模态深度神经网络风控模型体系”入选“10项首批代表性创新产品”,彰显了新网银行在推动人工智能与金融深度融合方面的成果和贡献。活动现场。新网银行供图本次论...……更多
阿里发“神笔马良版Sora”,轻轻一抹让猫咪转向,20个演示视频+10页技术报告解读
...7.21705项目地址:https://ali-videoai.github.io/tora_video/一、三种模态组合输入,精准控制运动轨迹Tora支持轨迹、文本、图像三种模态,或它们的组合输入,可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。轨迹输入可以...……更多
推动终端侧AI发展 MWC2024高通带来多项全球首发
...示了全球首个在搭载第三代骁龙8的Android手机上运行的多模态大模型(LMM)。多模态指AI模型不仅能够接受文本输入,还可以接受图像、音频等其它输入数据类型。在这一演示中展示了一个超过70亿参数的LMM,其支持文本、语音和...……更多
科学家提出大模型分子交互学习框架,已在400多万分子对中验证
...学技术大学博士生方俊峰和所在团队开发的首个统一的多模态大语言模型分子交互学习框架——MolTC(Molecular inTeraction Modeling enhanced byChain-of-thought theory),为解决上述问题带来了新的曙光。目前,在多个数据集的 400000……更多
...精细化标注水平,积极开发涵盖文本、图像、音视频等多模态的高质量数据集。要加快自主算力资源和供给能力建设。大力推动算力基础设施和算力网络建设,不断提升智能算力综合供给水平;稳步推进公共算力服务平台建设,...……更多
如今的智能体,已经像人一样「浏览」视频了,国内就有
...研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。项目地址:https://github.com/om-ai-lab/OmAgentOmAgent 是什么OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能.……更多
苹果公司公布“mm1”多模态大模型
...omMultimodalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型...……更多
OpenAI打了个“响指”,AI Agent厂商重建护城河|36氪新风向
...“幻觉”问题、长时记忆的前后一致性问题,以及增强多模态的理解能力。不少从业者都对36氪表示,OpenAI开发者大会后,其他竞争者还有一段点对点突破技术难题的“缓冲期”,用技术解决方案去获客。比如,波形智能选择突...……更多
多款技术产品问世!山东省新型智慧媒体重点实验室亮点纷呈
...”“基于主流价值观的党媒算法研究”“基于AI技术的多模态内容风控研究”“基于区块链技术的版权确权研究”五个方向,深入开展底层技术攻关研究,力求探索出一条能够使主流媒体与用户重新建立“深度连接”,重塑核心...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与...……更多
跨模态大模型“白泽”学会藏语
...新藏语内容理解与应用技术,人民网人民中科“白泽”跨模态大模型与青海师范大学的“班智达”藏语识别与翻译引擎深度融合后,显著提升了“白泽”对藏语内容的理解和处理能力,为网络空间藏语内容处理提供了全新的技术...……更多
打开大模型的无限可能,云栖通道看AI产业应用
...:元神AI,同时展示了基于英伟达OrinX平台、通义端侧多模态大模型的智舱AI技术能力。元神AI旨在推动解决触控交互/命令式语音交互和APP服务带来的座舱体验不佳、服务使用低频问题,通过交互变革和服务重塑,加速智能座舱“...……更多
中国电信星辰AI大模型开源自研AI创新成果助推数字中国建设“正当时”
...国内领先星辰系列大模型,构建了语义、语音、视觉及多模态大模型完备的基础框架。其中语义大模型于11月份发布千亿参数版本,在大模型知名榜单CSL排名第五、GAOKAO排名第七、AGIEval排名第八。视觉大模型赋能100+城市治理下...……更多
突发!谷歌发布史上最强大模型Gemini,打爆GPT-4
...萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。具体来说,此次谷歌一共带来了Gemini的三个版本:Gemini Ultra:谷歌最大、最强模型,适用于...……更多
vivo发布自研蓝心大模型及蓝河操作系统、OriginOS 4
...质,具体表现为数据规模和模型参数大,模型矩阵丰富且模态支持全面,算法创新有效,安全性高,训练数据持续更新,以及开源开放等。 为此,vivo进行了系统性的思考和布局,在人才、数据、算法、算力、安全等方面坚持战...……更多
...AGI:张亚勤院士点名了AI大模型的五个发展方向,包括多模态智能、自主智能、边缘智能、具身智能、生物智能。他认为,无人驾驶是未来五年最大具身智能应用,并且是第一个通过“新图灵测试”的具身智能。2025年,实现无人...……更多
中国版GPT-4o 来了,抢先OpenAI落地,8月底全民开放
...框架创新基础上,星火极速超拟人交互目前主要开放语音模态,未来会持续在交互上创新突破,不仅会带来更多更实用、丰富的功能,也会拓展到更多模态。在2023年科大讯飞全球1024开发者节上,华为科技有限公司副董事长、轮...……更多
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...,公司的AI战略是以自主构建算力能力为底座,以开悟多模态大模型为支撑,通过中台体系的构建,实现了行业训练数据的有序治理、行业大模型的高效训练以及智能应用的敏捷开发。这一战略不仅催生了AIGC多模态内容生产平台...……更多
豆包“王炸”:字节跳动一天发布两款视频生成大模型
...同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。在产品能力日益完善的同时,豆包大模型的使用量也在极速增长。据火山引擎披露,截至9月,豆包语言模型的日均token...……更多
智谱AI新大模型来袭:部署价格大降50%,免费商用,做应用能力逼近GPT3.5 | 最前线
...,ChatGLM3主要在4四个方面进行了性能提升:接入了具有多模态理解能力的模型CogVLM,提升看图识语义能力。接入了代码增强模块 Code Interpreter,能根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务。接入了...……更多
更多关于科技的资讯:
中新经纬12月23日电 23日,据微信官方辟谣平台“谣言过滤器”发布消息称,12月22日晚某直播平台遭到黑灰产攻击,部分传言称“违规直播间中隐藏着病毒链接
2025-12-23 13:44:00
“我们每天吃的米面油,安全与品质究竟如何保障?”带着消费者的共同关切,主播以“质量观察员”的身份,走进益海嘉里金龙鱼,实地探访其覆盖全产业链的品控体系,寻找“全链条透明,高质量守
2025-12-23 11:28:00
邢台任泽区:电商直播培训助力农产品“出圈”
河北新闻网讯(苏行、孟学岗)为顺应数字经济发展新趋势,激发乡村产业新活力,12月17日至18日,邢台市任泽区举办电商直播带货现场培训观摩会
2025-12-23 10:44:00
家装测量难搞定?Fanttik激光测距仪帮你解决烦恼
在日常家装、看房验收或DIY创作中,精准与高效的测量至关重要。然而,传统工具常局限于单一功能,面对多种测量需求,用户不得不反复切换设备
2025-12-23 08:56:00
“前往杭州参加阿里巴巴的‘真牛奖’,全情投入,期待美好发生!”张英俊在朋友圈写道。工业化4.0时代,人要怎么跑赢机器?关于这个问题
2025-12-23 06:44:00
刘雨彤摘要:随着数字化进程的加速推进,大数据技术在风险管理中的作用愈发突显。传统风险管理依赖静态数据与人工判断,难以适应当前风险多变
2025-12-23 07:04:00
在日前举行的2025浙江省机器人行业发展大会上,由浙江大学机器人研究院(杭州市余杭区海创人形机器人产业创新中心)牵头,浙江省质量科学研究院
2025-12-23 07:14:00
12月17日至19日,惠购商盟“新零售数字化合规运营”高级人才研修班在国家市场监督管理总局行政学院(深圳南山)成功举办
2025-12-23 06:44:00
家委必藏!毕业照别乱找!忆学堂封神级拍摄,给娃留一辈子的青春纪念
在毕业季影像服务赛道,“专业”与“可靠”是始终不变的核心诉求。忆学堂从一间工作室成长为全国连锁品牌,凭借实打实的硬实力
2025-12-22 14:13:00
喜茶携手泡泡玛特星星人,首次全球同步联名活动正式上线
鲁网12月22日讯12月22日,喜茶与泡泡玛特(POP MART)旗下人气IP星星人的联名活动正式登陆喜茶全球门店,不少喜茶门店开业后就迅速进入制茶繁忙状态
2025-12-22 14:14:00
正雅于法国巴黎迪士尼成功举办早期矫治学术峰会
2025年12月13日,正雅齿科在法国巴黎迪士尼乐园酒店成功举办了"儿童早期矫治学术研讨会"。本次会议吸引了来自法国、瑞士
2025-12-22 14:20:00
2025游戏公益+研究报告在沪发布:公益是游戏体验的“加分项”
有多少游戏企业在游戏产品里做公益?他们做的公益活动被多少玩家接触过?在游戏里做公益是否会影响玩家游戏体验?在12月19日举办的2025中国游戏产业年会游戏公益+论坛上
2025-12-22 14:21:00
青岛城市传媒广场发布2026业态升级战略,携手多元品牌共筑“潮趣换新,自在未来”
12月20日,“潮趣换新,自在未来——青岛城市传媒广场新起点暨2026业态升级发布会”在青岛西海岸隆重举行。活动标志着这座扎根区域八年的文化商业地标正式开启全面焕新阶段
2025-12-22 14:49:00
年底前一项大利好政策来了!刚刚,央行发布《关于实施一次性信用修复政策有关安排的通知》,这意味着个人信用救济的重磅政策落地
2025-12-22 14:57:00
【宅男财经|专家面对面】据看看新闻报道,12月21日,俞敏洪在讲话中谈及董宇辉离职,仍亲切地喊他“孩子”,表示对目前结果感到满意
2025-12-22 15:00:00