• 我的订阅
  • 头条热搜
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计...……更多
给机器人装上大模型大脑,「若愚科技」获超5000万天使轮融资|36氪首发
文|武静静编辑|邓咏仪36氪获悉,多模态大模型公司「若愚科技」完成超5000万天使轮融资,本轮融资由东方精工领投,昆仲跟投,源合资本担任独家融资顾问。公司称,资金将主要用于产品研发,业务拓展以及团队搭建等方...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
...刚刚显现,未来还存在巨大的探索空间。第二个是关于多模态理解和生成的统一。在当前「scaling law 撞墙」的相关讨论中,多模态其实是一个被寄予厚望的方向。但是,这个领域目前面临一个严峻的挑战,即多模态的理解和生成...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
...山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。 最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持...……更多
OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向
...的主要方向,表示 OPPO 会在 AI 方面带来更多的惊喜。多模态和个性化是将要深耕的方向,同时端云协同将是重点架构。“我们相信,在这些领域持续投入后,一定能为用户带来更加与众不同的体验。”张峻进一步说明,未来会...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
...原生HTAP数据库,支持包括向量数据、时序数据在内的多模态数据管理和检索能。MatrixOne不仅实现了向量类型、向量搜索和向量索引功能,还通过其MatrixGenesis产品提供大模型托管和多模态检索服务,为企业搭建一站式生成式AI应...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...进行统一的处理。在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。设计 RDT:双臂机器人操作的新架构「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通...……更多
世优波塔AI数字人多模态交互系统,赋能智慧医疗服务升级
近日,世优科技“波塔发布会”在京举行,AI数字人多模态交互系统——波塔重磅发布。世优波塔是以世优科技多年积累的全栈数字人技术为基础,致力于打造人工智能时代有温度的多模态人机交互界面。 医疗水平提升、市场...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室领军科学家林达华...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...幕的力度、圈搜文字或图片、还是拖拽一段地址信息,多模态大模型都可以深度解读你的意图,进而给你需要的反馈和服务。依托文本大模型,结合自监督学习语音编解码、多语音任务学习和模态对齐等技术,蓝心小V在文本能...……更多
苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像
...Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE可以理解用户下达的自然语言命令,进行Photoshop风格的修改、全局照片优化和局部编辑等操作。苹果公司和加...……更多
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
...的视频教程!具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals,已入选NeurIPS。数据集涵盖了6大类IKEA家具,每种家具都包含完整的3D模型、组装说明书和实际组装视频。而且划分精细,拆解出的安装子步骤多...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...变小,成为具身智能的「大脑」。解法:垂域大模型、多模态技术与 AI 智能体论坛中,关于可信大模型如何在应用具体落地,呈现出了多种解法,大家不约而同地开展了对垂域大模型、多模态技术与 AI 智能体的探索。在专业领...……更多
小红书技术副总裁王晓博:大模型让AI越来越像人,更懂小红书的内容与用户
...力的建设。目前,小红书技术团队同时针对语言模型和多模态能力进行了综合研发,结合小红书自身的业务场景和需求,更早做了视觉理解大模型方向的技术攻关:在多模模型架构、多模态alignment和整个数据体系和视觉感知能力...……更多
vivo自研蓝河操作系统发布:支持大模型、多模态交互
...号称一款面向未来的自研智慧操作系统,支持大模型、多模态交互,还号称是全球首款用Rust语言来编写系统框架的操作系统。近年来,Rust重构的热潮席卷整个开发圈,Rust在安全性、高效性和可维护性等方面都有一定优势,包括...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗...……更多
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...算法至关重要,以便进行准确的预测和分类。此外,在多模态大模型构建过程中,大规模也经常需要具有语义对齐的多模态数据,对模型的构建也是非常重要的。这些数据能够使大模型学习到不同模态(如图片和文字)之间的映...……更多
科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线
...在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。升级之后,讯飞星火的文本生成能力和数理运算能力都有提升,可以轻松回答初三的数学物理题。现场演示中,对“前进20米、右转60 、反复...……更多
国内首个极速超拟人交互向全民开放 可在星火大模型中体验
...模型算法持续演进,国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。而讯飞星火极速超拟人交互将此前级联方案升级为统一神经网络,实现语音到语音的“端到端”建模,大幅...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
软通智慧数智成果发布暨战略合作签约仪式举行
...算力灵畅服务体系、卧龙策渊人工智能平台,以及基于多模态感知的多元共治产品体系。活动现场。软通智慧供图正式发布“AI算力灵畅服务体系”,助力算力从“可用”走向“好用”,为人工智能产业区域发展带来全新解决方...……更多
更多关于科技的资讯:
中新经纬12月23日电 23日,据微信官方辟谣平台“谣言过滤器”发布消息称,12月22日晚某直播平台遭到黑灰产攻击,部分传言称“违规直播间中隐藏着病毒链接
2025-12-23 13:44:00
“我们每天吃的米面油,安全与品质究竟如何保障?”带着消费者的共同关切,主播以“质量观察员”的身份,走进益海嘉里金龙鱼,实地探访其覆盖全产业链的品控体系,寻找“全链条透明,高质量守
2025-12-23 11:28:00
邢台任泽区:电商直播培训助力农产品“出圈”
河北新闻网讯(苏行、孟学岗)为顺应数字经济发展新趋势,激发乡村产业新活力,12月17日至18日,邢台市任泽区举办电商直播带货现场培训观摩会
2025-12-23 10:44:00
家装测量难搞定?Fanttik激光测距仪帮你解决烦恼
在日常家装、看房验收或DIY创作中,精准与高效的测量至关重要。然而,传统工具常局限于单一功能,面对多种测量需求,用户不得不反复切换设备
2025-12-23 08:56:00
“前往杭州参加阿里巴巴的‘真牛奖’,全情投入,期待美好发生!”张英俊在朋友圈写道。工业化4.0时代,人要怎么跑赢机器?关于这个问题
2025-12-23 06:44:00
刘雨彤摘要:随着数字化进程的加速推进,大数据技术在风险管理中的作用愈发突显。传统风险管理依赖静态数据与人工判断,难以适应当前风险多变
2025-12-23 07:04:00
在日前举行的2025浙江省机器人行业发展大会上,由浙江大学机器人研究院(杭州市余杭区海创人形机器人产业创新中心)牵头,浙江省质量科学研究院
2025-12-23 07:14:00
12月17日至19日,惠购商盟“新零售数字化合规运营”高级人才研修班在国家市场监督管理总局行政学院(深圳南山)成功举办
2025-12-23 06:44:00
家委必藏!毕业照别乱找!忆学堂封神级拍摄,给娃留一辈子的青春纪念
在毕业季影像服务赛道,“专业”与“可靠”是始终不变的核心诉求。忆学堂从一间工作室成长为全国连锁品牌,凭借实打实的硬实力
2025-12-22 14:13:00
喜茶携手泡泡玛特星星人,首次全球同步联名活动正式上线
鲁网12月22日讯12月22日,喜茶与泡泡玛特(POP MART)旗下人气IP星星人的联名活动正式登陆喜茶全球门店,不少喜茶门店开业后就迅速进入制茶繁忙状态
2025-12-22 14:14:00
正雅于法国巴黎迪士尼成功举办早期矫治学术峰会
2025年12月13日,正雅齿科在法国巴黎迪士尼乐园酒店成功举办了"儿童早期矫治学术研讨会"。本次会议吸引了来自法国、瑞士
2025-12-22 14:20:00
2025游戏公益+研究报告在沪发布:公益是游戏体验的“加分项”
有多少游戏企业在游戏产品里做公益?他们做的公益活动被多少玩家接触过?在游戏里做公益是否会影响玩家游戏体验?在12月19日举办的2025中国游戏产业年会游戏公益+论坛上
2025-12-22 14:21:00
青岛城市传媒广场发布2026业态升级战略,携手多元品牌共筑“潮趣换新,自在未来”
12月20日,“潮趣换新,自在未来——青岛城市传媒广场新起点暨2026业态升级发布会”在青岛西海岸隆重举行。活动标志着这座扎根区域八年的文化商业地标正式开启全面焕新阶段
2025-12-22 14:49:00
年底前一项大利好政策来了!刚刚,央行发布《关于实施一次性信用修复政策有关安排的通知》,这意味着个人信用救济的重磅政策落地
2025-12-22 14:57:00
【宅男财经|专家面对面】据看看新闻报道,12月21日,俞敏洪在讲话中谈及董宇辉离职,仍亲切地喊他“孩子”,表示对目前结果感到满意
2025-12-22 15:00:00