• 我的订阅
  • 头条热搜
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
...的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外,OmniGen 可以处理经典的计...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...与微软争相拼臂力秀肌肉。Gemini 1.5 Pro的横空出世,将多模态大模型的标准提到了一个新高度。一、极致性能背后的模型架构当地时间2月15日,Alphabet与Google公司首席执行官Sundar Pichai携首席科学家Jeff Dean等众高管在X平台发布了多...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...zhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
IT之家 8 月 26 日消息,云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微...……更多
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
...山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。 最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持...……更多
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数...……更多
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在。AI虽然能够在单一模态下表现出色...……更多
OPPO AI 中心产品总监张峻:多模态和个性化是将要深耕的方向
...的主要方向,表示 OPPO 会在 AI 方面带来更多的惊喜。多模态和个性化是将要深耕的方向,同时端云协同将是重点架构。“我们相信,在这些领域持续投入后,一定能为用户带来更加与众不同的体验。”张峻进一步说明,未来会...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...大招了!一连发布两大更新——Pixtral Large:前沿级124B多模态模型,用于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是...……更多
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...进行统一的处理。在本文中,研究者通过提出创新型的多模态模型架构,以及统一的物理可解释动作空间,来解决这些挑战。设计 RDT:双臂机器人操作的新架构「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通...……更多
世优波塔AI数字人多模态交互系统,赋能智慧医疗服务升级
近日,世优科技“波塔发布会”在京举行,AI数字人多模态交互系统——波塔重磅发布。世优波塔是以世优科技多年积累的全栈数字人技术为基础,致力于打造人工智能时代有温度的多模态人机交互界面。 医疗水平提升、市场...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...像与语音识别能力。本月初,微软更是公布了 166 页的多模态版 GPT-4V 的相关文档,详细探讨了 GPT-4V 的功能和使用情况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research...……更多
林达华谈大模型发展之路:未来会有更高效的模型结构出现
...一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室领军科学家林达华...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...幕的力度、圈搜文字或图片、还是拖拽一段地址信息,多模态大模型都可以深度解读你的意图,进而给你需要的反馈和服务。依托文本大模型,结合自监督学习语音编解码、多语音任务学习和模态对齐等技术,蓝心小V在文本能...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的百图生科。与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列...……更多
2024WAIC热议大模型助力产业新趋势,可信应用成焦点
...变小,成为具身智能的「大脑」。解法:垂域大模型、多模态技术与 AI 智能体论坛中,关于可信大模型如何在应用具体落地,呈现出了多种解法,大家不约而同地开展了对垂域大模型、多模态技术与 AI 智能体的探索。在专业领...……更多
苹果发布新型开源人工智能模型:可根据自然语言指令编辑图像
...Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE可以理解用户下达的自然语言命令,进行Photoshop风格的修改、全局照片优化和局部编辑等操作。苹果公司和加...……更多
小红书技术副总裁王晓博:大模型让AI越来越像人,更懂小红书的内容与用户
...力的建设。目前,小红书技术团队同时针对语言模型和多模态能力进行了综合研发,结合小红书自身的业务场景和需求,更早做了视觉理解大模型方向的技术攻关:在多模模型架构、多模态alignment和整个数据体系和视觉感知能力...……更多
vivo自研蓝河操作系统发布:支持大模型、多模态交互
...号称一款面向未来的自研智慧操作系统,支持大模型、多模态交互,还号称是全球首款用Rust语言来编写系统框架的操作系统。近年来,Rust重构的热潮席卷整个开发圈,Rust在安全性、高效性和可维护性等方面都有一定优势,包括...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗...……更多
科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线
...在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。升级之后,讯飞星火的文本生成能力和数理运算能力都有提升,可以轻松回答初三的数学物理题。现场演示中,对“前进20米、右转60 、反复...……更多
“弱智吧”成最佳中文AI语料库,究竟什么算优质数据?
...算法至关重要,以便进行准确的预测和分类。此外,在多模态大模型构建过程中,大规模也经常需要具有语义对齐的多模态数据,对模型的构建也是非常重要的。这些数据能够使大模型学习到不同模态(如图片和文字)之间的映...……更多
国内首个极速超拟人交互向全民开放 可在星火大模型中体验
...模型算法持续演进,国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。而讯飞星火极速超拟人交互将此前级联方案升级为统一神经网络,实现语音到语音的“端到端”建模,大幅...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。作为欧洲的OpenAI,Mistral最近压力不小。端侧小模型端不出来,对比评测的结果又遭到质疑。上个月震撼登场...……更多
软通智慧数智成果发布暨战略合作签约仪式举行
...算力灵畅服务体系、卧龙策渊人工智能平台,以及基于多模态感知的多元共治产品体系。活动现场。软通智慧供图正式发布“AI算力灵畅服务体系”,助力算力从“可用”走向“好用”,为人工智能产业区域发展带来全新解决方...……更多
小米“小爱同学”与阿里云通义大模型展开合作
...模型展开合作,强化其在图片生成、图片理解等方面的多模态AI生成能力,并在小米汽车、手机等多类设备落地。以最新推出的小米汽车SU7为例,车上的“小爱同学”可遵从乘客的自然语言指令,在车载中控屏画出“小猫爬上窗...……更多
李彦宏:大模型场景下开源是最贵的,多模态是通往AGI的必经之路
...和案例大部分都是基于大语言模型。面向未来,他认为多模态大模型,抑或是文字、图片、语音、视频等多模态的融合,是基础模型非常重要的长期发展方向,是通往AGI(通用人工智能)的必经之路。而百度在这些领域有着长期...……更多
智谱AI的双轨驱动:从基座大模型出发,以共创理念推进商业落地
...热词。打造新的经济增长点需要发展新质生产力,而以多模态大语言模型为代表的人工智能技术将成为形成新质生产力的重要引擎。作为国内头部基座大模型公司,智谱AI在过去一年中备受关注。去年6月,在科技媒体The Information...……更多
Pika、阿里同日炫技!国产视频大模型奋起直追
...频,表情、五官、姿势都会产生非常自然的变化。在AI多模态领域,科技巨头、明星初创企业似乎把火力集中到了同一个方向——AI视频生成,Sora的火热更是一石激起千层浪,同类产品发布你追我赶,战况之焦灼可见一斑。在该...……更多
更多关于科技的资讯:
央视曝光量子产品真相:鞋垫打上量子两个字卖68元
3月2日消息,据央视报道,不法商家打着“量子产品”的幌子进行虚假宣传,扰乱市场秩序。在网购平台上,随处可见“量子+日用品”的商品
2025-03-02 00:38:00
中国人的基建智慧有多厉害:九寨沟震后修复用了糯米汁
3月2日消息,据媒体报道,中国科研团队从故宫、长城等古建筑中汲取智慧,创新改良配方,用糯米汁制备“糯米灰浆”,修筑了九寨沟火花海坝体
2025-03-02 00:38:00
中国创新引领全球科技发展(国际论坛)
本文转自:人民日报埃尔韦·阿祖莱随着科研投入的持续增长、市场需求的不断扩大以及国际合作的深化,中国有望进一步巩固在前沿科技领域的领先地位
2025-03-02 05:28:00
空气自净化!美的全球首款DeepSeek空调发布:国补后到手11999元
快科技3月2日消息,日前,美的全球首款DeepSeek智能空调——美的鲜净感空气机T6发布,定价13999元,国家补贴后到手11999元
2025-03-02 07:08:00
美学设计、策划人刘晨:解码“她经济”时代消费新主张
女性力量崛起,她经济正以其独特的力量和魅力塑造着现代社会的消费格局。我们采访了上海玺道商务咨询品牌创始人、畅销书《个人IP生态模式》作者刘晨
2025-03-01 15:53:00
从票据龙头到数贸先锋,深度数科助力中国大集平台服务商城数字化转型
深度数科集团,这家于2016年创立于山东临沂的一家企业,基于全国小额票据集散地的市场优势和临沂商贸物流市场需求,搭建平台
2025-03-01 16:12:00
外贸公社控股公司董事长郁万玲一行莅临深度数科集团考察座谈
2025年2月26日,香港外贸公社控股有限公司董事长兼CEO郁万玲、副总裁陈娟一行莅临深度数科集团考察座谈,考察组一行参观了数字化展厅
2025-03-01 16:13:00
河北新闻网讯(刘晓丹、张耕朴)2月28日,雄安医疗大健康技术应用大赛场景打造对接会在杭州举办。上海北辰软件股份有限公司运营总监段庆鸿介绍了公司的参赛项目
2025-03-01 16:34:00
向XIN而行!2025中广热泵发展大会顺利召开
龙腾「热」浪开新篇,「泵」动时代节节高。2025年3月1日(农历二月二龙抬头)上午9时,2025中广热泵发展大会在中广电器集团总部浙江丽水盛大召开
2025-03-01 16:45:00
雷军明晚开启直播:聊聊新豪车小米SU7 Ultra
快科技3月1日消息,今天,小米创办人雷军预告,明晚八点,我们直播聊聊刚发布的新豪车小米SU7 Ultra。这是小米2月27日推出的重磅产品
2025-03-01 19:08:00
2025年已有12位名人离世:全网惋惜
3月1日消息,据媒体报道,歌手方大同独立音乐厂牌赋音乐FUMUSIC 发布消息称,在积极面对顽疾5年后,方大同于2025年2月21日早晨去世
2025-03-01 20:08:00
银行错给客户存81万亿美元:可收购整个美国股市
快科技3月1日消息,人到底能捅出多大的篓子?据财联社近日报道,去年花旗集团曾误将81万亿美元存入了一位客户的账户,而该账户原本应汇入280美元
2025-03-01 20:08:00
后驱豪车不贵!新款凯迪拉克CT5上市:一口价21.59万起
快科技3月1日消息,新款凯迪拉克CT5正式上市,新车共推出3款车型,官方指导价29.99-34.59万元,限时一口价21
2025-03-01 20:38:00
深度数科集团董事长全传晓:以数字科技赋能临沂商城国际化,助力打造“中国大集”全球贸易新征程
临沂商城国际化推进大会于2025年2月26日至28日召开,深度数科集团董事长全传晓出席。此次大会有效汇聚了各方智慧与力量
2025-03-01 20:56:00
别错过!“龙抬头”天象今晚上演
快科技3月1日消息,今天是农历二月初二,民间有“二月二,龙抬头”的说法。天文专家介绍,今年农历二月初二,大家看到“龙抬头”的时间在晚上9点左右
2025-03-01 21:38:00