• 我的订阅
  • 头条热搜
最强开源文生图模型一夜易主!SD原班人马打造,要发SOTA视频生成模型
...研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人民币2.25亿元)的种子轮融资。黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的Demo来看,无...……更多
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
...,与之前extreme parkour, 使用 transformer 大大减少了处理多模态输入时控制模型架构的复杂度,如下图 8 所示。以往四足跑酷的相关工作使用复合架构,首先使用 ConvNet 将深度图处理成紧凑的潜在向量,然后使用循环骨干网络。 ...……更多
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
...力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。今年以来,具身智能正在成为学术界和产业界的热门领域,相关的产品和成果层出不穷。...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首...……更多
现场直击一文总结!OpenAI开发者大会,史上最强GPT-4 Turbo发布,AI圈地震
...今天起,所有开发者都可以使用 Assistants API 测试版 05多模态交互新版本增加了新的多模态功能,包括视觉、图像创建 (DALL·E 3) 和文本转语音 (TTS)。Turbo版GPT-4 可以接受图像作为Chat Completions API中的输入,从而实现生成标题、...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...阿里云也首次开源了音频理解大模型Qwen-Audio,这是在多模态领域的一次探索。Qwen-Audio能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频,要求模型给出对音频的理解,甚至基于音频进行文...……更多
vivo自研大模型全家桶炸场,亮出PhoneGPT智能体,蓝心小V一键搞定衣食住行
...幕的力度、圈搜文字或图片、还是拖拽一段地址信息,多模态大模型都可以深度解读你的意图,进而给你需要的反馈和服务。依托文本大模型,结合自监督学习语音编解码、多语音任务学习和模态对齐等技术,蓝心小V在文本能...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...优秀开源开发者提供1000亿免费API tokens。GLM-4文生图和多模态理解得到增强。1月16日,在智谱AI(即北京智谱华章科技有限公司)首届技术开放日上,智谱AI发布新一代基座大模型GLM-4,支持128K的上下文窗口长度,单次提示词能处...……更多
创新奇智大模型工业落地初显成效,探索工业智能机器人新方向
...达到 750 亿参数,性能获得了大幅升级。AInno-75B 增加了多模态处理能力,支持输入文本、图像、视频以及工业场景中的行为(Action)模态,如 CAD 等。通过引入高参数量大模型 AInno-75B, 创新奇智的主推产品 ChatDoc、ChatBI 获得了...……更多
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1.5V。除文本功能外,Grok现在可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,...……更多
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
...rcoPolo由此诞生。 并且,实现了更低成本更优效果。在多模态方面,多模态大模型MarcoPolo-VL能够用「眼睛」精准识别,进行推荐。还有团队最新发布的多模态大模型Ovi,直接拿下开源第一。在ICCV 2023顶会上,一向低调的阿里国际...……更多
软通智慧数智成果发布暨战略合作签约仪式举行
...算力灵畅服务体系、卧龙策渊人工智能平台,以及基于多模态感知的多元共治产品体系。活动现场。软通智慧供图正式发布“AI算力灵畅服务体系”,助力算力从“可用”走向“好用”,为人工智能产业区域发展带来全新解决方...……更多
入选高工人形机器人优质企业链,银牛微电子3D空间计算解决方案获高度认可
...现具身智能。该方案不仅融合了语音、文本和图像等基础模态,还加入了3D点云模态,通过强化的多模态关联技术,显著提升人形机器人的智能水平和逻辑自洽性。与此同时,银牛还拥有丰富的三维空间多模态大模型数据库,可...……更多
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
...山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。 最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持...……更多
...参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。...……更多
千行百业加速拥抱大模型(AI前沿观察)
...语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。本次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。在11月举行的2023人工智能计算大会上,智源研究院联合阿里云、...……更多
AWS搭载“最强大模型”!40亿美元投向OpenAI竞对
...Anthropic合作的最新进展,并现场演示了Claude 3大模型的多模态、长文本、语境理解等能力。AWS近日宣布向Anthropic追加投资27.5亿美元,截至目前已经向这家OpenAI强力竞对累计注资40亿美元。此外,双方的合作关系也再次加深,Amazon ...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...qizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现...……更多
生成式人工智能新时代
...?张亚林介绍,文本、音频、图像、视频、游戏生成,跨模态、多模态的生成,虚拟人的生成等,都可以通过各种素材的生成进行互换,这对我们周围的传统媒体带来巨大冲击。怎样支撑生成式AI大模型的发展?张亚林说,我们...……更多
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
...,其架构如下图所示:CogSound的核心技术依托于GLM-4V的多模态理解能力,能够精确解析视频中的语义和情感,并生成匹配的音效。例如,在展示森林景观的视频中,CogSound能够生成鸟鸣和风吹树叶的声音;而在城市街景中,则会...……更多
Gemini 超越 GPT-4 靠作弊?谷歌承认:是的,演示视频经过了剪辑
...竟发生了 180° 转变。昨天,谷歌在 X 上展示 Gemini 原生多模态能力的 6 分半钟视频下,几乎是清一色的赞扬:而到了今天,Gemini 还是那个 Gemini,但网友已经不买账了:发生了什么,才会让人们的态度一夜转变?原因在于那个 6 ...……更多
高通aihub正式发布:支持75个ai模型
...示了全球首个在搭载第三代骁龙8的安卓手机上运行的多模态大模型(LMM)。在这一演示中,高通展示了一个超过70亿参数的LMM,其支持文本、语音和图像输入,并能够基于输入的内容进行多轮对话。同时高通还在搭载全新骁龙XEl...……更多
数据驱动未来:AI大模型在多场景应用中的挑战与机遇
...。随着人工智能的应用场景越来越多元化,需要处理多种模态的数据,例如文本、图像、语音等。未来,大模型将更加注重多模态的融合,以处理更加复杂的应用场景。返回搜狐,查看更多责任编辑: ……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...、上传图像生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie ...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
生成式AI在金融行业的应用及思考
...金融行业也有广泛应用。值得一提的是,张呈刚强调了多模态场景在金融行业的应用趋势。传统的人机交互方式是文本,但现在人们越来越倾向于使用图像、语音等多模态方式与生成式人工智能进行交互,这给金融行业带来了新的机...……更多
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...合成高分辨率、高质量,且具有强文本-图像对其能力的模型。而且,它还能高效生成高达4096×4096像素的图像。项目主页:https://nvlabs.github.io/Sana/论文地址:https://arxiv.org/abs/2410.10629Sana的核心设计包含了以下几个要素:深……更多
OpenAI又放大招,一文看懂Sora对AI领域的影响
...现”。相比GPT模型,Sora的成功之处在于为图像视频等多模态数据找到了适合Transformer架构的表征方式,从而将ScalingLaw从语言模型复制到了图像视频模型。此外,Sora在训练时还借助了DALL·E3生成的高质量文本描述,在推理时借助...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...像与人类互动。由此,谷歌追随者高呼:“Gemini让原生多模态(即文本、声音、视频等模态)真正做到丝滑融合,发展原生多模态将成为未来主流路径!”视频发布不到一天,这位超级巨头却遭“打假”。彭博专栏作家帕米·奥...……更多
更多关于科技的资讯:
高通:骁龙PC退货率并不高!符合行业标准
快科技12月15日消息,日前,Intel声称高通的骁龙PC退货率偏高,因为消费者对软件兼容性不佳并不满意,对此高通予以明确驳斥
2024-12-15 18:48:00
重大消息:AIX Wallet正式接入ChatGPT接口
亲爱的AIXWallet用户们,我们非常激动地宣布,AIXWallet现已成功接入ChatGPT接口,为您带来前所未有的智能服务体验
2024-12-15 19:13:00
破铺轨施工最快纪录!渝厦高铁重庆东至黔江段全线轨道贯通
快科技12月15日消息,据报道,在重庆市武隆区白马山隧道出口施工现场,随着建设者将最后一对500米长钢轨顺利铺设到接轨点
2024-12-15 19:18:00
又有新折叠!传音2款折叠在印度开售,最低人民币约3003元起
近期,传音在日本发布了2款新折叠手机,——PhantomVFold2和PhantomVFlip2,在亚马逊官网上最低售价仅为3003元人民币起
2024-12-15 19:28:00
魅族20系列手机迎来Flyme 11.2.0.0A稳定版更新
魅族20系列手机12月12日推送Flyme11.2.0.0A稳定版更新,这次更新覆盖了魅族20、魅族20Pro、魅族20INFINITY无界版等机型
2024-12-15 19:28:00
马斯克能否造一款“特斯拉手机”?特斯拉手机渲染图曝光
近日,有一个马斯克的恶搞账号在社交平台上发布了“特斯拉手机”的渲染图,并询问大家是否接受其作为圣诞节礼物。目前并没有确切的消息表明特斯拉会正式推出自己的智能手机
2024-12-15 19:29:00
石头科技助你放心躺平,洗地机A30支持躺平自带零感清洁
这年头家里要是没备上几样家务神器,那可以说是压根就不会主动提做家务。工作已经这么忙,留给自己的时间本就雪上加霜。要是有个在家里溜达一圈
2024-12-15 19:33:00
对标华为的“荣耀”!荣耀线上性能机GT官宣,赵明不惜成本打造
曾经的荣耀,就是华为性能手机的代表,用来与小米等品牌在线上抢夺手机市场!而随着荣耀的独立,开始自立门户,优先以线下市场为发力点
2024-12-15 19:33:00
谷歌Gemini 2.0发布,我看到了Web的未来
OpenAI的超长发布会还没结束,谷歌便火速推出Gemini2.0系列的第一个版本——Gemini2.0Flash测试版
2024-12-15 19:36:00
全力研发AI服务器:苹果搁浅M4 Extreme开发
苹果已经发布了M4系列处理器,在性能上比之前相比提升十分地明显,此外在AI性能上同样如此,不过目前的M4处理器并不能算是完全体
2024-12-15 19:36:00
海光新款16核心CPU首曝:多核性能还不如6核心Zen3
快科技12月15日消息,国产CPU处理器中,海光和兆芯都兼容x86指令集,其中海光基于第一代Zen架构,兆芯则是基于威盛IP
2024-12-15 19:48:00
塔克拉玛干沙漠惊现周长9米的巨型胡杨!为何如此强悍
据报道,12月11日,越野达人董长凯在穿越穿越塔克拉玛干沙漠时,在克里雅古道之中发现了一棵巨型胡杨树!经过测量,这颗树的胸围达到了9米
2024-12-15 19:48:00
规模世界第一!我国在运和核准在建核电机组装机约1.13亿千瓦
快科技12月15日消息,据报道,截至2024年,我国在运和核准在建核电机组装机约1.13亿千瓦,规模升至世界第一。2025年
2024-12-15 20:48:00
AOC新款34寸带鱼屏上市:180Hz VA面板首发1499元
快科技12月15日消息,AOC新款34寸带鱼屏——CU34G10XP目前已经上市,首发1499元。据悉,新款显示器配备34寸VA面板
2024-12-15 21:18:00
5.1GHz也没用!AMD史上最快四核心只能勉强喂饱RTX 4060
快科技12月15日消息,如今,四核心处理器已经基本离我们远去,不过AMD今年中面向中小企业发布的EPYC 4004系列
2024-12-15 21:48:00