• 我的订阅
  • 头条热搜
stability邀请用户测试文本到图像生成模型
...StabilityAI近日更新其产品页面,邀请用户测试文本到图像生成模型StableDiffusion3。官方表示新版本大幅提高了处理复杂提示词、生成更高质量的图像和纠正拼写错误方面的能力。StableDiffusion3目前并未公开测试,不过已经启动了早...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...消息,10月14日,Adobe在Adobe MAX大会上宣布推出Firefly视频生成模型,并强化了现有的图像、矢量和设计模型。Firefly视频模型已进入有限公开测试阶段,成为首个可安全用于商业用途的生成式AI视频模型。最新的Firefly图像模型Firefly...……更多
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024
...人员提出了一种新颖的多步误差最小化(MEM)方法,用于生成多模态不可学习样本,以保护个人数据不被多模态对比学习模型滥用。通过优化图像噪声和文本触发器,MEM方法有效地误导模型,降低其对隐私数据的学习能力,并在...……更多
AI一本正经地胡说八道 有种办法可以识破它
近年来,生成式人工智能在文本、图像、音乐等领域大放异彩。然而,随着生成式人工智能变得越来越强大,人们越来越难以鉴别AI生成的内容。近日,Google DeepMind 研究团队在《自然》(Nature)上发表的封面文章提供了一种文...……更多
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
...描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。计算机辅助设计(Computer-Aided Design,简称 CAD)软件是工业软件的重要分支,也是工业设计流程中的核心工具。然而,目前的 CAD 软件普遍缺乏简易的交互工具...……更多
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
...确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Pl...……更多
谷歌发布新型ai图像生成工具
12月17日,谷歌发布了一款名为Whisk的新型AI图像生成工具。Whisk的最大亮点在于,用户无需编写冗长的文本提示,只需上传其他图像,即可生成新图像。这一创新方式大大简化了图像生成的过程,提高了创作效率。用户可以使用...……更多
字节版Sora火爆24小时,同名论文再次被热议
...ixelDance为例,其最大特色在于多主体交互,一致性多镜头生成。啥意思??——直接来看几个官方demo。First kill,现在手上有这样一张原图:若使用当前大多视频模型,一般只能进行到“摘墨镜”这个环节;而PixelDance能解锁时序...……更多
腾讯混元上线文生视频并开源,120秒内成片!还有提示词建议
...智东西12月3日报道,今天,腾讯混元大模型正式上线视频生成能力,这是在腾讯文生文、文生图、3D生成之后的最新技术进展。据腾讯混元多模态生成技术负责人凯撒现场介绍,此次更新中,HunYuan-Video模型经历了四项核心改进:...……更多
AI视野:Gen-2支持生成4K高清视频;Midjourney推出Style Tuner工具;
AI应用Gen-2史诗级更新 允许用户通过简单文本生成4K高清视频Runway的AI视频生成工具Gen-2经历了一次重大更新,允许用户通过简单的文本输入来生成4K高清视频,彻底改变了创意软件的方式。Midjourney推出Style Tuner工具,让用户自定...……更多
重磅!苹果发布AI功能测试版,未融入ChatGPT,仅面向付费开发者
...(WWDC)上,苹果介绍,Apple Intelligence基于个人场景发挥生成式人工智能(AI)模型的强大功用,深度集成于iOS 18、iPadOS 18和macOS Sequoia中,可做出多种跨App操作,同时结合个人场景,提供情景驱动通知、写作改进、图像生成等功...……更多
云知声推出山海多模态大模型:实时生成文本、音频和图像
...能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲云知声山海助手微信小程序IT之家获悉,山海多模态大模型有如下特点:实时秒回,自由插话:与现实对话中人类的响应时间相...……更多
X表示其新的图像生成器Aurora将在一周内面向所有用户推出
... Twitter,上周六悄然在其Grok 助手中添加了一个新的图片生成器。 随后,它又将其删除。 现在它又重新上线,并正式宣布。这款名为 Aurora 的图像生成器由马斯克的人工智能公司xAI开发,并根据互联网上的数十亿个示例进行了训...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...但这个过程可能会影响语音的表达性,使得模型在理解、生成带表达的语音上有所欠缺。为了解决这个限制,研究人员构建了Spirit LM,也是首个Meta开源的多模态语言模型,能够自由地混合文本和语音;通过在语音和文本数据集...……更多
iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
...aw&Guess”,也就是通过图像上下文解释用户笔画并自动生成相关提示。团队采用的数据集通过生成边缘图和模拟用户笔画进行构建,并使用LLaMA模型进行微调。3.创意收集器创意收集器为用户提供了一个简约直观的界面,它兼...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...的相关问题。2、写作工具升级。新版iOS提供苹果的文本生成服务;同时支持AI生成邮件、信息,语音转录摘要等功能。3、视图工具升级。该版本提供更智能的图片搜索及电影回忆制作功能。仍有不少苹果在6月发布的AI功能未出...……更多
2023 的人工智能之年
...总结了 2023 年人工智能领域的主要进展,重点介绍了图像生成(如 Adobe Firefly, Midjourney V.6, DALL-E 3)、视频生成(如 Stability AI, Runway Gen-2)、文本生成(如 GPT-4, Bard and Gemini)等技术。同时,……更多
微软宣布Team Copilot发布,年内将推出初步预览版
...态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式AI体验。此外,由微软开发的Phi-3列AI小型语言模型(SLM)中的一种新型多模态模型Phi-3-vision现已在Azure中推出。Phi-3模型功能强大、经济高效,并且针对个...……更多
“平替版Midjourney”,上线1年超700万用户,生成图片超7亿张
...据报道,该公司产品发布1年,用户突破700万人,平台共生成超过7亿张图像,并获得投资者青睐。2023年12月7日,Leonardo.ai宣布获得3100万美元种子轮融资,投资方包括 Blackbird、Side Stage Ventures、Smash Capital、TIRTA Ventur……更多
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
智谱AI再次放大招,上线AI视频生成功能“清影”——曾被国际科技媒体The Information评为最有可能成为“中国OpenAI”5家企业之一的智谱AI,如今在视频生成领域再下一城。不同于至今没有对公众开放、“犹抱琵琶半遮面”的Sora,...……更多
AI 已死?不,AIGC 给我们带来了新的希望 | 氪记 2022
...于中国本土——在美国,更常见的说法是Generative AI,即生成式AI。其实,AIGC 是 Generative AI 的子集。因此在本文中,我们将用 GA 来统称这一年的生成式 AI 的进展。AI 领域还有一个名词叫做 AGI(通用人工智能),可以被理解为一...……更多
MSRA:视觉生成六大技术问题
文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,...……更多
Sora爆火96小时国内大模型进场
...专家认为,国内企业想弯道超车难度不小查睿OpenAI“文字生成视频”大模型Sora根据提示词“纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游弋”生成的20秒视频。 视频截图 ■Sora不仅可以理解用户的需...……更多
...发现》月刊网站12月22日发表题为《人工智能对话年——生成式人工智能工具开启了一个充满希望和陷阱的新世界》的文章,作者是斯蒂芬·奥尔内斯。文章摘编如下:2023年初,大型语言模型风靡全球。可以说,聊天生成预训练...……更多
Mistral放大招!124B多模态巨无霸登场,免费版ChatGPT震撼突袭
...于驱动新Le Chat。全新Le Chat:具备网页搜索、Canvas、图像生成、图像理解等功能——而且所有功能免费提供!Mistral的CEO兼联创Arthur Mensch宣布道:「此次发布是一个重要的里程碑」!现已可在官网上体验Le Chat的使用。体验地址:h...……更多
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的...……更多
“重创”美科技股后,DeepSeek除夕再发新模型,文生图测试优于OpenAI
...其中70亿参数版本的Janus-Pro-7B模型在使用文本提示的图像生成排行榜中优于OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。Github社区信息显示,Janus-Pro是去年发布的Janus的高级版本,可显著提高多模式理解和视觉生成。相比此……更多
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
...导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能...……更多
OpenAI发布免费新品GPT-4o:可对音频、视觉和文本实时推理,与人自然对话,功能秒杀Siri
...输出将仅限于选定的预设声音,并要遵守安全政策。GPT-4o生成图像:机器人正在输入日志条目,正文很大,清晰易读,机器人的手在打字机上打字。 5月14日,OpenAI发布新产品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗舰模型。...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...也不容易,因为我们需要的是多模态数据,但LLM无法直接生成图像,DALL-E、Stable Diffusion等图像生成模型又无法同步生成文本。一个直觉的解决方案是将二者结合在一起,直接生成但文生图模型实际上很难对图像细节做到细微精...……更多
更多关于科技的资讯:
鲁网11月21日讯为回馈客户,赋能业务高质量发展,近日,河东农商银行桃源支行联合辖内某药业集团举办“金冬时节·健康相伴”客户养生见面会
2025-11-22 09:34:00
灵光4天下载破100万,扩容8轮,刷新Sora2五天纪录
11月22日消息,蚂蚁灵光上线4天下载量突破100万,冲上App Store中国区免费榜第六。灵光首个百万下载速度超过ChatGPT
2025-11-22 14:13:00
知识带货热度高,历史作家梅毅在抖音直播间发布新书
知识带货热度不减,越来越多作家走进直播间推荐新书、好书。11月20日,知名历史作家梅毅(网名“赫连勃勃大王”)携新作《天命无常
2025-11-22 15:35:00
齐绘未来发布“快上岸”智能求职小程序,多项自主知识产权技术为大学生就业赋能
北京齐绘未来教育科技有限公司近日正式推出“快上岸”微信小程序,以多项具备自主知识产权的AI系统为核心,为大学生提供精准
2025-11-22 15:36:00
以开源聚合力,以生态促创新,电鸿走出行业操作系统自主路径
“在过去,去一次现场要带一大堆终端,以应对现场不同设备的接入。现在,只需一部手机和一箱基础工具就行。”来自广州南沙示范区运维工作人员的分享
2025-11-22 15:37:00
河北新闻网讯(李力芳)2025年7月份以来,河北建工省安装六分公司浙江八亿时空项目创新引入平台吊装系统、蜘蛛吊、电动遥控坦克等专业技术装备
2025-11-22 18:08:00
11月21日从太钢获悉,太钢近期硅钢产品订单在欧洲高端市场实现成功落地。此次出口的硅钢产品首次实现大卷重(15-17吨)和高牌号超宽规格(1250mm)供货
2025-11-22 18:20:00
校企携手研发新型电池 拓展长时储能应用新边界
荆楚网(湖北日报网)讯(记者唐天琪 通讯员王蕾、蓝静)11月20日,以“储能大时代,长时新蓝海”为主题的中国新型储能产业创新联盟2025年度大会在武汉召开
2025-11-22 19:06:00
必胜客中国业务进入快车道:门店突破4000家
2025年11月22日,百胜中国旗下必胜客在海南三亚举行中国第4000家门店的开业庆典。这一里程碑意味着必胜客在中国的布局进入新阶段
2025-11-22 22:32:00
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00