• 我的订阅
  • 头条热搜
meta推出“v-jepa”视频预测模型
...高效预测生成图片/视频中被遮蔽的部分。IT之家注意到,研究人员使用一系列经过遮蔽处理的特定视频训练I-JEPA/V-JEPA模型,研究人员要求模型利用“抽象方式”填充视频中缺失的内容,从而让模型在填充间学习场景,进一步预...……更多
首个3d人像视频生成模型来了
...人像上。最近,来自新加坡国立大学(NUS)和字节跳动的研究人员,在静态3D模型的基础上,提出了首个3D人像视频生成模型:PV3D(3DmodelforPortraitVideogeneration)。PV3D的训练继承了3DGAN模型的优点,即无需动态的三维数据监督,只...……更多
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较,结果发现,PaLI-3 虽然在标准图像分类基准上略微表现不佳,但基于 SigLIP...……更多
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...一个推理模型,也就是会比以往「思考」得更多。在OpenAI研究人员看来,「思考」就是推理的一种最直观的方式。有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书...……更多
谷歌推出“文生视频”扩散模型
.../24FPS下约3.34秒视频),虽然这一数据看起来很短,不过研究人员提到,5秒视频长度实际上“已经超过大多数媒体作品中的平均镜头时长”。除了应用“Space-TimeU-Net”基础架构外,谷歌还介绍了Lumiere的基础特性,该AI建立在一个...……更多
...者水平。德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员在新一期人工智能领域学术期刊《知识系统》上发表论文说,他们使用真实的比赛场景而非模拟或人工合成数据来训练人工智能系统。研究人员在特定环境中录制...……更多
华人团队爆火instructblip抢跑看图聊天
...劣的天气因素造成的。给我介绍下这幅画进行多轮对话 研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好。最最重要的是,InstructBLIP在多个任务上实现了最先进的性能,甚至在图片解释和推理上表现优于GPT4。为...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...Movie Gen Video沿用了Transformer的设计,尤其借鉴了Llama 3。而研究人员引入的「流匹配」(Flow Matching),让视频在精度和细节表现上,都优于扩散模型。稍显遗憾的是,这次Meta发的也是「期货」,产品预计明年才正式向公众开放。...……更多
研究人员提出版权授权方案,能将艺术家风格和IP版权授权给AIGC模型
...代下的“版权授权”方案,为解决该类问题提供了方法。研究人员表示:“我们此次研究的背景是源自于网上冲浪的时候,看到很多艺术家社区呼吁抵制文字生成图像模型,因为模型剽窃能力太强了,人类创作者创作效率跟不上...……更多
行业报告 | 2023年9月全球AIGC行业月报-要闻篇
...毁模型\"技术,抵制大型AI模型的恶意应用斯坦福大学的研究人员最近推出一项创新性研究,旨在防止大型AI模型被恶意应用于有害任务。他们提出了一种名为“自毁模型”的新技术,通过这一方法,即使大型模型是开源的,也可...……更多
deepmind开发音乐创作工具dreamtrack
...,声称可令视频创作者“更有效率地将想法变为作品”。研究人员介绍了当前通过AI模型生成音乐的挑战,这是因为音乐本身包含极高的信息密度,其中每一秒钟都可能拥有多个节拍、音符及和声。而这也使得“生成音乐”相较...……更多
meta推出两款基于ai的图像编辑工具
...型中,进而在视频生成和编辑中,提供更好的控制能力。研究人员指出,当前的图像编辑模型,通常会过度修改图像,或是修改不足,而EmuEdit的优势在于能够准确按照指令进行编辑。Meta使用了1000万个合成数据集训练EmuEdit,号...……更多
机器人轻松模仿人类,还能泛化到不同任务和智能体
...帧的基础上执行各个潜在动作之后的未来视频帧。为此,研究人员选择从预训练的视频生成模型上进行微调,将条件从文本换成了潜在动作表示和FDM的重建输出。 在具身智能的相关数据集上进行微调之后,研究人员观察到World M...……更多
...工智能研究院理事长、北京大学教授黄铁军表示,构建大模型生态首先要建立数据流通机制,推动从数据到智能的正反馈。汇聚数据超700万亿字节“如果没有开源数据集,很难想象人工智能怎样才能实现如此快速的迭代,然而,...……更多
科学家开发多模态音乐理解和生成大模型,兼具理解和创作音乐能力
...”刘山松表示。在调研和确定研究现状和研究目标之后,研究人员先选用 MERT、ViT 和 ViViT 这三个特征处理器,来分别处理音乐、图像和视频输入。接着,将编码器的输出引入所选用的 LLaMA2 开源大模型,让其能够理解、处理多模...……更多
微软推出全新vasa-1模型
...,最重要的是几乎没有人工痕迹,如果不细看很难发现。研究人员承认,与所有其他模型一样,该模型目前还无法妥善处理头发等非刚性元素,但整体效果要比其它同类模型要更为优秀。研究人员还表示VASA-1支持离线batch处理模...……更多
本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere
...在运动幅度和一致性表现良好。微软集中公司内部顶尖AI研究人员力量,组建新的GenAI团队研发小模型,减少对OpenAI的依赖。Adept AI发布多模态模型Fuyu-Heavy,官方称跑分表现仅次于GPT4-V和Gemini Ultra。同时,国内大模型也有不少进...……更多
Sora为何没能诞生在中国?
...家AI初创公司Pika lab(以下简称Pika),推出自研视频生成模型的新功能,可同时生成画面和声音。此前,人们看到的所有AI生成的视频都没有声音。此功能尚未向公众开放,但足以让人见识到AI的进化之快。今年2月16日,OpenAI发布...……更多
Meta联合开发机器人AI模型,任务成功率达90%
...过的环境中执行任务一直是一个棘手的问题。一般来说,研究人员需要针对每个新环境对机器人进行额外的训练,这个过程既耗时又昂贵。然而,最近的一项新研究为解决这一难题带来了新的希望。美国纽约大学、Meta和机器人...……更多
字节回应“中文版Sora”:目前无法作为完善产品落地,与...
...物或物体的动作。Boximator的数据来源是WebVid-10M数据集,研究人员从中过滤出110万段动态明显的视频片段,并为其注释220万个对象的边界框,在PixelDance和ModelScope这两个模型上训练了Boximator。字节跳动的研究人员表示,目前这款模...……更多
5620亿参数!谷歌发布史上最大“通才”ai模型
周一,来自谷歌和柏林工业大学的一组人工智能研究人员推出了史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。作为一种多模态具身VLM,它不仅...……更多
瑞士研究人员成功训练一只机器狗
近日,瑞士苏黎世联邦理工学院机器人系统实验室的研究人员成功训练了一只机器狗,使其能够利用一条腿完成开门、移动物体等任务,并依靠其他三条腿行走和保持平衡。这种“新颖的”运动方式具有潜在的应用前景,尤其...……更多
谷歌DeepMind展示大模型Genie,能从零制作类似超级马里奥的游戏
...看他们造出了什么。”他说。虚拟游乐场谷歌 DeepMind 的研究人员感兴趣的不仅仅是游戏生成。Genie 背后的团队致力于研究开放式学习,将人工智能控制的机器人放入虚拟环境中,通过试错(一种被称为强化学习的技术)来解决...……更多
...12日报道 据美国趣味科学网站5月13日报道,麻省理工学院研究人员开发了一种新的方式,帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claud...……更多
OpenAI机器人亮相,大模型有了“肉身”,英伟达微软都有投资
文|尚恩编辑|邓咏仪封面来源|Figure“大模型”终于有实体了。美国时间3月13日,由OpenAI投资的机器人公司Figure发布了一段视频demo,视频里的机器人,不仅可以与人进行对话交互,理解人类的意图,而且还拥有记忆力。当工...……更多
openai发布sora模型:支持一次性生成多机位视频
...。OpenAI称,该模型正在接受测试,只分享给了一批精选的研究人员和学者。 ……更多
谷歌DeepMind推Imagen2;ChatGPT Plus恢复订阅;OpenAI提出用小模型监督大模型 | 本周硅谷发生了什么?
...Converge 2加速器计划。该计划面向杰出工程师、设计师、研究人员和使用人工智能重新构想世界的产品开发者。通过技术讲座、办公时间、社交活动以及与领先从业者的对话,OpenAI将一起探索在人工智能前沿建设中最重要的机遇...……更多
瑞士研究人员展现四足机器人新技术
...报道,近日瑞士苏黎世联邦理工学院机器人系统实验室的研究人员展现了新的试验成果:训练自己的机器狗,使其利用其中一条腿来完成开门、移动物体等任务,并依靠其他三条腿来行走、保持平衡。研究人员表示,相信这种“...……更多
36氪研究院 | 2023年中国AI+游戏行业研究报告
...究AI技术在游戏领域的应用情况。1、发展环境技术端:大模型时代,AI在游戏行业加速落地2017年,谷歌提出Transformer后,利用大模型学习的GPT、T5等预训练模型相继被提出,AI愈发智能化。具体而言,在训练方法方面,大模型主要...……更多
机器人笑了,我却笑不出来
...参考资料[1])事实上,要实现这一点很困难,这首先需要研究人员打造出一张能够实现逼真的面部肌肉运动的机器人脸,其次还要让机器人通过人工智能学习人类表情的细微差别,并迅速做出准确的反应。如何造头? 与机器人E...……更多
更多关于科技的资讯:
Android 16 有望引入持续通知功能,类似苹果灵动岛
IT之家 10 月 27 日消息,据 Android Authority 发现的 Android 15 测试版代码显示
2024-10-28 09:31:00
vivo 手机上海交通卡更换卡面功能上线,适配 NFC 机型
IT之家 10 月 27 日消息,据上海公共交通卡官方消息,vivo 旗下 NFC 机型支持交通卡更换卡面功能,在使用手机公交卡刷卡出行时
2024-10-28 09:31:00
Android 16 新功能曝光:快速设置面板支持自定义磁贴大小
IT之家 10 月 27 日消息,据 Android Authority 报道,明年的 Android 16 更新将对快速设置面板进行重大改动
2024-10-28 09:32:00
iQOO 13 手机售价预计超 3999 元,产品经理称成本上涨“大几百”
IT之家 10 月 27 日消息,iQOO 13 手机已官宣将于 10 月 30 日 16:00 发布,目前新机已经全渠道开启预约
2024-10-28 09:32:00
中国国航 App“纯血鸿蒙”版登陆华为应用市场
IT之家 10 月 26 日消息,中国国航 App 鸿蒙 NEXT 单框架版本于 10 月 22 日正式登陆华为应用市场
2024-10-28 09:32:00
我国研究人员设计出高效神经调控芯片,推动脑机接口研发进程
IT之家 10 月 26 日消息,来自天津大学、北京工业大学、天津中医药大学、南方科技大学的研究人员合作设计出一款八通道高压神经刺激集成电路
2024-10-28 09:32:00
三星 W25 Flip 心系天下折叠屏手机外观配置公布,经典黑金设计
IT之家 10 月 26 日消息,三星 W25 Flip 心系天下折叠屏手机现已在官网公布外观以及主要配置,新机已经开启登记
2024-10-28 09:34:00
酷比魔方掌玩 mini 2 4G 平板新增 256GB 版 10 月 31 日开售
IT之家 10 月 26 日消息,酷比魔方今日宣布,掌玩 mini 2 4G 平板大存储版本 8GB+256GB 将于 10 月 31 日开售
2024-10-28 09:34:00
TP-LINK 推出第三代 T 系列 8 寸球机监控,升级 HDR 技术
IT之家 10 月 26 日消息,据 TP-LINK 安防服务公众号,TP-LINK 今天宣布推出第三代 T 系列 8 寸球机
2024-10-28 09:38:00
一加 13 搭载 400 米超远距灵动蓝牙,10 月 31 日发布
IT之家 10 月 26 日消息,一加 13 手机将于 10 月 31 日 16:00 发布,官方预热显示该机搭载超级信号工程 2
2024-10-28 09:44:00
优派推出“VX2576-HD-PRO-2”显示器:1080P 400Hz,3199 元
IT之家 10 月 26 日消息,优派现已在京东上架一款型号为“VX2576-HD-PRO-2”的 24.5 英寸显示器
2024-10-28 09:44:00
小米推出 Poco C75 手机:联发科 Helio G81-Ultra,699 港币起
IT之家 10 月 26 日消息,小米今天面向香港地区推出了一款 Poco C75 手机,这款手机主打中低端市场,采用联发科 Helio G81-Ultra 处理器
2024-10-28 09:47:00
整体产能达以往四倍,德州仪器日本会津工厂开产 GaN 功率半导体
IT之家 10 月 26 日消息,德州仪器 TI 本月 24 日宣布,其位于日本会津的工厂已开始生产基于氮化镓 GaN 材料的功率半导体产品
2024-10-28 09:48:00
谷歌报告称 76% 的开发者依赖 AI 工具完成编写、解释代码等任务
IT之家 10 月 26 日消息,谷歌于 10 月 23 日发布 2024 年 DevOps 状态报告,称超过 75% 的开发者和 IT 专业人士依赖于人工智能(AI)来处理至少 1 项日常专业任务
2024-10-28 09:48:00
谷歌安卓 16 增强“勿扰”功能:引入多种模式,超 40 款图标选择
IT之家 10 月 26 日消息,科技媒体 Android Authority 于 10 月 24 日发布博文,报道谷歌计划在安卓 16 系统中进一步完善“勿扰”(Do Not Disturb)功能
2024-10-28 09:48:00