更快,模型,视觉,语言,训练,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal：通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2.5D：无需训练的「...……更多

2024-12-13 09:19:00推理,模型,思维,空间,模型,生成

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

llava-1.6与gpt-4vmp面硬刚的性能，一起来看看

...-Plus，与GPT-4V正面硬刚，这个有着SOTA级别性能的多模态大模型真正做到了“人无我有，人有我优”。继2023年4月的初级版本、2023年10月的LLaVA-1.5之后，2024年1月31日，微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研...……更多

2024-02-10 21:04:00性能,模型,模态,训练,数据,卷上

OpenAI发布文生视频模型Sora，奥尔特曼选取网友提示词

...凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。目前官网上已经更新了48个视频demo，在这...……更多

2024-02-16 18:44:00文生,奥尔,奥尔特曼,特曼,模型,提示

DeepSeek-VL2 开源：AI视觉模型迈入 MoE 时

...公众号昨日（12 月 13 日）发布博文，宣布开源 DeepSeek-VL2 模型，在各项评测指标上均取得了极具优势的成绩，官方称其视觉模型正式迈入混合专家模型（Mixture of Experts，简称 MoE）时代。IT之家援引官方新闻稿，附上 DeepSeek-VL2 亮...……更多

2024-12-16 09:33:00模型,视觉,时代,模型,图像,分辨率

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上

...又又动荡了，另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还...……更多

2024-09-27 13:42:00推理,可在,图像,运行,版本,支持

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布

...数据生成引擎（RIG）生成的大规模数据进行训练，以提高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-mo...……更多

2024-10-16 13:35:00模型,场景,训练,语言,数据,物体

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联

...作提质增效，节约时间成本近80%，让客户在咨询问题后时更快得到专业答复，提升客户体验。通过使用Text-To-Text（从文本到文本）的逻辑以及大语言模型参数涌现下的自学习能力，模型训练效率提升超90%。据了解，该模型未来将...……更多

2023-11-06 19:17:00智化,金融,模型,消费,时代,行业

北大字节VAR最佳论文、厦大清华亚军，NeurIPS 202

...可扩展图像），论文一作为田柯宇（此前因涉攻击内部大模型，被字节起诉）。参见机器之心报道《GPT 超越扩散、视觉生成 Scaling Law 时刻！北大 & 字节提出 VAR 范式》。机器之心获悉，从 2023 年开始，字节商业化技术团队就...……更多

2024-12-05 09:47:00论文,清华,亚军,字节,北大,模型

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...架构师赵一嘉，为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。直播开始，李亮首先详细拆解了近期国产大模型「顶流」—— 字节跳动豆包大模型在文生图模型方面的技术升级。李亮表示，豆包...……更多

2024-08-13 09:39:00文生,出图,美感,秘籍,心意,更快

昆仑万维SkyReels团队正式发布并开源SkyReels-

...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来……更多

2025-04-21 13:53:00万维,昆仑,团队,生成,视频,模型

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...又多了一个选择！今日，腾讯宣布旗下的混元视频生成大模型（HunYuan-Video ）对外开源，模型参数量 130 亿，可供企业与个人开发者免费使用。目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的「AI 视频」板块申请试用。腾讯...……更多

2024-12-04 09:48:00文生,腾讯,模型,参数,社区,视频

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉

【新智元导读】全球首个支持多主体一致性的多模态模型，刚刚诞生！Vidu 1.5一上线，全网网友都震惊了：LLM独有的上下文学习优势，视觉模型居然也有了。来自中国的视频生成模型，再一次震惊了全球大模型圈。生数科技推出...……更多

2024-11-15 09:52:00模型,果仁,上下文,地表,上下,视觉

前谷歌工程师创业造AI芯片！产品明年问世，已拿到1.8亿融资

...GETTY IMAGES） “我们试图让大语言模型在谷歌内部运行得更快，并取得了一些进展，但实现这一目标仍很困难。”Pope说，“在谷歌内部，有很多人希望对芯片进行各种改动，因此我们很难只专注于大语言模型的开发。为此，我们...……更多

2024-03-30 11:11:00融资,芯片,工程师,创业,工程,产品

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

赋能高质量发展，江苏移动竞逐大模型赛道

...商已经积累了庞大业务数据，能够快速构建稀缺数据集，更快训练出垂直行业大模型。这些合作经验也能让运营商在实际应用中更快推进技术落地。”江苏移动技术专家徐奎说。今年4月，国家网信办公布已备案大模型清单，中...……更多

2024-12-04 15:13:00赛道,江苏,高质量,模型,移动,发展

清华教授唐杰：Scaling Laws虽被质疑，但至今仍是提

清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品｜搜狐科技作者｜郑松毅2024年已过半，大模型之争热度不减，通往AGI的路究竟该怎么走？近日，清华大学计算机系讲席教授、人工智能研究院基础模...……更多

2024-06-05 18:36:00清华,模型,教授,性能,方法,模型

OpenAI推出生成式模型Sora，内容创作领域开启新纪元

...现，业内其实早有预期，但仍有人评价称“比想象中来得更快”，亦有人振奋地表示“我们真的看到新工业革命来临”。2月16日，业内分析人士对记者表示，Sora无疑是人工智能领域的一次重大突破，该技术不仅展示了AI在理解和...……更多

2024-02-18 23:32:00新纪元,生成,模型,创作,领域,内容

1行代码改进大模型训练，Llama训练速度升至1.47倍，华

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

...智元了解，字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向，团队规划了VAR为高优项目，投入研究小组和大量资源。除了VAR，团队还发表了LlamaGen等相关技术论文，新的研究成果也将在近期陆续放出。事...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

Token化一切，甚至网络！北大&谷歌&马普所提出Token

...者是汪海洋，北京大学20级博士生，目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威，北京大学智能学院教授；Bernt Schiele，德国马普计算所教授；Federico Tombari 谷歌人工智能科学家等。新一代通用灵活...……更多

2024-11-15 09:51:00马普,北大,网络,模型,增量式,增量

苹果发布新型开源人工智能模型：可根据自然语言指令编辑图像

...。苹果公司近日发布了名为“MGIE”的新型开源人工智能模型，它可以根据自然语言指令编辑图像。图源：VentureBeat与Midjourney合作制作MGIE的全称是MLLM-GuidedImageEditing，利用多模态大型语言模型（MLLM）解释用户指令并执行像素级操...……更多

2024-02-09 03:32:00自然语言,人工智能,指令,人工,模型,图像

全模态对齐框架align-anything来啦：实现跨模态指

...、张钊为、汪明志、钟伊凡等。团队就强化学习方法及大模型的后训练对齐技术开展了一系列重要工作，包括 Aligner（NeurIPS 2024 Oral）、ProgressGym（NeurIPS 2024 Spotlight）以及 Safe-RLHF（ICLR 2024 Spotlight）等系列……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据