推理,模型,能力,论文,社区,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...I正在壮大。能力一览11B和90B这两款模型，不仅支持图像推理场景，包括图表和图形在内的文档级理解、图像描述以及视觉定位任务，而且还能基于现有图表进行推理并快速给出回答。比如，你可以问「去年哪个月销售业绩最好...……更多

2024-09-27 13:39:00模态,宝宝,模型,图像,训练,文本

苹果黑科技将彻底改变iPhone 已有重大进展

...已经攻克了其中的重要技术挑战，可以最大限度减少AI在推理过程中，对于闪存和内存的占用，从而将推理延迟降低了4-5倍。而且，如果将其运行在GPU上，那么加速效果将提升20-25倍。一旦实现，就可以让智能手机真正部署大语...……更多

2023-12-24 19:50:00进展,苹果,科技,语言,智能,论文

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mist

...外，HuggingFace上还发布了7B模型的指令微调版本，在数学推理任务GSM8K上的性能实现大规模提升，分数由原来的2.1直接飙到52.5。https://huggingface.co/apple/DCLM-7B-8k除了7B版本，1.4B版本也同步上线。神奇的是，训练数据量相比7B版本不……更多

2024-07-22 09:41:00血战,强势,模型,苹果,模型,数据

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

...judge提示模板。除了给出评价结果，meta-judge还需要生成CoT推理过程。为减少meta-judge可能存在的位置偏好（可能倾向于选择最先出现的Judgment A），对同一对数据(jm, jn)会交换顺序让meta-judge进行两次评价，得到单次结果rmn：引入...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

算子开发到推理加速，一位00后开发者的“升级打怪”之旅

...框架降低了大模型训练的门槛，目前正在做大模型分布式推理加速，希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里，像郑辉这样为大模型浪潮默默贡献自己力量的开发者不胜枚举。他们还不是...……更多

2024-04-27 19:00:00开发,算子,开发者,推理,之旅,升级

专家模型不要专家并行！微软开源MoE新路径

...好，所以要在左上角： GRIN作为MoE架构，总参数量约42B，推理时激活的参数为6.6B，打同级别（7B）的非MoE模型是手拿把攥，甚至比14B的Phi-3还要略胜一筹。在上面的这份成绩单中，GRIN MoE表现优异，尤其是在编码和数学测试中。...……更多

2024-11-12 09:57:00专家,微软,路径,模型,模型,专家

RTX3090可跑，360AI团队开源视频模型FancyVi

...、任意宽高比、不同风格、不同运动幅度的视频，其衍生模型还能够完成视频扩展、视频回溯的功能…… 这便是 360AI 团队和中山大学联合研发的 FancyVideo，一种基于 UNet 架构的视频生成模型。作者基于已经开源的 61 帧模型，实...……更多

2024-08-27 09:52:00红衣,大叔,模型,团队,视频,生成

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o

...、输入文本，还能查找代码错误、自动搜集信息填表。AI推理已至瓶颈，下一个爆破点，就是AI操作电脑！Claude 3.5深夜迎来重磅升级！不出所料，Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku，全新升级版Claude 3.5 Sonnet也来...……更多

2024-10-23 09:55:00人类,编程,模型,能力,开发,任务

Anthropic挖走DeepMind强化学习大牛、Alph

...实现了里程碑式的突破。AlphaProof 是一种用于形式化数学推理的强化学习系统，而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。正式比赛中，AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就……更多

2024-10-30 09:54:00大牛,核心,作者,学习,学习,算法

中国车企的大模型战争，才刚刚开始

...说，Mind GPT 可以让对话生成、语言理解、知识问答、逻辑推理等在内的各项能力变得更安全，更准确，也更有逻辑；它所自带的记忆网络也能够允许用户选择让理想同学基于历史对话记住个性化偏好和习惯，从而更好理解用户。...……更多

2023-11-14 14:33:00中国,模型,战争,模型,驾驶,小鹏

收入占比40%、电话会议点名16次，英伟达：推理端的需求被低

...让人印象深刻的是，英伟达在财报电话会议的一个观点：推理端的爆发，可能很多人还是低估了。据英伟达电话会议披露，公司全年数据中心里已经有40%的收入来自推理业务，超出了绝大部分人预期。而在这次财报电话会议里，...……更多

2024-03-02 13:38:00英伟,电话会议,推理,收入,需求,端的

打脸“AI灭绝伦”！研究反驳：大模型涌现能力不会威胁人类生存

...两个任务主要依赖形式语言能力或信息检索，而非复杂的推理能力。由此可以得出，在没有上下文学习的条件下，GPT 模型的涌现能力受到了极大的限制。然而，涌现能力的来源仅仅如此吗？研究团队又将目光转向了指令微调模...……更多

2024-08-19 09:31:00模型,威胁,人类,能力,研究,模型

仅用4块GPU、不到3天训练出开源版GPT-4o，这是国内团

...ication, CTC）来预测与语音响应相对应的离散单元序列。在推理过程中，当 LLM 自回归生成文本响应时，语音解码器同步生成相应的离散单元。为了更好地契合语音交互场景的特点，该研究通过重写现有的文本指令数据并进行语音...……更多

2024-09-24 13:42:00团队,训练,这是,研究,语音,文本

空间智能新进展：教机器人组装家具，实现操作步骤与真实视频对齐

...任务来评估当前AI系统在理解和执行家具组装，以及空间推理（spatial reasoning）方面的能力。首先是基于3D模型的分割（Segmentation）与姿态估计（Pose Estimation）。此类任务输入3D模型和视频帧，要求AI准确分割出特定部件区域，并...……更多

2024-11-27 09:57:00新进,机器人,步骤,机器,家具,智能

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准确率却会下降。此外，虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果，但在纯文本任务上的性能却有显著...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

科学家开发多模态音乐理解和生成大模型，兼具理解和创作音乐能力

...模型领域正在蓬勃发展。该领域的从业者或利用它强大的推理能力，理解文本、图像等模态；或通过它理解人类意图，并生成图像、音乐等用户需要的内容。然而，过去大多数基于大语言模型的研究仍然侧重于理解层面，只有少...……更多

2024-04-09 10:25:00模态,音乐,科学家,生成,模型,创作

黄仁勋对话Transformer七子：我们被困在原始模型里，

...其不断交互才能变得聪明，待在实验室里并不会造福世界推理是下一个重要的进步节点，能提升数据训练效率，产生更有价值的结果对话实录部分要点整理Transformer因何横空出世？Illia Polosukhin：如果要做出能真正读取搜索结果的...……更多

2024-03-22 00:03:00架构,模型,对话,模型,数据,资源

智谱AI CEO张鹏：大模型更聪明了开发者门槛降低

...百页的上下文窗口长度，具备更强的多模态能力，更快的推理以及更高并发，还大大降低了推理成本。 “一直以来，普通用户甚至是开发者，需要用像魔法咒语一样的提示词，或者机器才能解读执行的代码，来调用大模型的各...……更多

2024-01-17 09:53:00张鹏,开发者,门槛,模型,开发,张鹏

研究人员给了人工智能一个“内心独白”，结果大大提高了其性能

...工智能系统，让它在说话前先思考。内心独白提高了常识推理能力，并使其数学成绩翻了一番。一项新的研究表明，给人工智能系统一个“内心独白”会大大提高它们的推理能力。这种方法训练的人工智能系统，会在对提示做出...……更多

2024-03-21 16:13:00人工智能,研究人员,独白,人工,内心,性能

中国也有Sora同款训练架构公司，清华班底，智谱也投了 |

...经理。CTO鲍凡在清华大学计算机系获得博士学位，在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。可以说，2023年...……更多

2024-03-14 15:12:00清华,班底,中国,架构,训练,公司

vivo发布自研大模型，为用户和开发者带来诸多惊喜

...能计算领域的探索与创新。他指出，大规模训练、高性能推理及海量算力治理是AI落地面临的三大挑战。为此，vivo构建了大模型工程体系，解决了大规模训练的问题，让模型能按天迭代;解决高性能推理的问题，能秒级生成图片;...……更多

2024-10-14 01:53:00开发者,模型,惊喜,用户,开发,模型

零一万物Yi-1.5来了，国产开源大模型排行榜再次刷新

... Yi-1.0 的持续预训练版本，使用 500B 个 token 来提高编码、推理和指令执行能力，并在 300 万个指令调优样本上进行了精细调整。刚一发布，就已经有开发者跃跃欲试：并收获了好评：与前序模型相比，Yi-1.5 系列模型进一步提升...……更多

2024-05-14 09:56:00万物,模型,国产,再次,排行榜,模型

不用部署，实现大模型切换自由！Token、算力免费薅！

...可以通过页面底部的对话框对已处于启动状态的模型进行推理实测。如果频道中暂时没有处于启动状态的公共线路，您可以选择心仪的线路并一键启动。如何实现模型 API 切换自由？如所选模型实测频道的免费公共线路已处于启...……更多

2024-08-14 09:39:00切换,模型,不用,自由,模型,清湛

揭示Transformer「周期建模」缺陷！北大提出新型神经

...中的商业周期、物理学中的电磁波，以及数学运算和逻辑推理等。因此，在许多任务和场景中，人们希望对周期进行建模，以便根据以往的经验进行推理。尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功，但是它...……更多

2024-11-27 13:34:00周期,缺陷,神经网络,周期性,北大,特征

清华提出时间序列大模型：面向通用时序分析的生成式Transf

...M类似的下一词预测（Next Token Prediction, NTP）进行预训练。推理时，模型可通过自回归生成任意长度的序列。模型结构：剑走偏锋的仅解码器结构不同于当下时序领域流行的仅编码器结构，Timer采用GPT风格的仅解码器Transformer。作...……更多

2024-07-22 09:44:00时间序列,时序,清华,序列,生成,模型

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4

...，研究了一番，发现这篇论文涵盖了预处理、生成训练、推理训练、退火迭代、多模态评估等流程，但核心其实说的就是两件事，一是大量的训练，二是训练里做了些优化。首先咱就说训练这方面，他们就下了大功夫，做了算力...……更多

2024-07-25 09:20:00模型,训练,模型,伯格,数据,扎克

文生图参数量升至240亿！Playground v3发布：深

...像描述性能。实验结果表明，PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色；用户偏好研究表明，PGv3模型在常见的设计应用中，如表情包（stickers）、海报和logo设计，具有超越人类的图形设计能力，还能够精确...……更多

2024-10-08 09:48:00文生,图形设计,深度,图形,人类,参数

谷歌DeepMind推Imagen2；ChatGPT Plu

...成器。Mistral AI发布Mixtral 8x7B专家混合模型，表现优越且推理速度更快。由于获得更多GPU，ChatGPT Plus重新开放订阅，提供更好的用户体验。OpenAI首席科学家Ilya Sutskever入选Nature年度十大科学人物，表彰其在ChatGPT开发中的核心作用.……更多

2023-12-17 18:40:00模型,硅谷,订阅,监督,模型,融资