灵机,模型,训练,过程,语言,运算符头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

【新智元导读】谷歌DeepMind的小模型核弹来了，Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B！而同时发布的Gemma Scope，如显微镜一般打破LLM黑箱，让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型，又上新了！就...……更多

2024-08-02 09:55:00小钢炮,显微镜,大脑,模型,编码器,特征

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机

在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。基于对通用人工智...……更多

2024-04-10 10:25:00模型,模态,终端,科学家,科学,手机

零样本即可时空预测！港大、华南理工等发布时空大模型Urban

【新智元导读】UrbanGPT是一种创新的时空大型语言模型，它通过结合时空依赖编码器和指令微调技术，展现出在多种城市任务中卓越的泛化能力和预测精度。这项技术突破了传统模型对大量标记数据的依赖，即使在数据稀缺的情...……更多

2024-08-01 09:40:00时空,华南,样本,理工,模型,时空

欧盟拟分三级监管生成式人工智能，模型越强大规则越严

第一级将包括所有基础模型；第二级针对“非常强大”的基础模型，将通过用于训练其大型语言模型的算力来区分；第三级被称为大规模通用目的人工智能系统，将包括最流行的人工智能工具，并以用户总数来衡量。欧盟正在...……更多

2023-10-18 17:03:00人工智能,监管,人工,生成,模型,规则

火爆全球的AI音频大模型，最新技术细节揭秘

...月19日在Arxiv上分享了Stable Audio Open的研究论文，公开了该模型背后的技术细节。Stable Audio Open是StabilityAI于今年6月推出的开源文本转音频模型，可免费生成长达47秒的样本和音效，还可生成44.1kHz高质量立体声音频，并且能在消费...……更多

2024-07-25 09:22:00最新技术,火爆,模型,细节,音频,全球

70倍极致压缩！大模型的检查点再多也不怕

...ICCV、ECCV等顶会上有多项代表性工作发表，在高效大语言模型、视觉模型等领域都有丰富的成果产出，和知名高校和科研机构合作广泛。大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」，吸引了大批学者和企业投入资...……更多

2024-08-06 09:27:00检查点,极致,模型,检查,检查点,权重

大模型时代结束？大佬齐预测：AI模型或需先缩小规模，才能再次

【新智元导读】小模型强势来袭，「大模型时代」或将落幕？「小模型周」过去了，小模型的最新战场才刚刚开辟。上周GPT-4o mini和Mistral NeMo二连发，「麻雀虽小，五脏俱全」的小模型成为业界大佬密切关注的新方向。这么说...……更多

2024-07-23 09:40:00大佬,模型,规模,再次,时代,模型

超级人工智能会偷袭人类吗？

...预见它的到来并来得及向全世界发出警报？随着大型语言模型，如ChatGPT的兴起，这个问题最近受到了很多关注。这些模型随着规模的增长已经获得了大量新功能。一些研究结果指向了“涌现”现象，即人工智能模型以一种骤然...……更多

2023-12-29 07:44:00人工智能,人工,人类,智能,模型,研究

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...了30.07%问题的成绩夺得榜首。（SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名19.27%，解锁了提升SOTA的最大增幅——57%！至于Genie的实际效果，用团队的话来说就是：它可以做到像...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...东西8月21日消息，今天，微软一口气甩出3款超强轻量级模型！微软本次发布的轻量级模型系列名为Phi-3.5，适合在内存和算力受限的环境中运行，均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务，Phi-3.5-MoE-instru...……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research、Google DeepMind 和 Google Cloud 共同推出了一个更小、更快、更强大的视觉语言模型（VLM）——PaLI-3，该模型与相似的体...……更多

2023-10-17 16:31:00更快,模型,视觉,语言,训练,模型

前谷歌科学家Yi Tay「LLM演义」系列博客第一弹：BER

【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客，首篇博文的话题关于：基于encoder-only架构的BERT是如何被基于encoder-decoder架构的T5所取代的，分析了BERT灭绝的始末以及不同架构模型的优缺点，以史为...……更多

2024-07-22 09:39:00科学家,江湖,科学,博客,模型,目标

非Transformer架构站起来了!首个纯无注意力大模型,

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首...……更多

2024-08-14 09:39:00力大,架构,模型,模型,架构,训练

昆仑万维发布开源13B高质量商用大模型领先Llama2和B

10月30日，昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列，并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型：Skywork-13B-Base模型、Skywork-13B-Mat……更多

2023-10-30 15:35:00万维,昆仑,商用,高质量,模型,领先

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型，似乎都很难完成更抽象层...……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

MSRA：视觉生成六大技术问题

...进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，难以直接拟合。因此，往往需要将复杂的信号做拆分，拆分成多个简单的分布拟合问题，再分别求解。信...……更多

2024-07-15 09:34:00生成,视觉,问题,技术,模型,图像

2分钟定制Agent，「澜码科技」发布企业级AI Agent

...AI Agent是今年最热门的AI应用探索方向。所谓基于大语言模型的AI Agent，可以被简单视作可以自主使用系统工具执行任务的智能体。Lilian Weng的贴文指出，“大语言模型、记忆、规划、工具使用”是AI Agent的四个关键组件——有了...……更多

2023-12-23 08:57:00平台,科技,企业,周健,知识,模型

CMU&清华：让LLM自己合成数据来学习，特定任务性能同样大

...赵晨阳，卡内基梅隆大学硕士生贾雪莹。虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工...……更多

2024-08-02 09:40:00清华,性能,任务,数据,学习,生成

科学家提出大模型分子交互学习框架，已在400多万分子对中验证

...博士生方俊峰和所在团队开发的首个统一的多模态大语言模型分子交互学习框架——MolTC（Molecular inTeraction Modeling enhanced byChain-of-thought theory），为解决上述问题带来了新的曙光。目前，在多个数据集的 4000000 多个分……更多

2024-03-07 10:44:00分子,科学家,框架,模型,验证,科学