模型,参数,模型,基准,问题,推理头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

英伟达地表最强，黄教主被称作AI界“霉霉”

...多款重磅明星产品，目前市面上能叫得上名字得人工智能模型几乎都是在该架构上进行训练，行业内“一芯难求”的局面迟迟得不到缓解。而今年，按照英伟达每两年更新一次GPU架构的节奏，大家都对英伟达新一代计算平台翘首...……更多

2024-03-19 11:56:00英伟,地表,教主,英伟,模型,人工智能

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。LLM对数据的大量消耗，不仅体现在预训练语料上，还体现在RLHF、DPO等对齐阶段...……更多

2024-08-01 09:40:00三角,进化,模型,奖励,训练,迭代

【产业互联网周报】字节回应被曝秘密利用OpenAI；英特尔预

...理。国内新闻字节跳动被曝秘密利用OpenAI技术打造自家大模型，字节跳动回应OpenAI封禁账户：正与OpenAI联系沟通据外媒报道，字节跳动一直在秘密使用OpenAI的技术开发自家大语言模型。在人工智能领域，这一做法通常被视为一种...……更多

2023-12-18 22:02:00马斯,英特,英华,马斯克,英特尔,阿里

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

一、o1系列模型概况9月13日OpenAI宣布发布o1系列模型，o1系列模型包括o1、o1-mini以及抢先版o1-preview，o1-preview和o1-mini模型已经可以使用。OpenAI宣布，“新模型在推理能力上代表了人工智能能力的新水平，因此，计数器将重置为1”...……更多

2024-09-18 15:01:00逻辑推理,重磅,推理,逻辑,模型,能力

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联

引领消费金融数智化时代招联发布行业首个开源金融大模型“招联智鹿” 在金融数字化转型加速的大背景下，AI人工智能机器人逐渐成为行业关注的焦点。近日，招联消费金融股份有限公司（以下简称“招联”）发布消费金融...……更多

2023-11-06 19:17:00智化,金融,模型,消费,时代,行业

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发

...手的AI论文在外网引发热议。论文中，研究团队提出了Q*模型算法，帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后，业内相关讨论始终层出不穷。...……更多

2024-06-26 09:19:00南洋,水成,新加坡,理工大学,算法,推理

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...美国时间12月6日早间，谷歌发布了外界期待许久的大语言模型Gemini，在发布会现场，谷歌将Gemini的多项能力直接与OpenAI的GPT-4进行对比，雄心勃勃地宣布进入“Gemini时代”，更加剧了两大头部科技公司在大语言模型领域竞争的白...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

谷歌推出其最先进AI模型Gemini，希望击败GPT-4

...谷歌公司宣布推出其规模最大、功能最强大的新大型语言模型Gemini，其最强大的TPU（张量处理单元）系统“Cloud TPU v5p”以及来自谷歌云的人工智能超级计算机。v5p是今年早些时候全面推出的Cloud TPU v5e的更新版本，谷歌承诺其速...……更多

2023-12-07 10:21:00最先,模型,比斯,模型,哈萨,人工智能

单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强

单卡搞定Llama 3.1（405B），最新大模型压缩工具来了！最近Llama-3.1登上开源顶峰，但其最强的405B版本模型900多GB的内存需求，对资源构成了更加苛刻的挑战。北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准LLMC，能...……更多

2024-08-05 09:34:00工具包,模型,工具,模型,算法,工具

关于LLM-as-a-judge范式，终于有综述讲明白了

...往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式，其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查，为推...……更多

2024-12-04 09:49:00范式,模型,基准,偏见,数据,评估

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住

...其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率，研究者想出了多种多样的方法，但其中很多都会让模型牺牲一些准确度。近日，苹果和 Meta AI 的一个研究团队提出了一种新方法，可在保证准确度不明显...……更多

2024-08-05 09:35:00准确度,更快,模型,苹果,缓存,模型

推理性能提升30倍！英伟达发布史上最强AI芯片，黄仁勋：将成

...用计算机开始，伴随着Windows 95、加速计算乃至深度学习模型AlexNet的出现，再到2016年，黄仁勋亲手将第一台DGX-1超级计算机送给了OpenAI。而在2022年，随着聊天机器人ChatGPT横空出世，生成式AI带来了全新一轮产业革命。黄仁勋手绘...……更多

2024-03-19 08:53:00英伟,推理,芯片,性能,成功,产品

AI 的“心智理论”难题：Meta ExploreToM 探

...作开发了 ExploreToM 框架，旨在更有效地评估和训练大语言模型（LLM）的心智理论（Theory of Mind，ToM）能力。心智理论心智理论（Theory of Mind，ToM）是人类社会智能的基础之一，能让我们能够理解他人的想法、意图和信念。这种认...……更多

2024-12-21 09:27:00之路,心智,难题,突破,理论,模型

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...，AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称，开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示，对于复杂推理任务而...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

自主研制！我国发布全球首个百亿级遥感解译基础模型

...天信息技术大会上，我国自主研制的百亿级遥感解译基础模型——“空天·灵眸”3.0版正式发布。据了解，这是迄今全球首个百亿参数级空天一体遥感解译基础模型。3.0版内核工作架构基于热传导，这是联合团队自主研发的一套...……更多

2024-09-22 07:25:00遥感,模型,我国,基础,全球,空天

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

文｜王怡宁编辑｜邓咏仪尚恩一周纵览本周大模型厂商们依旧表现活跃。硅谷大厂方面，Meta更新了编程模型Code Llama 70B，是Code Llama系列中规模最大，性能最强的版本。一款名为“miqu-1-70b”的神秘模型现身Hugging Face，跑分接近GP...……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

影响英伟达根本逻辑的大争论：OpenAI改变策略意味着什么？

大模型预训练“缩放定律”定律失效？模型推理成“解药”，英伟达一家独大格局要变天？“缩放定律”指导下，AI大模型预训练目前遭遇瓶颈。据路透12日报道，硅谷主要AI实验室的新模型训练计划目前普遍进展不顺，新模型...……更多

2024-11-13 14:09:00英伟,争论,逻辑,意味,根本,策略

超越GPT-4o！开源科研神器登场，4500万论文检索增强生

只需几秒钟，开源模型检索4500篇论文，比GPT-4o还靠谱！这就是由华盛顿大学和艾伦人工智能研究所（Ai2）打造的最新模型OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。在由20位专家进行的500次...……更多

2024-11-27 09:58:00论文检索,神器,生成,科研,检索,论文

苹果公司公布“mm1”多模态大模型

...dalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供30亿、70亿、300亿三种参数规模，拥有图像识别和自然语言推理能力。IT之家注意到，苹果研究团队相关论文主要是利用MM1模型做实验，通过控制各种变量...……更多

2024-03-16 18:48:00苹果公司,模态,模型,苹果,公司,模型

让AI无处不在高通全面开启终端侧生成式AI大门

...，AI将重塑消费者对用户体验的感知，骁龙将成为所有AI模型在终端侧运行的首选平台。基于这样的价值考量，在今年骁龙峰会上，高通推出了两款全新平台，二者无不强调了终端侧生成式AI体验的需求，从底层为用户提供贴近生...……更多

2023-11-08 09:29:00高通,终端,生成,大门,高通,终端

OpenAI-o1思考替代法火了！焦剑涛高徒一作提出思考偏好

OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务，一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。论文...……更多

2024-10-29 09:58:00高徒,偏好,模型,过程,基线,偏好

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法则。接下来，直接进入正题。适配大模...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

乔布斯时代之后，会迎来黄仁勋时代吗？

...AI能够做的工作有了更强烈的预期和紧迫感，而且各种大模型如雨后春笋一般地涌现出来，市场对于高性能芯片的需求度也爆棚了。黄仁勋推出B200的时候，人们忍不住要惊呼了。这是Hooper后的新一代架构，以数学家Blackwell命名。...……更多

2024-03-20 09:11:00乔布,时代,芯片,模型,英伟,布斯

清华提出CharacterGLM；DeepMind联创发全新

...技术优势：它支持智谱 AI、百川智能等国内领先的大语言模型，通过微调和优化提高模型的准确率和可读性，通过开放 API 接口支持个性化的数据应用搭建。（来源：“CSDN”微信公众号）《马斯克多次失手，OpenAI 异军突起，硅...……更多

2023-12-06 09:22:00联创,模型,清华,早报,一代,零售

AMD的GPU跑AI模型终于Yes了？PK英伟达H100不带

...过。但是，也需要说明这些测试存在局限：仅使用了一种模型，即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说，这个结果很是不错。但到今年年底时，考虑到英伟达 B...……更多

2024-09-05 09:49:00英伟,模型,英伟,内存,推理,性能

通义千问系列AI开源模型升至Qwen2：5个尺寸，最高 12

...息，通义千问（Qwen）今天宣布经过数月的努力，Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级，并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下：5 个尺寸的预训练和指令微调模型，包括 Qwen2-0.5B、……更多

2024-06-07 09:32:00通义,模型,尺寸,模型,训练,上下文