• 我的订阅
  • 头条热搜
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
单卡搞定Llama 3.1(405B),最新大模型压缩工具来了!最近Llama-3.1登上开源顶峰,但其最强的405B版本模型900多GB的内存需求,对资源构成了更加苛刻的挑战。北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准LLMC,能...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...往无法判断精妙的属性并提供令人满意的结果。大型语言模型 (LLM) 的最新进展启发了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各种任务和应用程序中执行评分、排名或选择。本文对基于 LLM 的判断和评估进行了全面的调查,为推...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准确度。近日,苹果和 Meta AI 的一个研究团队提出了一种新方法,可在保证准确度不明显...……更多
推理性能提升30倍!英伟达发布史上最强AI芯片,黄仁勋:将成最成功产品
...用计算机开始,伴随着Windows 95、加速计算乃至深度学习模型AlexNet的出现,再到2016年,黄仁勋亲手将第一台DGX-1超级计算机送给了OpenAI。而在2022年,随着聊天机器人ChatGPT横空出世,生成式AI带来了全新一轮产业革命。黄仁勋手绘...……更多
AI 的“心智理论”难题:Meta ExploreToM 探索突破之路
...作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。心智理论心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够理解他人的想法、意图和信念。这种认...……更多
自主研制!我国发布全球首个百亿级遥感解译基础模型
...天信息技术大会上,我国自主研制的百亿级遥感解译基础模型——“空天·灵眸”3.0版正式发布。据了解,这是迄今全球首个百亿参数级空天一体遥感解译基础模型。3.0版内核工作架构基于热传导,这是联合团队自主研发的一套...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推理任务而...……更多
超越GPT-4o!开源科研神器登场,4500万论文检索增强生成靠谱回答
只需几秒钟,开源模型检索4500篇论文,比GPT-4o还靠谱!这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型OpenScholar。它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。在由20位专家进行的500次...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
文|王怡宁编辑|邓咏仪 尚恩一周纵览本周大模型厂商们依旧表现活跃。硅谷大厂方面,Meta更新了编程模型Code Llama 70B,是Code Llama系列中规模最大,性能最强的版本。一款名为“miqu-1-70b”的神秘模型现身Hugging Face,跑分接近GP...……更多
让AI无处不在 高通全面开启终端侧生成式AI大门
...,AI将重塑消费者对用户体验的感知,骁龙将成为所有AI模型在终端侧运行的首选平台。基于这样的价值考量,在今年骁龙峰会上,高通推出了两款全新平台,二者无不强调了终端侧生成式AI体验的需求,从底层为用户提供贴近生...……更多
苹果公司公布“mm1”多模态大模型
...dalLLMPre-training》的论文,其中介绍了一款“MM1”多模态大模型,该模型提供30亿、70亿、300亿三种参数规模,拥有图像识别和自然语言推理能力。IT之家注意到,苹果研究团队相关论文主要是利用MM1模型做实验,通过控制各种变量...……更多
影响英伟达根本逻辑的大争论:OpenAI改变策略意味着什么?谁在撒谎?
大模型预训练“缩放定律”定律失效?模型推理成“解药”,英伟达一家独大格局要变天?“缩放定律”指导下,AI大模型预训练目前遭遇瓶颈。据路透12日报道,硅谷主要AI实验室的新模型训练计划目前普遍进展不顺,新模型...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
...真正意义上的“政策+产业”共振。事件驱动 DeepSeek线上模型版本升级至V3.18月 21日 ,DeepSeek发 布 了DeepSeek—V3.1大模型。本次升级后的模型采用了混合推理架构,即一个模型同时支持思考模式与非思考模式,用户可以使用“深度...……更多
乔布斯时代之后,会迎来黄仁勋时代吗?
...AI能够做的工作有了更强烈的预期和紧迫感,而且各种大模型如雨后春笋一般地涌现出来,市场对于高性能芯片的需求度也爆棚了。黄仁勋推出B200的时候,人们忍不住要惊呼了。这是Hooper后的新一代架构,以数学家Blackwell命名。...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务,一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。论文...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...技术优势:它支持智谱 AI、百川智能等国内领先的大语言模型,通过微调和优化提高模型的准确率和可读性,通过开放 API 接口支持个性化的数据应用搭建。(来源:“CSDN”微信公众号)《马斯克多次失手,OpenAI 异军突起,硅...……更多
字节发布豆包1.5深度思考模型:“实拍级”图像生成
...火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...过。但是,也需要说明这些测试存在局限:仅使用了一种模型,即来自 Meta 的 Llama 2 70B。希望未来能看到这些测试中使用更多不同的 AI 模型。对 MI300X 及 AMD 未来的 GPU 来说,这个结果很是不错。但到今年年底时,考虑到英伟达 B...……更多
通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens
...息,通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。IT之家附上 Qwen 2.0 主要内容如下:5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法 | NIPS 2024
【新智元导读】代码模型可以自己进化,利用自身生成的数据来进行指令调优,效果超越GPT-4o直接蒸馏!LLM作为智能的基座,可以衍生出各种能力。代码能力就是其中一种:程序补全、注释、优化、修bug、测试等等。而想要充...……更多
马斯克 xAI 推出 Grok-1.5 大语言模型
...公司 xAI 今天在官方博客中宣布,正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改进的推理能力和 128k 的上下文长度,其中最显著的改进之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在 平台上向早期测试人员和...……更多
疯狂一夜!美国AMD、谷歌纷纷亮出大杀器,人类迎来巨变前夜?|钛媒体焦点
...迄今为止功能最强大、最通用的多模态人工智能(AI)大模型:Gemini(中文称“双子座”)。具体来看,谷歌最新发布的Gemini 1.0系列,主要是英语模型,共包括三个不同尺寸版本:Ultra(超大杯)、Pro(大杯)和Nano(中杯),将...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-……更多
商汤升级“日日新5.0”大模型,对标GPT-4Turbo
...数据,推理时上下文窗口达200K左右。云、端、边全栈大模型产品矩阵中,用于终端设备的“商汤端侧大模型”可满足各类终端用户对大模型技术的应用需求。“日日新5.0”和GPT-4回答趣味推理问题。4月23日,在2024商汤技术交流...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...了30.07%问题的成绩夺得榜首。(SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的最大增幅——57%!至于Genie的实际效果,用团队的话来说就是:它可以做到像...……更多
chatgpt低成本复现流程开源
首个开源的ChatGPT低成本复现流程来了!预训练、奖励模型训练、强化学习训练,一次性打通。最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch,单机训练速度最高...……更多
...:德宏团结报性能提升30%!中国电信进一步开源12B星辰大模型本报讯 近日,中国电信开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...浪潮电子信息产业股份有限公司在京发布“源2.0”基础大模型,并宣布全面开源。“源2.0”包括102B(1026亿)、51B(518亿)、2B(21亿)三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。基础大模型的关键能...……更多
更多关于科技的资讯:
联通超清电视狂欢双十一,临沂IPTV用户喜获iPhone17豪礼
鲁网12月1日讯一年一度的双十一购物狂欢盛宴圆满收官,在这场全民消费热潮中,山东联通精心策划的“双十一福利再升级”活动脱颖而出
2025-12-01 11:12:00
千里运荔藏巧思 现代加盟终端拓新局
“就算失败,我也想知道,自己倒在距离终点多远的地方。”电视剧《长安的荔枝》中这句掷地有声的台词,精准道出了当下创业者选择加盟之路时的执着与忐忑
2025-12-01 12:23:00
赛事总奖金160万元!WCI国际冠军赛苏州完美收官
2025年坦克世界国际冠军赛(WCI)11月30日在苏州阳澄国际电竞馆落下帷幕。来自中国、欧洲、北美和亚太地区的八支顶尖战队经过激烈角逐
2025-12-01 13:58:00
2025年北京市中小学生电子与信息创意实践活动圆满举行
当AI小球听懂指令,当智能车驰骋赛场,当电路在指尖点亮创意……孩子们像科学家一样思考,像工程师一样实践。11月30日,2025年北京市中小学生电子与信息创意实践活动在北京市第十四中学(畿辅校区)火热开幕
2025-12-01 14:26:00
烟台联通创新应用高压直流供电技术 破解高铁5G基站供电瓶颈
胶东在线12月1日讯在青烟威荣高铁5G覆盖扩容工程建设中,烟台联通成功应用高压直流供电技术创新方案,有效解决了牟平北山隧道西口
2025-12-02 05:00:00
海尔智慧家庭成立创新实验室布局好房子住居生态
海尔智慧家庭战略持续强化、开放和加速布局,又交出新成果。11 月 28日,以“AI 新纪元 共筑智慧家”为主题的海尔智慧家庭生态创新研讨会在北京召开
2025-12-01 14:51:00
海尔智慧家庭新成果:2025物联网大会斩获两项大奖
海尔智慧家庭持续强化、开放并加速智慧居住领域战略布局,如今再添重磅新成果。11 月 29 日,在首届全球万物智联数字经济可持续发展大会暨2025(第十届)世界物联网大会上
2025-12-01 14:51:00
海尔印尼冷柜工厂奠基将增百万产能
11月27日,海尔印尼冷柜工厂奠基。这座规划年产能100万台的冷柜工厂,将成为海尔智家本土化战略布局及数字化转型落地的又一里程碑
2025-12-01 14:53:00
海尔城市体验中心天津店开业落地数字化转型战略
11月29日,海尔城市体验中心天津店开业。在这里,用户挑选的不再只是一台台冰箱、洗衣机这样的AI单品,而是可以直接把成套解决方案搬回家
2025-12-01 14:54:00
2025年11月27日,梨花教育发布业界首款聚焦“声音”领域的AI声学学习机。该产品主要面向银龄群体,以精准的适老化与智能化设计
2025-12-01 14:56:00
殷平:推动铁路旅游发展 厘清基本概念是前提
在旅游需求多元化个性化发展的拉动下,在国家和部门政策的推动下,在铁路行业深耕市场、实现“旅客变游客”理念的具体落实下,铁路旅游得到了蓬勃的发展
2025-12-01 15:13:00
中国演出行业协会发布团播权威报告,携手抖音启动“优质团播”遴选
作为多人协同的演艺直播新形式,“团播”正成为线上文化演出市场的重要增长点。近日,中国演出行业协会发布《2025中国网络表演行业团体直播业务现状与发展情况分析报告》(以下简称《报告》)
2025-12-01 15:26:00
中国科大发现活性液晶可编程双行波新机制
大皖新闻讯 12月1日,大皖新闻记者从中国科学技术大学获悉,该校物理学院彭晨晖教授、蒋景华研究员团队与香港科技大学、厦门大学合作
2025-12-01 15:27:00
比音勒芬高端破局:新疆鹅绒如何改写“原料出口,品牌进口”的产业困境?
作为全球鹅绒产量第一大国,中国鹅绒年产量占全球总量的 80% 以上。然而,长期以来,中国鹅绒产业却陷入 “原料大国、品牌小国”的困境
2025-12-01 15:27:00
《如何做一个会赚钱的自媒体》出版,助力普通人抓住AI时代自媒体新机遇
鲁网12月1日讯近日,聚焦普通人自媒体变现的实用书籍《如何做一个会赚钱的自媒体》正式出版。该书以“多维度能力叠加”为核心
2025-12-01 15:30:00