• 我的订阅
  • 头条热搜
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
租用 H100 的钱只需 233 美元。还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗?今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...理任务需要结合结构和语义双重信息,而HellaSwag这类任务仅需语义即可完成。通过实验,研究人员得出结论:数学和推理任务比“语义”任务更依赖顺序。迭代对并行层有帮助吗?如果把Transformer内部运行机制比作是画一幅画的...……更多
世界首个AI科学家连发10篇论文,横扫「顶会」!一篇仅需100元,自主科研效率完爆人类
...。更让人难以置信的是,从构思到成文,一篇论文的成本仅需15美金(107.61元)。「AI科学家」是由Transformer八大金刚之一Llion Jones的创业公司——Sakana AI提出。 它是一个完全自动化,端到端论文生成的流程。关键是,最后连审...……更多
从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,能跑酷
...用 Adam 优化器运行 70 个梯度下降 epoch。研究者在实验中仅需重复迭代 DAgger 三次就可以实现接近专家表现程度的视觉控制器。实际上第二阶段中的闭环训练过程是机器人出色表现的主要原因。一个简单的 transformer 控制模型架构...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...和Glaive创始人Sahil Chaudhary一起调查此事。(Reflection 70B的训练过程中,使用了Glaive的合成数据)有趣的问题:Sahil Chaudhary是谁?如今,调查结果水落石出——Reflection 70B果然没有达到最初报告的基准!Matt Shumer在X……更多
春节流量给支付宝留下了什么?
...资源的高效管理和调度,支付宝能够更快地完成AI模型的训练过程,使得AI模型能够更快地迭代更新,从而更好地支持AI在支付宝各业务线的应用。同时,在处理大规模数据时,异构计算技术的应用也显著提高了数据处理的速度和...……更多
算力增长1000倍!黄仁勋大刀阔斧掀翻AI界
...练GPT-4模型(2万亿参数和8万亿Token)的能量下降了350倍,仅需3吉瓦时,并且可以在10天内完成同等任务。如果使用Pascal进行同样的训练,它将消耗高达1000吉瓦时(1吉瓦时等于1百万千瓦时)的能量。这意味着需要一个吉瓦数据中...……更多
...验质系统运行情况。当看到系统内的抽层数据更新和模型训练效果完全满足技术要求后,他多日紧缩的眉头终于舒展开来。为解决废钢验质过程中存在的判级追溯难、质量异议等问题,加快实现产线数字化、智能化赋能升级,该...……更多
当AI大模型卷向服务机器人,会有哪些新故事?|硬氪分析
...不同,计算机要实现例如推理等人类所具备的高阶智慧、仅需少量的计算能力,而若要直觉、感知等能力,却需要巨大的运算能力。 简单来说,电脑可以在和人类围棋对弈中轻松取胜,但如果让机器人为你取出冰箱里的可乐,...……更多
补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...们让 Transformer 在包含推理轨迹和最终解答的数据上进行训练。利用推理步骤的结构,他们设计了特定的轨迹丢弃策略,使得生成的轨迹类似于系统 1 在思考过程中采取的捷径。在极端情况下,会丢弃整个轨迹并鼓励 Transformer 绕...……更多
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型
...许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域...……更多
钛动科技AI秒级响应虚拟模特换装,降本提效赋能电商增长
...的服装上身图,一键助力本土化原生态营销。不仅如此,仅需一张服装人台图,平台亦可智能补全模特,100%还原商品呈现效果,完美解决找不到模特、请不起模特的出海痛点。“人台图生图”交付时间短至2分钟,货品上架时间...……更多
西井科技自动驾驶全球商业化落地,解码大物流智能转型
...驶商用车 Q-Truck,在自研的智能能源服务 PowerOnair 支持下仅需5分钟无人化高效换电。2023年,西井科技与和记港口集团完成了英国菲利斯杜港的100辆无人驾驶集卡 Q-Truck 订单签约,打造迄今为止最大规模的新能源无人驾驶商用车...……更多
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...科大、哈工大、度小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看看具体是如何做到的?自回...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...方面,通过低成本的硬件接入支撑软硬协同优化,开发者仅需适配30余接口即可全面支持大模型训练、压缩、推理。大模型训推一体是飞桨框架3.0的核心特色,通过训练、压缩、推理的无缝衔接,实现RLHF训练复用推理引擎加速2.1...……更多
国家体操队冬训有妙招——爬绳
...脚尖,国家体操队队员们灵活优雅地完成一趟爬绳训练,仅需不到20秒。“体操运动员不光要发挥最大力量,还有基本姿态的要求,动作要很漂亮。爬绳训练有助于提升单杠、吊环项目的悬垂和握力。”国家男子体操队教练组组...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...的架构,但根据微软在Hugging Face上公布的文档,这一模型仅需66亿激活参数即可运行。Phi-3.5-MoE-instruct在各种推理任务中表现出色,在代码、数学和多语言语言理解方面具有强大的性能,超过了参数规模更大的其它开源模型。▲Ph...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...LLM数学水平不及小学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据集中编码了人类推理的完整过程,包括...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
... 实现。数据集对于 APE 工作流程,我们需要一个数据集来训练优化器 LLM。为了实现性能提升,我们需要使用 LLM 难以正确处理的数据集 / 任务。比如几何形状就是 LLM 难以正确应对的领域。对这些模型来说,空间推理和解释抽象...……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...网友询问到,有没有可能 o1 就着你自己的代码,完成的训练?Kabasares 认为,o1 输出的 200 行代码,与自己 1100 行代码有着很大的不同,这是论文代码「最简版本」。深夜测试,o1 挑战大学、博士物理题为此,Kabasares 又发了第二...……更多
扩散模型训练方法一直错了!谢赛宁:Representation matters
...tion matters」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」Yann LeCun 也...……更多
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
【新智元导读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。随着大模型的迭代,其GPU用量也在不断增长。Meta的Llama 1使用了2028...……更多
常见电子邮件分类算法的性能分析
...,将文本转化为数值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键...……更多
...最全的百万级输电线路缺陷与隐患样本库,为高性能算法训练提供了坚实的数据基础。输电线路本体缺陷和通道隐患种类繁多,识别难度大。该项目团队从样本优选、算法模型创新、训练策略优化等全环节要素入手,构建了输电...……更多
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型
...化难题。「系列优质通用数据+领域增强训练工具链」,仅需10分钟就能让企业自主成为模型定制增强专家,实现行业最佳的多场景可用率。大模型热两年后,将大模型融入业务场景、组织流程,提高产品和服务质量,已经成为越...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
比ChatGPT省电10倍 Google研训练AI模型新方法
...见及此,Google DeepMind研究团队近日提出一种加快人工智能训练的新方法,使用多模态对比学习与联合范例选择(JEST)能大大减少训练人工智能所需的计算资源和时间,其迭代次数比现在少13倍而运算量也少10倍,成功超越最先进...……更多
AIGC落地应用:腾讯云如何助力产业智能化升级?
...s视频生成;在生3D层面,腾讯混元已布局文/图生3D,单图仅需30秒即可生成3D模型。 目前,腾讯混元大模型多模态能力已通过腾讯云以API形式面向企业用户和开发者开放,在广告、电商、传媒、游戏、教育等不同行业落地应用...……更多
...行数据删除,确保数据安全。智能算力车便捷省心,客户仅需提供必要的停车场地和电源,中国电信提供整体的现场维护保障。客户既享受了自建算力中心的便捷安全,又不用承担维护工作,便捷又省心。目前,中国电信已在雄...……更多
更多关于科技的资讯:
科大讯飞 :AI如何让城市更聪明、生活更便捷
福州新闻网4月29日讯(记者 朱丽萍 文/摄)“说句福州俚语‘七溜八溜,不离福州’,它也能立刻翻译出来吗?”在福州海峡国际会展中心的科大讯飞展台
2025-04-30 00:11:00
蚂蚁集团:亮相AI和数据要素新成果,支付宝“碰一下”电动车自动开锁
福州新闻网4月29日讯(记者 朱丽萍)在第八届数字中国建设峰会展馆,观众用支付宝“碰一下”电动车自动开锁,再“碰一下”自动关锁
2025-04-30 00:11:00
河北新闻网讯(万天宇、闫丽颖)4月22日,在开滦股份范各庄矿3521N工作面,看着滚滚煤流顺畅地通过皮带汇入主运系统,采煤机司机岳佳伟开心地说
2025-04-30 00:24:00
电视大屏看熊猫 长虹虹魔方引领家电情绪智能新风向
随着2025年五一假期临近,不少家庭选择避开出行高峰,宅在家中享受室内休闲时光。据相关数据显示,近年来,五一假期选择宅家娱乐的人群比例正逐年上升
2025-04-30 01:24:00
南报网讯(记者张可胡英华)4月29日,总投资约40亿元的追觅科技智能大家电总部基地项目在溧水经济开发区正式开工。该项目总建筑面积约26万平方米
2025-04-30 07:39:00
□刘永彪李忠海习近平总书记指出,“要全面推进产业化、规模化应用,重点突破关键软件,推动软件产业做大做强,提升关键软件技术创新和供给能力
2025-04-30 07:41:00
设立“涉外法治服务专窗” 全年服务企业不少于300家每日商报讯“我们公司主要是做穿戴甲业务,产品远销欧美、非洲,今年想招阿里巴巴国际站运营总监
2025-04-30 07:50:00
18A量产在即 14A已上路!Intel代工释放两个关键信号:信任、合作
快科技加州圣何塞现场报道——2024年2月,Intel迎来了关键的转折点:专门负责代工制造的Intel代工(Intel Foundry)正式成立
2025-04-30 08:06:00
董明珠称绝不用海归引争议 山西省海归商会要求董明珠道歉
快科技4月30日消息,据三言Pro报道,山西省海归商会发布声明称,针对董明珠近期所发表的“绝不用海归派,海归派里有间谍”的言论
2025-04-30 08:06:00
深圳想给650万辆电动车换个充电方式
作者: 潘俊田2025年3月,在深圳喜来登酒店的会议室内,深圳市电动自行车行业协会、深圳市相关政协委员、人大代表、政府部门以及换电柜运营商
2025-04-29 23:49:00
全场景营销的浓度,决定消费者对品牌的态度
破解流量焦虑:鲸鸿动能引领全场景营销新范式。 封面来源|视觉中国去年国庆,西安大悦城用一场“破次元”特展,重新定义了商业空间的价值——7米高的路飞雕像与草帽团等身雕塑筑造超现实漫境
2025-04-30 03:57:00
全球第一卫浴品牌Roca乐家 以百年积淀引领卫浴行业绿色新纪元
在人类文明不断演进的历程中,卫浴空间已悄然完成从基础功能区域到生活品质象征的华丽转身。它不再仅仅是解决日常洗漱需求的场所
2025-04-29 18:43:00
探访港区专精特新丨海归团队以细胞疗法为医学创新带来新思路
大河网讯 当今社会,癌症让人闻之色变,传统治疗方法有手术治疗、化学疗法等。如今,细胞疗法为治疗癌症开辟了新路径。在郑州航空港区
2025-04-29 18:56:00
追觅科技北美最大旗舰店开业,加速普惠全球消费者
日前,追觅科技在美国的第二家直营旗舰店正式入驻圣地亚哥,这也是目前追觅在北美地区开设的最大面积旗舰店,为消费者带来全系列高端智能清洁产品
2025-04-29 19:46:00
2025年4月,年营收25亿的区域酒企汤沟酒业,突然以千万年薪挖来快消巨头高管,并豪掷亿元费用押注分众传媒。这场奋进50亿元年度目标的豪赌
2025-04-29 19:47:00