• 我的订阅
  • 头条热搜
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...官方还附赠一波福利:每个组织每天都能免费获得100万个训练token,用到9月23日。也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而低成本构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。于是,问题就...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型:- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;- 无论上下文大小...……更多
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,全力保障大模型高效训练在大模型的数据应用全...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
腾讯推出 Hunyuan-Large 开源大模型
...uan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下:高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。 论文地址:https://arxiv.org/pdf/2408.15237该研究的性能...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。在生态合作上,bilibili作...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...建,使创意人员能有更多时间探索创意愿景。 三、Firefly训练数据合法且丰富,支持超过100种语言文本提示商业可用性是AI视频生成行业的关键问题。此前,Runway公司在训练其AI视频生成工具Gen-3时,涉嫌非法使用了大量YouTube视...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...理的全新模型架构。具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈...……更多
字节版Sora火爆24小时,同名论文再次被热议
...与文本指令进行视频生成,并有效利用公开视频数据进行训练。首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。具体来说,它由两个基本模块构建...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用...……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优,实现了全方位的金融知识理解和智能问答应用。图:ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略,始终保持对...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...选择专家模块。但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。 二、MixCon 的核心架构与技术C...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构,三年多来始终坚持全自研路线,新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...杂的方程或微积分求解。 智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型Cha...……更多
CMU副教授:在多智能体流行的当下,不要忽视单智能体系统
...种多样的任务。就算它们缺乏某个功能,也可以通过持续训练来增添,同时不会对其它功能产生太大影响。 单动作空间:这也不难。如果我们有多个使用不同工具的智能体,那么我们可以 (1) 为模型提供相对通用的工具,以帮...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...效减少硬件开销和RAM用量。官方举例,在LLaMA370B模型的预训练中,torchao提供的float8训练流程可将模型计算速度提升1.5倍。开发者只需利用convert_to_float8_training函数,即可将模型训练转换为float8,从而轻松实现模型高效训练。在推...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...道面向快速发展的大模型技术,OPPO继在ODC正式推出自主训练的大模型——AndesGPT之后,此次也宣布将在FindX7系列上实现行业首个端侧应用的70亿参数的模型,通过高精度4bit量化等模型压缩,推理引擎的加速,以及与芯片平台深度...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video,是...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...FM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读,并提到背后模型的训练采用的是累计10240颗谷歌TPU,而未提及英伟达GPU。根据论文描述,苹果自研大模型在指令遵...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作主要集中在单次或批量编辑上,由于灾难性的知识遗忘和模型性能的下降,这些方法在终身编...……更多
更多关于科技的资讯:
深入实施“人工智能+”行动丨浪潮智能终端“超高清+AI”解锁场景新玩法
漫步浩瀚太空,秒回侏罗纪时代,与科幻机甲同框……济南方特东方神画“九州神韵”的XR拍摄专区,小学生李安安兴奋地“穿越”在异时空中
2025-10-11 10:21:00
近日,据大象新闻报道,疾控卫监部门在一次突击检查中发现,某美容院将普通的高频电灼仪包装为“黄金微针”项目进行推广。这类看似创新的营销话术
2025-10-11 12:36:00
中新经纬10月11日电 (李自曼)近期,多家险企推出1年期的短期重疾险产品。同样保额下,传统重疾险保费动辄千元甚至上万元
2025-10-11 13:55:00
滨州移动织就“数字救援网”,赋能红十字演练通信零死角
鲁网10月11日讯近日,中国红十字应急救援北部协作区综合救援演练在山东省滨州市惠民县黄河三角洲应急消防实训基地拉开帷幕
2025-10-11 14:44:00
看点十足!2025中国移动全球合作伙伴大会变身“AI嘉年华”
当碳基生命的创造力与硅基生命的智慧力深度融合,将迸发出怎样的“AI+”可能?2025年10月10日—10月12日,中国移动全球合作伙伴大会在广州保利世贸博览馆盛大召开
2025-10-11 15:31:00
中国移动董事长杨杰:碳硅共生 合创AI+时代
10月10日至12日,2025中国移动全球合作伙伴大会在广州举行。10月11日上午,中国移动董事长杨杰出席大会主论坛,并发表题为《碳硅共生 合创AI+时代》的主旨演讲
2025-10-11 15:31:00
北京apm多重活动焕活国庆长假新体验,解锁假日新乐趣!
国庆假日期间,北京apm以“沉浸式假日体验”为核心,精心打造多元互动活动、热门IP联名快闪与专属会员福利矩阵,为王府井商圈注入鲜活动能与浓郁假日氛围
2025-10-11 15:41:00
山东乐陵:“老味道”飘出消费新滋味
位于乐陵市经济开发区的山东金鹏德盛斋扒鸡有限公司扒鸡生产车间内,老师傅王强不再像过去那样,紧盯着油炸锅、凭经验调节火力
2025-10-11 16:03:00
近日,张家口农商银行钟楼北小贷中心积极组织开展一场针对光大新天地商城内各商户的专项走访活动。此次活动旨在深入了解商城内各类商户的经营状况
2025-10-11 16:20:00
易生支付:智慧支付护航国庆文旅消费 赋能区域商业活力升级
2025年国庆长假期间,全国文旅消费市场持续呈现旺盛活力。易生支付凭借高并发交易处理、全渠道聚合支付、实时资金清算等核心技术能力
2025-10-11 17:08:00
齐鲁晚报·齐鲁壹点 连宁燕今年以来,威海市商务局围绕促消费开展了一系列卓有成效的工作。紧跟国家、省级、市级各级各类消费提振部署安排
2025-10-11 17:10:00
从精装到智装:百川装饰20年新范式在深圳启航
新范式·新百川·新未来:20周年发布品牌与战略升级近日,行业专家、合作伙伴及媒体代表逾300人齐聚深圳百川装饰集团20周年现场
2025-10-11 17:11:00
聊城首家无缝钢管制造企业汇通集团:年产85万吨钢管,远销全球30余国
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:44:00
聊城新一代信息技术发展:创新水平稳步提高,多项成果达国际领先
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:49:00
三木众合主导专利技术填补省内网络安全领域技术空白
鲁网10月11日讯(记者 泮晓阳)10月11日上午,聊城市政府新闻办公室召开“产业链上的山东好品牌”企业家系列现场记者见面会(六)聊城黑色金属加工
2025-10-11 17:49:00