• 我的订阅
  • 头条热搜
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...官方还附赠一波福利:每个组织每天都能免费获得100万个训练token,用到9月23日。也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而低成本构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。于是,问题就...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型:- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;- 无论上下文大小...……更多
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,全力保障大模型高效训练在大模型的数据应用全...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
... 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显...……更多
腾讯推出 Hunyuan-Large 开源大模型
...uan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下:高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。 论文地址:https://arxiv.org/pdf/2408.15237该研究的性能...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...中更多的细节。2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能 视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。混元团队自研了3D视觉编码器支持混合图片/视频训练,...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...新步伐基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。在生态合作上,bilibili作...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...建,使创意人员能有更多时间探索创意愿景。 三、Firefly训练数据合法且丰富,支持超过100种语言文本提示商业可用性是AI视频生成行业的关键问题。此前,Runway公司在训练其AI视频生成工具Gen-3时,涉嫌非法使用了大量YouTube视...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...理的全新模型架构。具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈...……更多
字节版Sora火爆24小时,同名论文再次被热议
...与文本指令进行视频生成,并有效利用公开视频数据进行训练。首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。具体来说,它由两个基本模块构建...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优,实现了全方位的金融知识理解和智能问答应用。图:ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略,始终保持对...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...选择专家模块。但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。 二、MixCon 的核心架构与技术C...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构,三年多来始终坚持全自研路线,新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...杂的方程或微积分求解。 智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型Cha...……更多
CMU副教授:在多智能体流行的当下,不要忽视单智能体系统
...种多样的任务。就算它们缺乏某个功能,也可以通过持续训练来增添,同时不会对其它功能产生太大影响。 单动作空间:这也不难。如果我们有多个使用不同工具的智能体,那么我们可以 (1) 为模型提供相对通用的工具,以帮...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...效减少硬件开销和RAM用量。官方举例,在LLaMA370B模型的预训练中,torchao提供的float8训练流程可将模型计算速度提升1.5倍。开发者只需利用convert_to_float8_training函数,即可将模型训练转换为float8,从而轻松实现模型高效训练。在推...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...道面向快速发展的大模型技术,OPPO继在ODC正式推出自主训练的大模型——AndesGPT之后,此次也宣布将在FindX7系列上实现行业首个端侧应用的70亿参数的模型,通过高精度4bit量化等模型压缩,推理引擎的加速,以及与芯片平台深度...……更多
更多关于科技的资讯:
迅雷超级会员发车大促:年卡169元半价、2月卡28到手
迅雷超级会员年卡日常售价360元,连续包年为264元(22元/月)。今日年卡券后直降至169元+赠3个月,单月折合11
2025-04-04 23:42:00
早餐车刮花路虎 车主只让赔了15个鸡蛋饼!网友:活该人家开路虎
快科技4月4日消息,据报道,近日,辽宁沈阳一辆140万的路虎豪车被早餐车刮蹭,车主却只让老板赔15个鸡蛋饼一事,引起网友关注
2025-04-04 23:42:00
实测车载DeepSeek:做北京旅游攻略 避开喝豆汁儿那种
接入DeepSeek后,理想又为车机自研了一个推理模型:它能帮你编故事哄孩子,提供买房建议,还能制定旅游攻略,直接筛掉你不想要的体验
2025-04-04 23:42:00
人类首次!SpaceX载人绕飞地球两极任务结束 机组成功返回地球
快科技4月5日消息,今日,马斯克旗下太空探索技术公司(SpaceX)私人载人航天任务“Fram2”结束,4名机组人员乘坐太空舱在太平洋成功溅落
2025-04-05 06:42:00
骁龙8至尊小折叠旗舰 小米MIX Flip 2获认证
快科技4月5日消息,据中国质量认证中心官网显示,日前,小米旗下一款型号为2505APX7BC的新机已经通过认证,证书编号为2025011606767993
2025-04-05 06:42:00
《白雪公主》反响太差 迪士尼紧急叫停长发公主真人版
4月4日消息,《白雪公主》上映前便风波不断——CGI打造的小矮人遭批、主演蕾切尔·齐格勒贬低原作爱情主线,引发粉丝强烈反感
2025-04-04 21:42:00
谷歌、英伟达后!又一美国企业被中国立案调查 杜邦涉嫌垄断、股价大跌
4月4日消息,据市场监管总局微信公众号今天消息,因杜邦中国集团有限公司涉嫌违反《中华人民共和国反垄断法》,市场监管总局依法对杜邦中国集团有限公司开展立案调查
2025-04-04 21:42:00
程序猿瑟瑟发抖!微软CTO:2030年AI将生成95%的代码
快科技4月4日消息,据国外媒体报道称,微软首席技术官凯文·斯科特 (Kevin Scott)预测,到2030年,95%的编程代码将由人工智能生成
2025-04-04 23:12:00
国内新型智能城际动车组下线:首搭智慧车窗技术 窗户可看视频
快科技4月4日消息,中车长客股份公司(以下简称“中车长客”)官方日前发文称,由中车长客股份公司研制的新一代时速200公里智能城际动车组日前正式下线
2025-04-04 23:12:00
RTX 50贵得要命!RTX 4060被推上销冠
快科技4月4日消息,RTX 50系列供货虽然趋于稳定了,但价格始终下不来,于是很多玩家将目光转向了上一代RTX 40系列
2025-04-04 15:42:00
省公安厅指导属地公安调查小米事故!小米SU7爆燃事故受害者男友也清空账号
快科技4月4日消息,继小米SU7爆燃事故遇难者母亲王女士清空事故相关微博后,遇难者男友账号也已清空相关内容。近日有媒体查询事故遇难者母亲王女士的认证微博“诗雨370491153”发现
2025-04-04 15:42:00
vivo法务部发布首条微博:针对3月19日遭曝光一事
快科技4月4日消息,今日午间,vivo法务部发布了首条微博,针对旗下尚未发布的新手机信息遭第三方提前曝光一事作出回应。vivo法务部声明
2025-04-04 15:42:00
美国网友看完甲亢哥直播说:中国领先100年!
快科技4月4日消息,近期,美国顶流网红“甲亢哥”的中国行活动热度爆棚,吸引了全球粉丝的目光。他在中国拍摄的旅行视频不仅在中外社交媒体斩获近千万点击量
2025-04-04 16:42:00
至少17名顶尖科学家回到中国!75%以上出自美国
很多人觉得中国高端人才容易流失,但事实上,学成回国效力的栋梁之材更多。有媒体梳理发现,2024年以来,先后已有至少17名顶尖科学家从海外回到中国
2025-04-04 16:42:00
这波优惠太香了!蔚来推“5年免费换电”+5年0息限时购车政策
快科技4月4日消息,今日,蔚来宣布,即日起至4月30日期间,用户支付定金购买蔚来ET5、ET5T、ES6、EC6、ET7
2025-04-04 17:12:00