• 我的订阅
  • 头条热搜
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...官方还附赠一波福利:每个组织每天都能免费获得100万个训练token,用到9月23日。也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而低成本构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。于是,问题就...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型:- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;- 无论上下文大小...……更多
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,全力保障大模型高效训练在大模型的数据应用全...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
... 3.1 Instruct 的相应版本!长达 73 的技术报告详细介绍了后训练的细节。在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。众所周知,近期发布的 OpenAI o1 在数学、 代码、长程规划等问题上取得了显...……更多
腾讯推出 Hunyuan-Large 开源大模型
...uan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下:高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。 论文地址:https://arxiv.org/pdf/2408.15237该研究的性能...……更多
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
...中更多的细节。2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能 视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。混元团队自研了3D视觉编码器支持混合图片/视频训练,...……更多
开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...新步伐基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力。同时,各大模型研发团队均可基于腾讯混元模型进行研究与创新,加速...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。在生态合作上,bilibili作...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...建,使创意人员能有更多时间探索创意愿景。 三、Firefly训练数据合法且丰富,支持超过100种语言文本提示商业可用性是AI视频生成行业的关键问题。此前,Runway公司在训练其AI视频生成工具Gen-3时,涉嫌非法使用了大量YouTube视...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...理的全新模型架构。具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈...……更多
字节版Sora火爆24小时,同名论文再次被热议
...与文本指令进行视频生成,并有效利用公开视频数据进行训练。首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。具体来说,它由两个基本模块构建...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优,实现了全方位的金融知识理解和智能问答应用。图:ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略,始终保持对...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...选择专家模块。但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。 二、MixCon 的核心架构与技术C...……更多
SAM是如何做到“分割一切”的
...套图像分割的通用模型,降低了对于特定场景建模知识、训练计算、数据标记的需求,有望在统一框架下完成图像分割任务。目前Meta公司已经开放共享SAM的代码和训练数据集。 利用海量数据实现准确分割那么,SAM是通过什么技...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构,三年多来始终坚持全自研路线,新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...杂的方程或微积分求解。 智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型Cha...……更多
CMU副教授:在多智能体流行的当下,不要忽视单智能体系统
...种多样的任务。就算它们缺乏某个功能,也可以通过持续训练来增添,同时不会对其它功能产生太大影响。 单动作空间:这也不难。如果我们有多个使用不同工具的智能体,那么我们可以 (1) 为模型提供相对通用的工具,以帮...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...效减少硬件开销和RAM用量。官方举例,在LLaMA370B模型的预训练中,torchao提供的float8训练流程可将模型计算速度提升1.5倍。开发者只需利用convert_to_float8_training函数,即可将模型训练转换为float8,从而轻松实现模型高效训练。在推...……更多
更多关于科技的资讯:
曝苹果跟百度合作:iPhone国行版加入百度AI大模型
快科技12月5日消息,据媒体报道,苹果与百度合作,为国行版iPhone接入百度AI大模型。报道指出,苹果向百度支付了AI大模型的使用费用
2024-12-05 00:09:00
cve-2024-49039漏洞概念验证代码公开发布
12月4日消息,科技媒体securityonline于12月2日发布博文,报道称微软于11月13日面向Windows10
2024-12-05 00:38:00
聘请女子合演低俗视频直播吸粉!4600万粉丝网红祁天道被行拘
快科技12月5日消息,日前,快手网红祁天道在直播时为了博眼球和取悦粉丝,对一女子做出多次不当行为,行为举止极为失态,相关视频在网络引起热议
2024-12-05 00:39:00
代表青春的人人网 怎么又凉了
沉寂了几年后,人人网终于又搞出了新闻,登上了微博热搜。但是内容是#人人网已停止服务#。大致的前因后果就是:有用户发现人人网无法登录
2024-12-05 00:39:00
刚起步就撞了!女子试驾新车变撞车 被4S店索赔近5万
快科技12月5日消息,据报道,广州佛山的方小姐近期准备打算买一辆车,就先到广汽埃安4S店去试驾一下。而方小姐属于“本本一族”
2024-12-05 00:39:00
蔚来胜了!澳大利亚产权局裁定蔚来未侵权奥迪 可继续使用ES车名
快科技12月5日消息,据报道,澳大利亚裁判文书网JADE公布的信息显示,针对奥迪对蔚来在澳大利亚提交的“ES6、ES7
2024-12-05 00:39:00
任天堂“switch2”配件已经开始销售
12月4日消息,据Famiboards论坛用户爆料,中国电商平台阿里巴巴上的商家已经开始销售声称与任天堂“Switch2”兼容的配件
2024-12-05 00:40:00
联动CDPR经典单机游戏《巫师 3:狂猎》联动内容上线
12月4日消息,网易“武侠吃鸡”游戏《永劫无间》今日官宣,联动CDPR经典单机游戏《巫师3:狂猎》,联动内容明日上线。杰洛特
2024-12-05 01:11:00
2030年电池价格可能低于修理燃油车发动机费用
12月4日消息,一项新研究显示,到2030年,更换一整块电动汽车电池的成本可能低于修理燃油车发动机的费用。据电动车研究机构Recurrent的报告显示
2024-12-05 01:31:00
澳门发行“澳门通—全国通”卡并享有车资优惠
12月4日消息,从大湾区之声获悉,为进一步便利澳门居民往内地及旅客访澳的交通出行,澳门特区政府交通事务局与交通运输部积极协调
2024-12-05 01:33:00
《夺宝奇兵:古老之圈》pc配置要求公布
12月4日消息,B社今日公布了《夺宝奇兵:古老之圈》的完整PC配置要求,提前为12月5日的抢先体验版发布做准备。IT之家整理《夺宝奇兵
2024-12-05 01:36:00
全新岚图梦想家乾崑版开启规模交付
12月4日消息,全新岚图梦想家乾崑版于12月3日开启规模交付,是首款搭载华为乾崑智驾与鸿蒙座舱的MPV。目前提车的乾崑版无法使用哨兵模式
2024-12-05 01:39:00
腾讯回应微信bug:感谢博主发现重大bug
12月4日消息,据浪涨科技报道,11月27日,有用户在个人社交账号反映,鸿蒙NEXT微信1.0.2.33版,在手机端引用对方的消息后
2024-12-05 01:41:00
《不羁联盟》将迎来生命的“终结”
12月4日消息,今年春季刚刚正式上线的免费团队射击游戏《不羁联盟》将迎来其生命的“终结”——北京时间今晨,育碧宣布,该作将在开发终止后关闭服务器
2024-12-05 01:48:00
nothing公司正研发3款智能手机
12月4日消息,科技媒体smartprix昨日(12月3日)发布博文,报道称Nothing公司正研发代号为“asteroids”
2024-12-05 02:07:00