• 我的订阅
  • 头条热搜
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...官方还附赠一波福利:每个组织每天都能免费获得100万个训练token,用到9月23日。也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而低成本构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为...……更多
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。于是,问题就...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型:- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;- 无论上下文大小...……更多
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,全力保障大模型高效训练在大模型的数据应用全...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
腾讯推出 Hunyuan-Large 开源大模型
...uan-A52B-Instruct和Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。其中模型技术优势如下:高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。 论文地址:https://arxiv.org/pdf/2408.15237该研究的性能...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。在生态合作上,bilibili作...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
Adobe推视频生成大杀器!最长生成5秒视频,一键重拍成为现实,已开放公测
...建,使创意人员能有更多时间探索创意愿景。 三、Firefly训练数据合法且丰富,支持超过100种语言文本提示商业可用性是AI视频生成行业的关键问题。此前,Runway公司在训练其AI视频生成工具Gen-3时,涉嫌非法使用了大量YouTube视...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
...理的全新模型架构。具体来说,为了支持图像输入,Meta 训练了一组适应器权重(adapter weight),其可将预训练的图像编码器集成到预训练的语言模型中。该适应器由一系列交叉注意层组成,这些层的作用是将图像编码器表征馈...……更多
字节版Sora火爆24小时,同名论文再次被热议
...与文本指令进行视频生成,并有效利用公开视频数据进行训练。首先,团队采用广泛使用的2D UNet作为扩散模型,该模型由一系列空间下采样层和一系列空间上采样层构建,并插入了跳跃连接。具体来说,它由两个基本模块构建...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优,实现了全方位的金融知识理解和智能问答应用。图:ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略,始终保持对...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用...……更多
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...选择专家模块。但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。 二、MixCon 的核心架构与技术C...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构,三年多来始终坚持全自研路线,新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...杂的方程或微积分求解。 智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型Cha...……更多
CMU副教授:在多智能体流行的当下,不要忽视单智能体系统
...种多样的任务。就算它们缺乏某个功能,也可以通过持续训练来增添,同时不会对其它功能产生太大影响。 单动作空间:这也不难。如果我们有多个使用不同工具的智能体,那么我们可以 (1) 为模型提供相对通用的工具,以帮...……更多
pytorchtorchao正式发布,提供了一系列优化工具集
...效减少硬件开销和RAM用量。官方举例,在LLaMA370B模型的预训练中,torchao提供的float8训练流程可将模型计算速度提升1.5倍。开发者只需利用convert_to_float8_training函数,即可将模型训练转换为float8,从而轻松实现模型高效训练。在推...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...道面向快速发展的大模型技术,OPPO继在ODC正式推出自主训练的大模型——AndesGPT之后,此次也宣布将在FindX7系列上实现行业首个端侧应用的70亿参数的模型,通过高精度4bit量化等模型压缩,推理引擎的加速,以及与芯片平台深度...……更多
Meta版Sora深夜横空出世,小扎放出16秒高清大片!92页论文曝光技术细节,Llama 3架构立功
...生成个性化视频。甚至Meta还放出了92页论文,模型架构、训练细节一并公开,干货满满!毫无预兆地,Meta版Sora——Movie Gen,就在刚刚抢先上线了!Meta将其称为「迄今最先进的媒体基础模型」。全新上线的大杀器Movie Gen Video,是...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...FM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读,并提到背后模型的训练采用的是累计10240颗谷歌TPU,而未提及英伟达GPU。根据论文描述,苹果自研大模型在指令遵...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作主要集中在单次或批量编辑上,由于灾难性的知识遗忘和模型性能的下降,这些方法在终身编...……更多
更多关于科技的资讯:
廊坊企业携钢结构全生命周期数字建造管理平台亮相服贸会
河北新闻网讯(周双双)焊枪游走于构件之间,长约1.8米的机械臂带着配套设备,按照预定程序完成现场焊接作业……9月10日
2025-09-13 07:37:00
从园区降碳到聚变研发,新奥积极推动人工智能与能源行业深度融合
河北新闻网讯(张新)近日,国家发展改革委、国家能源局联合印发《关于推进“人工智能+”能源高质量发展的实施意见》,明确提出推动人工智能技术在电网
2025-09-13 07:38:00
中新经纬9月12日电 题:新茶饮出海,何以“全球通”?作者 文志宏 连锁经营产业专家、和弘咨询总经理随着越来越多新茶饮企业步入“万店时代”
2025-09-12 14:36:00
9月11日,中新经纬在2025年服贸会现场探展发现,北京联通为了解决外籍来宾入境支付难和通信难的两大痛点,推出创新产品“畅游通”和“幂方卡”
2025-09-12 14:39:00
中新经纬9月12日电 题:新茶饮出海靠“链”功作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师当喜茶带着现代中国茶文化的魅力走向全球
2025-09-12 14:39:00
汪昌莲日前,高德地图宣布推出首个基于用户行为产生的榜单“高德扫街榜”,构建全新的线下服务信用体系,以全力支持线下餐饮、酒店
2025-09-12 14:40:00
中新经纬9月12日电 题:新茶饮出海,有口味更要有文化味作者 江瀚 盘古智库高级研究员近年来,新茶饮市场出现集体出海热
2025-09-12 14:40:00
聚焦2025服贸会:奇富科技信贷超级智能体升维之路
以“数智领航,服贸焕新”为主题的2025年中国国际服务贸易交易会正在北京召开。在服贸会第七届中国金融科技论坛上,奇富科技展示了其在国家“人工智能+”行动战略指引下
2025-09-12 15:25:00
外媒:中国“国潮”消费正影响国际奢侈品市场
英国《金融时报》报道截图中国高端黄金珠宝品牌老铺黄金近期在国内外市场表现突出,受到全球市场关注。多家外媒认为,近年来中国“国潮”消费趋势正在逐渐影响国际奢侈品市场
2025-09-12 15:25:00
大众网记者 郑健 潍坊报道在潍坊昌邑的产业版图上,一批“隐形冠军”正以惊人的专注力改写行业格局:三力本诺的避蚊胺产量全球领先
2025-09-12 15:29:00
东南网9月12日报道(福建日报记者 廖丽萍)我国钢铁生产需要进口铁矿石,但国际铁矿石市场价格波动频繁,对生产成本管控与盈利稳定性带来了巨大挑战
2025-09-12 15:36:00
安徽黄山烟草:以数智之力 筑安全之基
近年来,安徽省黄山市烟草专卖局(公司)聚焦安全管理现代化目标,深度构建“数智化+安全管理”风险防控体系,以“技术创新突破瓶颈+场景应用落地实效”双轮驱动
2025-09-12 15:42:00
Lux Nutrition健康论坛开幕,聚焦麦角硫因新应用
加拿大保健创新企业 Lux Nutrition 在2025年7月29日在加拿大温哥华 Vancouver Terminal City Club 酒店盛大举行麦角硫因论坛
2025-09-12 15:44:00
雾以希定义鼻腔护理新标准:微米级雾化技术实现家庭精准护理
2025年9月6日,由广州国家实验室、广东省呼吸与健康学会主办,国家呼吸医学研究中心、国家呼吸系统疾病临床医学研究中心
2025-09-12 15:46:00
倒计时一周!设计与科技共振,\
由柯莱睿主办的亚洲权威消费科技与室内设计盛会"设计深圳Design Shenzhen"即将于2025年9月18日至21日在深圳会展中心举办
2025-09-12 15:46:00