• 我的订阅
  • 头条热搜
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...官方还附赠一波福利:每个组织每天都能免费获得100万个训练token,用到9月23日。也就是说,开发人员现在可以使用自定义数据集微调GPT-4o,从而低成本构建自己的应用程序。要知道,OpenAI在公告中透露了:GPT-4o微调训练成本为...……更多
3天把Llama训成Mamba,性能不降,推理更快!
...型的推理速度。为什么要把Llama变成Mamba?因为从头开始训练一个大模型太贵了。Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE...……更多
Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人
...出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。这种架构选择确保了Falcon Mamba模型:- 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;- 无论上下文大小...……更多
浪潮信息推出as13000g7-n系列
...U直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。DataTurbo数据加速引擎,全力保障大模型高效训练在大模型的数据应用全...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。 论文地址:https://arxiv.org/pdf/2408.15237该研究的性能...……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年
...、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。在生态合作上,bilibili作...……更多
晶圆级AI芯片WSE-3性能公布:80亿参数模型上每秒生成1800个Token
...晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。根据官方资料显示,WSE-3依然是采用了一整张12英寸...……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...库、内部问答数据以及人工标注数据等金融知识进行融合训练调优,实现了全方位的金融知识理解和智能问答应用。图:ChatABC 1.0技术支撑及能力视图二、涵盖事项农业银行AI研发团队深入贯彻落实数字化转型战略,始终保持对...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...提出 LazyLLM 的基础。LazyLLM 的优势包括适用范围广、无需训练、效果好。图 3 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...更多 OpenAI 的开放部分’。回到模型本身,Grok-1 从头开始训练,并且没有针对任何特定应用(如对话)进行微调。相对的,在 X(原 Twitter)上可用的 Grok 大模型是微调过的版本,其行为和原始权重版本并不相同。 Grok-1 的模型...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
...的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进...……更多
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...大人工智能基础模型迫在眉睫。智谱AI于2020年底研发GLM预训练架构,三年多来始终坚持全自研路线,新一代基座大模型GLM-4是智谱 AI专注于大模型创新的最新成果。智谱 AI愿与人工智能行业所有的参与者、产业链上下游合作伙伴...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
智谱AI发布基座大模型GLM-4,发起大模型开源基金
...杂的方程或微积分求解。 智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型Cha...……更多
oppo首个端侧应用70亿参数大模型findx7系列
...道面向快速发展的大模型技术,OPPO继在ODC正式推出自主训练的大模型——AndesGPT之后,此次也宣布将在FindX7系列上实现行业首个端侧应用的70亿参数的模型,通过高精度4bit量化等模型压缩,推理引擎的加速,以及与芯片平台深度...……更多
一块GPU都没用,苹果自研大模型干翻GPT-4?
...FM-server,尚未公布模型参数。报告首次对AFM的模型架构、训练数据、训练过程、推理优化及评估结果进行了解读,并提到背后模型的训练采用的是累计10240颗谷歌TPU,而未提及英伟达GPU。根据论文描述,苹果自研大模型在指令遵...……更多
Sora未开放课先火 选课当心被割韭菜
...正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要与现实世界交互的问题。” 实际上,Sora并非是世界上第一个“文生视频”大模型,但是为何它受到了诸多关注?根据其公布的数十个视频案例...……更多
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。今年1月,Meta和NYU的团队就提出了语言模型的...……更多
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
...此外,CogVideo 根据文本描述生成 3D 环境,可直接利用预训练模型,避免了昂贵的训练,它也支持中文的 Prompt 输入。本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计...……更多
OpenAI发布首个文生视频模型Sora,网友:工作要丢了!
...示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,...……更多
腾讯钟学丹:人工智能成为汽车行业新质生产力 推动数智化升级
...型——混元大模型,达到千亿级参数规模,超2万Tokens预训练语料,是目前国内最大的中文大语言模型之一。前两天,混元团队也带来了最新的图片生成视频模型。基于混元,我们推出了汽车行业大模型,并与十多家车企展开了...……更多
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
...目一新的是,ESM3在自然界中27.8亿个多样化蛋白质上进行训练,逐渐学习到了进化过程如何让蛋白质发生变化。从这个角度来看,ESM的推理过程可以被视为「进化模拟器」,这为当前的生命科学研究开辟了全新的视角。团队甚至...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...EEE Spectrum)大语言模型(LLM)在多大程度上“记住”了其训练输入内容是一直以来广受关注的问题。而最近的实证研究表明,大语言模型在某些情况下的确可以重现或者生成只包含细小差别的训练集内初始文本。例如,Milad Nasr...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。奥特曼表示,虽然 o1 的表现仍然存在缺陷,不过你在第一次使用它的时候仍然会感到震撼。 ...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模型预训练预训练是指,使用数万亿个token数据,从头开始训练LLM的过程,通常使用自监督算法进行训练。最常见...……更多
OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制 | 最前线
...小的视频。这意味着,此前主流范式下的视频生成模型对训练数据有较高的要求,需要将训练数据处理为具有标准大小、裁剪尺寸的视频。Sora的技术报告显示,为了构建Sora,OpenAI创新性地采用了文生图模型DALL-E 3的相关技术:...……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...网友询问到,有没有可能 o1 就着你自己的代码,完成的训练?Kabasares 认为,o1 输出的 200 行代码,与自己 1100 行代码有着很大的不同,这是论文代码「最简版本」。深夜测试,o1 挑战大学、博士物理题为此,Kabasares 又发了第二...……更多
百度文心大模型4.0技术进展
...文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。文心一言的基础模型5月升级至文心大模型3....……更多
更多关于科技的资讯:
中国化学三化建承建的中煤榆林煤炭深加工基地项目空分装置首台大件设备吊装就位
本文转自:人民网-安徽频道近日,中国化学工程第三建设有限公司承建的中煤榆林煤炭深加工基地项目空分装置首台大件设备水冷塔成功吊装就位
2024-12-26 11:07:00
节日经济下消费兼具理性与个性
□ 本报记者 闫 利 文/摄据相关媒体报道,新年将至,饿了么上“平安果”“蛋糕”“花束”等热门礼物的外卖搜索量周环比增长均超过8倍
2024-12-26 11:18:00
新年换新衣 你的“掌中时尚”准备好了吗?
□ 本报综合整理填充羽绒的棉服壳、印有新年日历的液态壳、写满诗词的国风壳……随着2025年的临近,年轻人的消费方式和生活方式正在悄然变化
2024-12-26 11:18:00
电商平台手机壳消费观察:多样化需求推动五大款式热销
当前,电商平台上手机壳的热销趋势呈现出多样化特点。2024年1月至7月,电商平台手机壳销售数量排名前五的分别是具有装饰性的手机壳
2024-12-26 11:19:00
智能手表不建议乱买,几乎零差评的“四”款智能手表深度评选解析
近些年来,智能手表的需求态势呈现出井喷式的剧增,已然从起初仅供“科技爱好者”拥有的专属物件,逐步演变为众多人士日常生活里不可或缺的必需品
2024-12-26 11:26:00
大电视取代投影仪上位、排队买Chiikawa…… 追求便捷、高效、有个性化体验的生活都说最近两年的流行消费是“买平替”
2024-12-26 11:36:00
董明珠称躺平不能怪年轻人 是家长太溺爱了
快科技12月26日消息,近日,格力电器董事长董明珠做客了新浪《珍知酌见栏目》,与新浪财经CEO邓庆旭对话谈及了对年轻人“躺平”这个话题的理解
2024-12-26 11:37:00
小红点没了!联想全新ThinkPad X9系列笔记本曝光
快科技12月26日消息,联想ThinkPad系列一直都有着经典的“小红点”,但最新曝光的ThinkPad X9系列笔记本却似乎打破了这一传统
2024-12-26 11:37:00
阿塞拜疆客机迫降坠毁 该机型曾多次发生事故:1起在中国
快科技12月26日消息,昨日,阿塞拜疆航空公司一架从首都巴库飞往俄车臣共和国首府格罗兹尼的J2-8243客机在哈萨克斯坦阿克套机场坠毁
2024-12-26 11:37:00
小米携手理想汽车,开启充电补能网络合作
12月25日,小米汽车官方宣布,小米汽车携手理想汽车,开启充电补能网络合作。6000+理想充电桩入驻小米充电地图,部分充电桩支持小米汽车APP扫码充电
2024-12-26 11:40:00
九测科技丨酒精测试仪赋能建筑工地入口,推动安全管理迈向新高度
在日新月异的城市化进程中,建筑工地作为城市建设的核心战场,其安全管理的重要性不言而喻。然而,传统的管理手段在面对复杂多变的工地环境时
2024-12-26 11:44:00
手机厂商明年将大量应用超低反镀膜最新一代方案
12月25日,据博主@定焦数码爆料,手机厂商明年将大量应用超低反镀膜最新一代方案。他认为超低反镀膜对手机长焦微距非常重要
2024-12-26 11:44:00
大厂年终奖全靠“开盲盒”?京东打破行规
忙了一年的“职场牛马”们,就盼着年底靠年终奖“回血”一波。岁末之际,各家年终奖浮出水面。先冲上热搜的是,12月23日一早京东发布的年终奖发放方案
2024-12-26 11:51:00
酷骑智能车把,“一” 即是全,一把解决所有配件
在科技浪潮汹涌澎湃的当下,骑行领域正经历着智能化的深刻变革。酷骑,年轻人更喜欢的自行车品牌,在科技创新前沿阵地深圳出发
2024-12-26 12:00:00
4大亮点!告诉你紫外线杀菌箱为何选三思照明!
由于众多流行性疾病的潜在威胁,大家对家居消毒的重视大幅提升,尤其是对日常会亲密接触的物品。专注LED技术创新31年的三思照明
2024-12-26 12:00:00