• 我的订阅
  • 头条热搜
16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次
快科技7月29日消息,如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。Meta在报告中披露,为了训练自己的Llama ...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。同时,Llama 3 在广泛的行业...……更多
AI与人争资源怎么破解
...办法缓解AI发展与算力消耗海量资源之间的矛盾?《环球时报》记者就此采访了业内专家。训练AI为何会消耗海量资源随着OpenAI公司发布的聊天机器人ChatGPT的爆红,各国都加快了AI大模型的训练,需要的算力也急速增加。马斯克...……更多
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的应用。关键词:TF-IDF;决策树...……更多
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队探究了在大模型推理时进行计算优化的方法,根...……更多
AI探索宇宙结构新突破!超精准场级模拟,半秒完成冷暗物质仿真
...进行编码的样式参数。研究人员在六维N-body相空间上训练模型,将粒子速度预测为模型位移输出的时间导数,显著提高了训练效率和模型准确性。最终,模拟器在测试数据(训练期间未见过的各种宇宙学和红移)上实现了良好的...……更多
微调大模型,AMD MI300X就够了!跟着这篇博客微调Llama 3.1 405B
随着 AI 模型的参数量越来越大,对算力的需求也水涨船高。比如最近,Llama-3.1 登上了最强开源大模型的宝座,但超大杯 405B 版本的内存就高达 900 多 GB,这对算力构成了更加苛刻的挑战。如何降低算力的使用成本和使用门槛,...……更多
模型即服务,卓世科技MaaS平台 2.0 正式上线
引言:MaaS(ModelasaService,模型即服务)是一种将人工智能算法模型及其相关能力封装成服务,以降低人工智能技术使用门槛、控制应用建设成本、简化系统运维管理复杂度,并提升人工智能技术的综合应用效能的模式。 上新了...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...为什么不使用MoE架构?后训练与RLHF流程是如何进行的?模型评估是如何进行的?我们什么时候可以见到Llama 4?Meta是否会发展agent?恰逢Llama 3.1刚刚发布,Meta科学家就现身播客节目Latent Space,秉持着开源分享的精神,对以上问题...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\\\'24
让大模型能快速、准确、高效地吸收新知识!被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需...……更多
马斯克打脸OpenAI!全球最大模型Grok-1开源
...列长度为8,192个数据单元,以处理更长的上下文信息纽约时报点评道,开源Gork背后的原始代码,是这个世界上最富有的人控制AI未来战斗的升级。Meta CEO扎克伯格刚刚也对Grok做出了评价:“并没有给人留下真正深刻的印象,3140亿...……更多
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键
...一新兴的前沿领域还鲜少有人涉足,但绝对值得深耕!AI模型再扩展1000倍的秘密可能就藏在这里。随着Scaling Law越来越成功,LLM的电力和算力消耗也逐渐达到了惊人程度。我们越来越难以想象,当前的模型规模如何能再扩大10倍...……更多
美AI巨头被控秘密“侵吞”数据
...被问及训练数据的来源时,她表示不会透露细节。《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI...……更多
生成式AI的抄袭输出问题值得关注(附图片)
...字逐句照搬训练时“见过”的大段文本。前不久,《纽约时报》向美国曼哈顿联邦法院提起诉讼,指控OpenAI涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。《纽约时报》称其“非法使用”“数百万篇...……更多
苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型
...,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。一大早,人们期待已久的「苹果AI」首个预览版,正式向开发者们推送了!iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1三大系统中,全都植入了苹...……更多
证券时报记者 叶玲珍过去一年多,以ChatGPT为代表的生成式AI(人工智能)技术狂飙突进,各路科技巨头争相入局,试图在技术演进、应用落地风口抢占更多话语权,“百模大战”已然打响。本期“中国智造面对面”走进科大讯...……更多
ibm开源“最先进”和高性能的granite代码模型
...BM现已开源其“最先进”和高性能的Granite(花岗岩)代码模型。IT之家附开源链接如下:GitHub:点此进入HuggingFace:点此进入Granite代码模型的参数范围从3B到34B,并且有基础模型和指令跟随模型两种变体,适用于复杂应用现代化...……更多
本文转自:北京日报崔文佳去年年末,美国《纽约时报》起诉微软和OpenAI侵犯其版权。半个多月来,这一消息不仅为“吃瓜群众”津津乐道,也引发相关行业人士的关注。这场争端显示出传媒业与AI技术的复杂关系,值得全社会...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
德国OpenAI加入开源大战!发布欧洲纯血版模型,曾获博世和惠普投资
...VentureBeat报道,德国AI创企Aleph Alpha今日发布了两个大语言模型(LLM)。这两个模型各拥有70亿个参数,可以在多种欧洲语言中提供简洁、长度可控的响应,并已开源。该公司宣称,其模型的性能可以与其他在70亿到80亿参数量级的...……更多
摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高强度训练测试。整个训练过程用时一周,训练...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
... checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...了30.07%问题的成绩夺得榜首。(SWE-Bench是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的最大增幅——57%!至于Genie的实际效果,用团队的话来说就是:它可以做到像...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类...……更多
高文院士:鹏城实验室已训练3个大模型,今年底将拥有两万多块卡
...城实验室主任高文发表演讲,分享了鹏城实验室在打造大模型平台上的进展。他表示,大模型训练首先需要一个平台。“现在要想训练一个大模型,需要有几千块卡,甚至上万块卡。”他介绍到,鹏城实验室在2020年就搭建了这...……更多
类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生...……更多
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。在多个权威评测中,元象MoE效果大幅超越多...……更多
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。大模型时代...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机构向北京商报记者透露了自研大模型...……更多
更多关于科技的资讯:
苹果iphone17系列样机曝光:背部三摄排列不变
1月2日,数码博主@数码闲聊站透露了苹果iPhone17系列样机的一些细节。他说,新机背部设计引入了一个横向的大矩阵玻璃装饰
2025-01-03 10:44:00
大模型行业资本暗流涌动,10亿元融资成入局门槛?
2024年,大模型发展势头依旧强劲,能力边界不断突破,不仅强化了自然语言处理能力,还在文生视频、辅助编程、数学推理等复杂领域攻城略地
2025-01-03 10:45:00
又添5城!万师傅“当日装”服务深度赋能行业提速
近日,万师傅“当日装”服务新增上线成都、杭州、南京、苏州、天津5座城市,覆盖家具、卫浴领域等多个品类,即时解决用户紧急安装需求
2025-01-03 10:45:00
鑫住工乡墅全面升级供应链,打造全渠道高效建材方案
随着供应链全渠道时代的到来,市场需求变动迅速,企业要想在激烈的竞争中脱颖而出,必须具备强大的供应链整合能力。 (鑫住工乡墅&
2025-01-03 10:45:00
解锁海创汇2024关键词——自生长、赋能、未来
本文转自:人民网-山东频道时光流转,2024年已然落下帷幕。这一年,是科技迅速更迭与创新力量涌现的年份。置身于这一变革大潮中
2025-01-03 11:03:00
华为云HCDG城市行2024全国收官之作桂林站圆满结束
本文转自:人民网-广西频道参会人员合影。华为云供图2024年12月29日,华为云HCDG城市行·桂林站——“鸿蒙开启国产操作系统新纪元与开发者的新机遇”技术沙龙在桂林华为信息产业生态合作区青网科技园圆满举办
2025-01-03 11:05:00
巅峰一号避孕套:品质之巅,愉悦之源
巅峰一号避孕套:品质之巅,愉悦之源在两性健康领域,避孕套一直是备受关注的重要产品。而巅峰一号避孕套以其卓越的品质、独特的设计和出色的性能
2025-01-03 11:06:00
美媒:无需连接手机即可干预吸烟行为,智能手表应用程序成“戒烟助手”
本文转自:环球时报【环球时报综合报道】据雅虎新闻网1日报道,一款新开发的智能手表应用程序将成为“戒烟助手”,无需连接手机就能进行自动提醒
2025-01-03 11:07:00
本文转自:人民网人民网北京1月3日电 (记者许维娜)记者从国家数据局了解到,为凝聚广泛共识,推动数据领域相关知识的规范普及
2025-01-03 11:13:00
用生态产业链助力家装行业 共同走进AI时代
□ 本报记者 陆 俊2024第十届土巴兔生态大会近日在四川成都隆重开幕。2024年的土巴兔生态大会以“数智驱动 生态共赢”为主题
2025-01-03 11:13:00
合资轿车价格崩了!广汽本田雅阁裸车已降到11万多
快科技1月3日消息,据懂车帝报道,广汽本田4S店销售向其介绍,最低配的本田雅阁指导价17.98万元,现在优惠6万多元,优惠完裸车价只要11万多
2025-01-03 11:14:00
美国一小型飞机撞上建筑物:现场升起蘑菇云 已致2死多伤
快科技1月3日消息,据报道,当地时间1月2日,美国加利福尼亚州,一架小型飞机坠毁致两人死亡数十人受伤。事发时监控显示,一架小型飞机快速坠落至建筑物房顶
2025-01-03 11:14:00
让更多人“当狗”:日本扮狗男子建立扮狗动物园
快科技1月3日消息,据《纽约邮报》近日报道,日本男子托科此前花了200万日元(约合人民币10万元)定制真人大小的牧羊犬布偶装
2025-01-03 11:14:00
□ 双 木近年来,全球经济形势复杂多变,国内处于结构调整转型的关键期,同时受到房地产低迷的影响,厨电产业发展面临着一定的压力
2025-01-03 11:14:00
清华大学:92%毕业生在国内工作 出国深造的大多数已回国
1月3日消息,近日,2024届清华毕业生就业数据新鲜出炉,揭示了这一届学子的职业选择趋势与动向。根据官方数据,2024届清华毕业生中
2025-01-03 11:14:00