• 我的订阅
  • 头条热搜
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
只要改一行代码,就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性...……更多
全球首位AI程序员爆火,背后公司成立仅4个月,CEO才27岁
...我们接下来就来一探究竟。自主写代码,Debug还能“自己训练自己”首先,这位AI程序员长什么样?在演示视频中,Devin最开始拥有一个左右窗口并列的布局:左边是当前大语言模型们的经典UI,可以通过下方的对话框与Devin沟通...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据集中编码了人类推理的完整过程,包括...……更多
炒菜、做家务的开源机器人来了,斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元
...是一种用于双手遥控操作的低成本开源硬件系统,解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。值得一提的是,Mobile Aloha 能实现以上操作,并非完全自主,其全身也支持远程操作。得益于生成模...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高...……更多
百度文心大模型4.0技术进展
...文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。文心一言的基础模型5月升级至文心大模型3....……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
【新智元导读】太戏剧了!攻击字节训练集群的实习生,居然刚刚获得了NeurIPS 2024最佳论文奖?虽然看起来像爽文剧情,但这位高材生接下来的路,应该是难走了。刚刚,恶意攻击字节训练集群的实习生田柯宇,获得了NeurIPS 202...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
字节跳动实习生投毒自家大模型:全删了
10月19日,字节跳动大模型训练遭实习生攻击一事引发广泛关注。据多位知情人士透露,字节跳动某技术团队在今年6月遭遇了一起内部技术袭击事件,一名实习生因对团队资源分配不满,使用攻击代码破坏了团队的模型训练任务...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。文章内容称,如果AI要以目前的速度发展下去,它将需要半导体产业做出更多贡献。1...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...口气发布6款大模型、预告2款大模型,还推出3nm第三代AI训练芯片Trainum3及其迄今最强AI服务器Trn2 UltraServer。这是Amazon Nova系列基础模型首次亮牌。包括Micro、Lite、Pro、Premier四个版本的语言模型,还有图像生成模型Canvas、视频生成.……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...之前,他们就已开展了相关技术的独创性探索与实践:在训练数据侧,在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。...……更多
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...目便开源了。LLaMA版o1最新进展目前已开源内容包括:预训练数据集、 预训练模型、强化学习训练代码。OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...5月29日发布了一个多模态大模型Llama3-V,声称只花500美元训练,就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现,该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模型有不少相似处,而且没有任何相关...……更多
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
...根据任务的难度动态自动选择最合适的专家网络组合——训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。另外,之前有一些传言称国内大模...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击,对此,字节跳动10月19日回应表示,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为且已被辞退,但相关报道也存在部分夸大及失实信息...……更多
多个中国团队斩获EMNLP\\\'24最佳论文!UCLA华人学者中三篇杰出论文
...了一个新的数据集和方法,用于检测给定文本是否为LLM预训练数据的一部分,有助于提高LLM训练数据透明度。EMNLP’24今年收录论文总共2978篇,比去年增长5%,其中2455篇主会议论文,523篇workshop论文。除最佳论文外,杰出论文也...……更多
前实习生篡改代码攻击大模型训练 字节跳动起诉要求赔偿800万元
...字节跳动起诉前实习生田柯宇篡改代码攻击公司内部模型训练一案,已获北京市海淀区人民法院正式受理。字节跳动请求法院,判令田柯宇赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。11月5日,字节跳动曾发布...……更多
入职一年半,这个AI员工晋升为了国内首位AI架构师
...型提供动力,前不久刚刚升级到 4.0 Turbo 版本。通过更大训练数据体量、更优数据分布与质量、更强训练算法,文心大模型在理解、逻辑推理层面再次跃升。可以说,更强大文心大模型为文心快码的又一次「变身」提供了理论上...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...美元,计划建立全球性的半导体晶圆厂网络,以应对GPT-5训练中的芯片短缺问题。GPT-5预计需要5万张H100芯片。为了获得算力基础设施的独立性,OpenAI决定不再依赖英伟达,而是自行建立AI芯片生产线。Altman担心,随着AI技术的普...……更多
马斯克擎天柱大将跳槽,在抱抱脸开源一套机器人技术:会做家务的大白,复刻低至1800
...amazing刷屏了。所以,这个开源机器人,究竟如何而来?训练只用2个小时完成这些动作的,是花粉机器人公司最新的机器人Reachy2。不过,Reachy2并不是一开始就实现自主操作的,而是先经历了一段遥控操作的过程。该阶段中,开...……更多
算子开发到推理加速,一位00后开发者的“升级打怪”之旅
...算架构CANN主线,参与开发的深度学习框架降低了大模型训练的门槛,目前正在做大模型分布式推理加速,希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里,像郑辉这样为大模型浪潮默默贡献自己...……更多
一行代码训练成本再降30%,AI大模型混合精度训练再升级
...的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级,支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多
阿里前副总裁贾扬清吐槽国产大模型“套壳”,李开复公司回应称有借鉴公开成果
...包括13B、65B等。不过,业内的怀疑对象指向刚发布首款预训练大模型Yi-34B的零一万物,其是李开复在今年7月入局AI大模型新成立的公司,由李开复牵头创办并担任CEO。搜狐科技注意到,零一万物开源发布的Yi-34B模型目前在Hugging F...……更多
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点
...正常物理现象。为此,PhysVLM在专门整理的一套数据集上训练,包括用于评估的PhysGame benchmark、用于监督微调的PhysInstruct数据集和用于偏好对齐的PhysDPO数据集。PhysGame benchmark 设计如图所示, PhysGame包含880个含有故障现象的……更多
百度CTO王海峰:文心大模型的底色和成色
...惑:“团队基于更大的算力、更多的数据和更强的算法,训练出来规模更大、效果更好的文心大模型4.0。”升级:算力更大、数据更多、算法更强王海峰坦言,文心大模型4.0的基本技术架构与文心大模型3.0和3.5版本一脉相承,升...……更多
更多关于科技的资讯:
齐鲁晚报·齐鲁壹点 闫丽君 邵舒琨1月26日,烟台市人民政府新闻办公室召开“一路山海·烟台购 2025烟台市惠民消费券”活动新闻发布会
2025-01-26 17:02:00
男子眼球内捉出4条蠕动线虫:左眼曾飞进去过一只苍蝇
1月26日消息,据媒体报道,浙江的杨先生到医院就诊,他感觉左眼里有虫子在钻。医生翻开病人上睑发现数条正在蠕动的白色寄生虫
2025-01-26 17:05:00
精心部署确保网络畅通,东营联通助力春晚圆满举行
近日,随着欢声笑语的弥漫,垦利区春节联欢晚会如期拉开帷幕。在这场文化盛宴的背后,东营联通垦利区分公司提前筹划、精心保障
2025-01-26 17:11:00
没用D加密:《忍者龙剑传2:黑之章》PC版发售日就被攻破
之前在Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2 黑之章》正式公布。随后该作上架Steam并发售,售价298元
2025-01-26 17:36:00
大众网记者 张姝涵 兰帅 泰安报道岁末年初,让我们一起了解常见的非法金融活动手段,守住“钱袋子”,过好幸福年!(一)承诺高额回报
2025-01-26 18:03:00
2025国补增加手机数码 山东苏宁易购迎来年前换机高峰
鲁网1月26日讯1月23日,济南等地市家电手机数码国家补贴正式上线,国补指定卖场苏宁易购全面承接,12类家电单台国补至高2000元
2025-01-26 18:07:00
平安人寿聊城中支举办社区金融内推会宣讲会
为快速搭建平安人寿聊城中支社区金融管理层队伍,确保社区金融队伍高质量发展,平安人寿聊城中支于1月8日在聊城中支职场召开平安社区金融内推会
2025-01-26 18:14:00
潮声丨义乌“走播”,走出了啥?
“走播”主播 义乌市委宣传部供图“世界的义乌”,正在不知不觉间发生变化。眼下,随着新一轮国际贸易改革启动,义乌正在深化市场采购贸易改革
2025-01-26 18:45:00
运营商“二次号码”一键解绑已上线 覆盖150款互联网应用
中国消费者报北京讯(记者武晓莉)工业和信息化部近日通告2024年第四季度电信服务质量情况。数据显示,2024年线上办理业务量超九成
2025-01-26 19:12:00
周鸿祎宣布抽送100辆国产新能源车 车型网友决定!
周鸿祎送车一事今天迎来最新进展。1月26日中午,周鸿祎在个人微博宣布,将抽送100辆国产新能源汽车。周鸿祎在微博中表示
2025-01-26 19:36:00
美联航一波音787客机空中严重颠簸:6人受重伤
1月26日消息,海外媒体近日报道,本月24日,美联航一架从拉各斯飞往华盛顿的波音787客机在飞行途中发生严重颠簸事件,导致多名旅客及机组成员轻伤
2025-01-26 19:36:00
曝雷军亲自面谈高级别汽车研发人员 有时早上8点面试
小米能有今天的成就,在科技和汽车等领域全面开花,可以说离不开雷军对人才的成功招揽。据了解,在小米汽车业务上,雷军对于招聘工作更是亲力亲为
2025-01-26 19:06:00
京东快递深圳口岸自提点开业:香港用户下单后 口岸自提
快科技1月26日消息,据京东物流介绍,为方便香港市民购物,京东近期在港澳下调了运费门槛,香港消费者满188元即可享受免运费送货上门
2025-01-26 19:06:00
猜猜是谁:美国科技界亿万富豪1.39亿英镑买下伦敦白宫
快科技1月26日消息,近日,位于伦敦摄政公园内的“伦敦白宫”(The Holme)以1.39亿英镑(约合人民币12.6亿元)的价格售出
2025-01-26 19:06:00