• 我的订阅
  • 头条热搜
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
只要改一行代码,就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers。在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。...……更多
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性...……更多
全球首位AI程序员爆火,背后公司成立仅4个月,CEO才27岁
...我们接下来就来一探究竟。自主写代码,Debug还能“自己训练自己”首先,这位AI程序员长什么样?在演示视频中,Devin最开始拥有一个左右窗口并列的布局:左边是当前大语言模型们的经典UI,可以通过下方的对话框与Devin沟通...……更多
最强AI程序员砸饭碗:84秒跑通代码 像人一样思考
...自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的AI模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据集中编码了人类推理的完整过程,包括...……更多
炒菜、做家务的开源机器人来了,斯坦福华人开发、Transformer 架构驱动、造价 3.2 万美元
...是一种用于双手遥控操作的低成本开源硬件系统,解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。值得一提的是,Mobile Aloha 能实现以上操作,并非完全自主,其全身也支持远程操作。得益于生成模...……更多
国内团队新发大模型:ceo上阵写代码
...源的最大规模大语言模型。此外,团队还一并开源100G预训练数据、监督微调1G或100万条数据。基于TigerBot,开发者在半天内就能打造出自己的专属大模型。目前TigerBot对话AI已邀请内测,开源代码数据等已上传至GitHub(详细链接见...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
...习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的HumanEval得分再多提升10个百分点,最高...……更多
百度文心大模型4.0技术进展
...文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。文心一言的基础模型5月升级至文心大模型3....……更多
惊掉下巴!被字节起诉800万实习生,拿下NeurIPS 2024最佳论文
【新智元导读】太戏剧了!攻击字节训练集群的实习生,居然刚刚获得了NeurIPS 2024最佳论文奖?虽然看起来像爽文剧情,但这位高材生接下来的路,应该是难走了。刚刚,恶意攻击字节训练集群的实习生田柯宇,获得了NeurIPS 202...……更多
「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发
...衡事实性和创造性。”陈烨补充。这样的结果是,机器在训练模型中算力和数据的消耗,会比同等档次模型要小。 针对中文语境,虎博科技从分词器(Tokenizer)到训练算法等方面做了针对性算法优化,使得模型更懂中文指令,...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...上,考虑到大模型和异构多芯发展趋势,为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片,飞桨与文心联合,在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说,动静统一的自动并...……更多
字节跳动实习生投毒自家大模型:全删了
10月19日,字节跳动大模型训练遭实习生攻击一事引发广泛关注。据多位知情人士透露,字节跳动某技术团队在今年6月遭遇了一起内部技术袭击事件,一名实习生因对团队资源分配不满,使用攻击代码破坏了团队的模型训练任务...……更多
AGI一日要闻:台积电预测2040年GPU芯片性能提升1000倍;Scale估值高达130亿美金
...智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。文章内容称,如果AI要以目前的速度发展下去,它将需要半导体产业做出更多贡献。1...……更多
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...口气发布6款大模型、预告2款大模型,还推出3nm第三代AI训练芯片Trainum3及其迄今最强AI服务器Trn2 UltraServer。这是Amazon Nova系列基础模型首次亮牌。包括Micro、Lite、Pro、Premier四个版本的语言模型,还有图像生成模型Canvas、视频生成.……更多
谷歌「诚意之作」,开源9B、27B版Gemma2,主打高效、经济!
...进行了有无注意力logit软封顶的消融实验,发现大多数预训练和后期评估中,生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而,某些下游性能可能仍会受到此移除的轻微影响。 使用R...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
...之前,他们就已开展了相关技术的独创性探索与实践:在训练数据侧,在国内率先开发出大规模合成数据技术;在任务场景侧,新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力,并具备一定的任务泛化性。...……更多
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意...……更多
AI入侵芯片设计,会干掉工程师吗?
...智能来设计自研的人工智能芯片(TPU),从而用来进一步训练更强大的人工智能来设计更下一代的人工智能芯片——这样的正向循环目前看起来至少在谷歌这边已经是初见端倪。 除了谷歌之外,Nvidia在人工智能布局布线技术上...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...目便开源了。LLaMA版o1最新进展目前已开源内容包括:预训练数据集、 预训练模型、强化学习训练代码。OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果...……更多
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...5月29日发布了一个多模态大模型Llama3-V,声称只花500美元训练,就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现,该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模型有不少相似处,而且没有任何相关...……更多
国产大模型竞技场首超GPT-4o!零一万物GLM共同跻身Top10
...根据任务的难度动态自动选择最合适的专家网络组合——训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。另外,之前有一些传言称国内大模...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52……更多
奔腾2 CPU+128MB内存成功运行Llama大模型:速度还挺快
...基本方面是不利的。因此,EXO希望建立开放的基础设施,训练前沿模型,并使任何人在任何地方都能运行它们,这项在Windows 98上的AI演示,展示了即使在资源极其有限的情况下也能完成的事情。EXO Labs在文章中详细描述了在Windows...……更多
该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击,对此,字节跳动10月19日回应表示,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为且已被辞退,但相关报道也存在部分夸大及失实信息...……更多
多个中国团队斩获EMNLP\\\'24最佳论文!UCLA华人学者中三篇杰出论文
...了一个新的数据集和方法,用于检测给定文本是否为LLM预训练数据的一部分,有助于提高LLM训练数据透明度。EMNLP’24今年收录论文总共2978篇,比去年增长5%,其中2455篇主会议论文,523篇workshop论文。除最佳论文外,杰出论文也...……更多
前实习生篡改代码攻击大模型训练 字节跳动起诉要求赔偿800万元
...字节跳动起诉前实习生田柯宇篡改代码攻击公司内部模型训练一案,已获北京市海淀区人民法院正式受理。字节跳动请求法院,判令田柯宇赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。11月5日,字节跳动曾发布...……更多
华人团队爆火instructblip抢跑看图聊天
...究人员首先介绍了指令微调数据的构建,然后则是具体的训练过程。之后,分别从模型和数据的角度阐述了两种提高指令微调性能的技术。为了保证指令微调数据的多样性,同时考虑到它们的可及性,研究人员收集了大量公开可...……更多
入职一年半,这个AI员工晋升为了国内首位AI架构师
...型提供动力,前不久刚刚升级到 4.0 Turbo 版本。通过更大训练数据体量、更优数据分布与质量、更强训练算法,文心大模型在理解、逻辑推理层面再次跃升。可以说,更强大文心大模型为文心快码的又一次「变身」提供了理论上...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...美元,计划建立全球性的半导体晶圆厂网络,以应对GPT-5训练中的芯片短缺问题。GPT-5预计需要5万张H100芯片。为了获得算力基础设施的独立性,OpenAI决定不再依赖英伟达,而是自行建立AI芯片生产线。Altman担心,随着AI技术的普...……更多
马斯克擎天柱大将跳槽,在抱抱脸开源一套机器人技术:会做家务的大白,复刻低至1800
...amazing刷屏了。所以,这个开源机器人,究竟如何而来?训练只用2个小时完成这些动作的,是花粉机器人公司最新的机器人Reachy2。不过,Reachy2并不是一开始就实现自主操作的,而是先经历了一段遥控操作的过程。该阶段中,开...……更多
更多关于科技的资讯:
遭大量嘲讽贬低!EDG发布严正公告:立刻停止侵权行为
日前,EDG官方发布严正公告,表示已委托专业法律机构,对近期在各个网络平台上嘲讽贬低、言语攻击其俱乐部选手的主导侵权用户启动相关法律程序
2025-02-25 18:34:00
vivo注册V单商标:曝vivo X200 Ultra影像比肩专业相机
快科技2月25日消息,天眼查显示,vivo申请注册“V单”商标,目前商标状态是“等待实质审查”。博主数码闲聊站爆料,vivo X200 Ultra走了专业相机的思路
2025-02-25 19:04:00
OpenAI创始人又要引爆生育革命:两个爸爸如何生育一个孩子
就在上周日(2月23日),世界顶级人工智能研究公司OpenAI的创始人山姆·奥尔特曼(Sam Altman)在社交媒体上宣布
2025-02-25 19:04:00
追上华为理想和小鹏 小米全量推送端到端高阶智驾:车位开到车位
快科技2月25日消息,高阶智驾无疑是当前的核心竞争领域,第一梯队玩家华为、小鹏、理想等已经全量推送车位到车位的端到端高阶智驾
2025-02-25 19:04:00
山东空调品牌争霸赛启幕 格力、海尔、美的等品牌谁将脱颖而出?
齐鲁晚报·齐鲁壹点 张召旭 实习生 白杨春意盎然之际,山东空调市场战火再起,各大品牌纷纷亮剑,誓要在三四月份激烈的市场竞争中拔得头筹
2025-02-25 19:38:00
工业人机交互迈入韧性升级时代!益逻科技发布64系列触控显示器
随着工业4.0进程加速与商业智能化需求激增,全球制造业正面临严峻挑战:设备稳定性不足导致产线停机损失年均超百亿美元,传统触控设备在高温
2025-02-25 19:45:00
不推荐买iPhone 16e:看完拔草了
北京时间2月20日凌晨,苹果在万众期待下带来了新品—iPhone 16e,没错,就只有这一款手机,售价为4499元起,将于2月28日正式发售
2025-02-25 20:34:00
消费是拉动社会经济增长的引擎,也是推动高质量发展的重要保障。宁津农商银行聚焦“扩内需、促消费”政策指引,持续打好产品创新和服务优化“组合拳”
2025-02-25 20:52:00
2月25日从晋源区获悉,为进一步激发消费市场活力,近日,太原市总工会、晋源区总工会、晋源区商务局携手京东家电家居,在晋源区万水大市场共同举办工会会员家电普惠活动
2025-02-25 21:01:00
2025款ROG幻14/16 Air笔记本发布:锐龙AI 9 HX 370/Ultra 9-285H双龙会
快科技2月25日消息,2025款ROG幻14/16 Air笔记本今日正式发布,最高可配RTX 5080显卡。2025款ROG幻14 Air笔记本外观方面
2025-02-25 21:04:00
RTX 5090、双雷电5加持!ROG最强显卡扩展坞发布
快科技2月25日消息,今天,华硕正式发布了新一代显卡扩展坞ROG XG Mobile 2025,集成NVIDIA RTX 5090移动版显卡
2025-02-25 21:04:00
【对话民营企业家】贵茶集团的雄心:剑指全球第一
编者按:在新时代的浪潮中,民营企业作为经济发展的中流砥柱,正以蓬勃活力与非凡的创造力,绘制着属于自己的璀璨华章。为深度展现这些企业的魅力
2025-02-25 21:17:00
实力不容小觑!降噪能力更强大的览邦LaiPods Pro+——上手体验
提及降噪耳机,览邦绝对是绕不开的品牌,就在今年2月览邦又更新了览邦LaiPodsPro+降噪耳机,它不仅小巧便携,佩戴舒适
2025-02-25 21:30:00
11999元起!最强全能平板笔记本ROG幻X 2025开卖:ROG枪神9系列也来了
快科技2月25日消息,ROG今晚举办2025新品发布会,正式发布了史上最强的全能笔记本“ROG幻X 2025”,并于今晚22点全渠道正式开卖
2025-02-25 21:34:00
26.35万起!特斯拉焕新版Model Y将于明起开启国内交付
快科技2月25日消息,据悉,特斯拉即将于2月26日开启国内交付焕新Model Y,该车型自1月10日上市以来备受关注。目前官网显示
2025-02-25 21:34:00