训练,模型,团队,速度,代码,华人头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

全球首位AI程序员爆火，背后公司成立仅4个月，CEO才27岁

...我们接下来就来一探究竟。自主写代码，Debug还能“自己训练自己”首先，这位AI程序员长什么样？在演示视频中，Devin最开始拥有一个左右窗口并列的布局：左边是当前大语言模型们的经典UI，可以通过下方的对话框与Devin沟通...……更多

2024-03-15 09:21:00程序员,背后,程序,全球,公司,程序员

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...自我对弈、逐步验证等方法，还用到了基于大量标记数据训练的AI模型。好处是，当基础模型能力提升时，它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据集中编码了人类推理的完整过程，包括...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transfo

...是一种用于双手遥控操作的低成本开源硬件系统，解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。值得一提的是，Mobile Aloha 能实现以上操作，并非完全自主，其全身也支持远程操作。得益于生成模...……更多

2024-01-06 20:00:00斯坦,斯坦福,造价,机器人,家务,架构

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的HumanEval得分再多提升10个百分点，最高...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

百度文心大模型4.0技术进展

...文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。文心一言的基础模型5月升级至文心大模型3....……更多

2023-10-18 04:20:00文心,进展,模型,技术,模型,文心

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 20

【新智元导读】太戏剧了！攻击字节训练集群的实习生，居然刚刚获得了NeurIPS 2024最佳论文奖？虽然看起来像爽文剧情，但这位高材生接下来的路，应该是难走了。刚刚，恶意攻击字节训练集群的实习生田柯宇，获得了NeurIPS 202...……更多

2024-12-05 09:47:00实习生,下巴,字节,实习,论文,模型

文心大模型4.0 Turbo来了！百度推出文心快码2.5，已

...上，考虑到大模型和异构多芯发展趋势，为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片，飞桨与文心联合，在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说，动静统一的自动并...……更多

2024-07-01 09:21:00文心,快码,程序员,模型,程序,文心

字节跳动实习生投毒自家大模型：全删了

10月19日，字节跳动大模型训练遭实习生攻击一事引发广泛关注。据多位知情人士透露，字节跳动某技术团队在今年6月遭遇了一起内部技术袭击事件，一名实习生因对团队资源分配不满，使用攻击代码破坏了团队的模型训练任务...……更多

2024-10-19 08:21:00实习生,字节,模型,实习,实习生,实习

AGI一日要闻：台积电预测2040年GPU芯片性能提升100

...智能应用都归功于三个因素：高效机器学习算法的创新、训练神经网络的大量数据的可用性，以及通过半导体技术的进步实现节能计算的进步。文章内容称，如果AI要以目前的速度发展下去，它将需要半导体产业做出更多贡献。1...……更多

2024-03-31 04:00:00估值,美金,要闻,芯片,高达,性能

亚马逊连甩6款大模型！推出3nm AI训练芯片，最强AI服务

...口气发布6款大模型、预告2款大模型，还推出3nm第三代AI训练芯片Trainum3及其迄今最强AI服务器Trn2 UltraServer。这是Amazon Nova系列基础模型首次亮牌。包括Micro、Lite、Pro、Premier四个版本的语言模型，还有图像生成模型Canvas、视频生成.……更多

2024-12-05 09:47:00亚马,亚马逊,芯片,模型,训练,服务器

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

上海AI实验室版o1已上线！数学题、Leetcode全拿下，

...之前，他们就已开展了相关技术的独创性探索与实践：在训练数据侧，在国内率先开发出大规模合成数据技术；在任务场景侧，新模型在数学、代码、推理谜题等多种场景都能体现出较强的推理能力，并具备一定的任务泛化性。...……更多

2024-11-29 09:27:00数学题,上海,实验室,实验,数学,模型

Llama3.1训练平均3小时故障一次，H100万卡集群好脆

每3个小时1次、平均1天8次，Llama 3.1 405B预训练老出故障，H100是罪魁祸首？最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点：Llama 3.1在为期54天的预训练期间，经历了共466次任务中断。其中只有47次是计划内的，419次纯属意...……更多

2024-07-30 09:38:00万卡,集群,故障,脆弱,训练,小时

Llama版o1来了，来自上海AI Lab，强化学习代码已开

...目便开源了。LLaMA版o1最新进展目前已开源内容包括：预训练数据集、预训练模型、强化学习训练代码。OpenLongCoT-Pretrain数据集，包含10万+条长思维链数据。每条数据包含一个完整的数学问题推理过程，包含思考内容和评分结果...……更多

2024-11-06 09:49:00上海,代码,学习,训练,模型,蒙特卡洛

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...5月29日发布了一个多模态大模型Llama3-V，声称只花500美元训练，就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现，该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模型有不少相似处，而且没有任何相关...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...根据任务的难度动态自动选择最合适的专家网络组合——训练过程中会激活所有专家网络，使模型能学习到所有专家知识；而推理阶段，根据任务的难度，模型会选择性激活更匹配的专家网络。另外，之前有一些传言称国内大模...……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

大模型训练被实习生攻击？字节跳动回应：已辞退

该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击，对此，字节跳动10月19日回应表示，经公司内部核实，确有商业化技术团队实习生发生严重违纪行为且已被辞退，但相关报道也存在部分夸大及失实信息...……更多

2024-10-19 21:50:00实习生,字节,模型,实习,攻击,训练

$多个中国团队斩获EMNLP\\\'24最佳论文！UCLA华人学者中三篇杰出论文$

多个中国团队斩获EMNLP\'24最佳论文！UCLA华人学者

...了一个新的数据集和方法，用于检测给定文本是否为LLM预训练数据的一部分，有助于提高LLM训练数据透明度。EMNLP’24今年收录论文总共2978篇，比去年增长5%，其中2455篇主会议论文，523篇workshop论文。除最佳论文外，杰出论文也...……更多

2024-11-18 09:59:00论文,中国,学者,多个,团队,华人

前实习生篡改代码攻击大模型训练字节跳动起诉要求赔偿800万

...字节跳动起诉前实习生田柯宇篡改代码攻击公司内部模型训练一案，已获北京市海淀区人民法院正式受理。字节跳动请求法院，判令田柯宇赔偿公司侵权损失800万元及合理支出2万元，并公开赔礼道歉。11月5日，字节跳动曾发布...……更多

2024-11-28 12:31:00实习生,字节,模型,实习,攻击,训练

入职一年半，这个AI员工晋升为了国内首位AI架构师

...型提供动力，前不久刚刚升级到 4.0 Turbo 版本。通过更大训练数据体量、更优数据分布与质量、更强训练算法，文心大模型在理解、逻辑推理层面再次跃升。可以说，更强大文心大模型为文心快码的又一次「变身」提供了理论上...……更多

2024-08-09 09:37:00年半,晋升,架构,员工,快码,文心

Sam Altman或筹数十亿美元自造AI芯片，DeepMi

...美元，计划建立全球性的半导体晶圆厂网络，以应对GPT-5训练中的芯片短缺问题。GPT-5预计需要5万张H100芯片。为了获得算力基础设施的独立性，OpenAI决定不再依赖英伟达，而是自行建立AI芯片生产线。Altman担心，随着AI技术的普...……更多

2024-01-29 09:20:00首席,科学家,芯片,创业,科学,模型

马斯克擎天柱大将跳槽，在抱抱脸开源一套机器人技术：会做家务的

...amazing刷屏了。所以，这个开源机器人，究竟如何而来？训练只用2个小时完成这些动作的，是花粉机器人公司最新的机器人Reachy2。不过，Reachy2并不是一开始就实现自主操作的，而是先经历了一段遥控操作的过程。该阶段中，开...……更多

2024-06-11 13:57:00马斯,马斯克,擎天柱,大白,大将,机器人

算子开发到推理加速，一位00后开发者的“升级打怪”之旅

...算架构CANN主线，参与开发的深度学习框架降低了大模型训练的门槛，目前正在做大模型分布式推理加速，希望可以帮助其他开发者在生产环境中高效部署在线推理服务。在昇腾AI的生态里，像郑辉这样为大模型浪潮默默贡献自己...……更多

2024-04-27 19:00:00开发,算子,开发者,推理,之旅,升级

一行代码训练成本再降30%，AI大模型混合精度训练再升级

...的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。仅...……更多

2024-09-26 13:34:00训练,精度,一行,混合,模型,成本

阿里前副总裁贾扬清吐槽国产大模型“套壳”，李开复公司回应称有

...包括13B、65B等。不过，业内的怀疑对象指向刚发布首款预训练大模型Yi-34B的零一万物，其是李开复在今年7月入局AI大模型新成立的公司，由李开复牵头创办并担任CEO。搜狐科技注意到，零一万物开源发布的Yi-34B模型目前在Hugging F...……更多

2023-11-14 17:11:00李开复,扬清,阿里,副总,模型,成果

游戏bug帮大模型学物理！准确率超GPT4o近4个百分点

...正常物理现象。为此，PhysVLM在专门整理的一套数据集上训练，包括用于评估的PhysGame benchmark、用于监督微调的PhysInstruct数据集和用于偏好对齐的PhysDPO数据集。PhysGame benchmark 设计如图所示， PhysGame包含880个含有故障现象的……更多

2024-12-07 09:53:00准确率,百分点,百分,模型,物理,视频