训练,模型,团队,速度,代码,华人头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。...……更多

2024-11-28 09:58:00训练,模型,团队,速度,代码,华人

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性...……更多

2024-10-23 09:55:00时序,模型,团队,训练,参数,突破

全球首位AI程序员爆火，背后公司成立仅4个月，CEO才27岁

...我们接下来就来一探究竟。自主写代码，Debug还能“自己训练自己”首先，这位AI程序员长什么样？在演示视频中，Devin最开始拥有一个左右窗口并列的布局：左边是当前大语言模型们的经典UI，可以通过下方的对话框与Devin沟通...……更多

2024-03-15 09:21:00程序员,背后,程序,全球,公司,程序员

最强AI程序员砸饭碗：84秒跑通代码像人一样思考

...自我对弈、逐步验证等方法，还用到了基于大量标记数据训练的AI模型。好处是，当基础模型能力提升时，它们能够提取的数据质量也会相应提高。最终Genie使用该专有数据进行训练。数据集中编码了人类推理的完整过程，包括...……更多

2024-08-13 14:46:00程序员,代码,程序,数据,模型,团队

炒菜、做家务的开源机器人来了，斯坦福华人开发、Transfo

...是一种用于双手遥控操作的低成本开源硬件系统，解决了训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。值得一提的是，Mobile Aloha 能实现以上操作，并非完全自主，其全身也支持远程操作。得益于生成模...……更多

2024-01-06 20:00:00斯坦,斯坦福,造价,机器人,家务,架构

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

...习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的HumanEval得分再多提升10个百分点，最高...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

百度文心大模型4.0技术进展

...文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。文心一言的基础模型5月升级至文心大模型3....……更多

2023-10-18 04:20:00文心,进展,模型,技术,模型,文心

文心大模型4.0 Turbo来了！百度推出文心快码2.5，已

...上，考虑到大模型和异构多芯发展趋势，为了保障大模型训练推理性能、简化大模型开发调优过程以及更好地适配各种芯片，飞桨与文心联合，在训练、推理两个方面定向优化。▲飞桨框架设计理念具体来说，动静统一的自动并...……更多

2024-07-01 09:21:00文心,快码,程序员,模型,程序,文心

字节跳动实习生投毒自家大模型：全删了

10月19日，字节跳动大模型训练遭实习生攻击一事引发广泛关注。据多位知情人士透露，字节跳动某技术团队在今年6月遭遇了一起内部技术袭击事件，一名实习生因对团队资源分配不满，使用攻击代码破坏了团队的模型训练任务...……更多

2024-10-19 08:21:00实习生,字节,模型,实习,实习生,实习

AGI一日要闻：台积电预测2040年GPU芯片性能提升100

...智能应用都归功于三个因素：高效机器学习算法的创新、训练神经网络的大量数据的可用性，以及通过半导体技术的进步实现节能计算的进步。文章内容称，如果AI要以目前的速度发展下去，它将需要半导体产业做出更多贡献。1...……更多

2024-03-31 04:00:00估值,美金,要闻,芯片,高达,性能

谷歌「诚意之作」，开源9B、27B版Gemma2，主打高效、

...进行了有无注意力logit软封顶的消融实验，发现大多数预训练和后期评估中，生成质量几乎不受影响。本文中的所有评估均使用包含注意力logit软封顶的完整模型架构。然而，某些下游性能可能仍会受到此移除的轻微影响。使用R...……更多

2024-06-29 09:37:00诚意,经济,模型,训练,性能,注意力

Llama3.1训练平均3小时故障一次，H100万卡集群好脆

每3个小时1次、平均1天8次，Llama 3.1 405B预训练老出故障，H100是罪魁祸首？最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点：Llama 3.1在为期54天的预训练期间，经历了共466次任务中断。其中只有47次是计划内的，419次纯属意...……更多

2024-07-30 09:38:00万卡,集群,故障,脆弱,训练,小时

Llama版o1来了，来自上海AI Lab，强化学习代码已开

...目便开源了。LLaMA版o1最新进展目前已开源内容包括：预训练数据集、预训练模型、强化学习训练代码。OpenLongCoT-Pretrain数据集，包含10万+条长思维链数据。每条数据包含一个完整的数学问题推理过程，包含思考内容和评分结果...……更多

2024-11-06 09:49:00上海,代码,学习,训练,模型,蒙特卡洛

斯坦福AI团队抄袭国产大模型？连识别“清华简”都抄了！清华系

...5月29日发布了一个多模态大模型Llama3-V，声称只花500美元训练，就能实现在多个基准测试中比肩GPT-4的性能。但很快有人发现，该模型跟清华系大模型创企面壁智能5月发布的MiniCPM-Llama3-V 2.5模型有不少相似处，而且没有任何相关...……更多

2024-06-04 14:35:00清华,斯坦,斯坦福,团队,模型,抄袭

国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身To

...根据任务的难度动态自动选择最合适的专家网络组合——训练过程中会激活所有专家网络，使模型能学习到所有专家知识；而推理阶段，根据任务的难度，模型会选择性激活更匹配的专家网络。另外，之前有一些传言称国内大模...……更多

2024-10-17 09:48:00竞技场,万物,模型,国产,竞技,模型

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52……更多

2024-11-06 09:41:00模型,腾讯,全家,生成,同时,语言

大模型训练被实习生攻击？字节跳动回应：已辞退

该实习生已在8月被辞退。近日有传闻称字节跳动大模型训练被实习生攻击，对此，字节跳动10月19日回应表示，经公司内部核实，确有商业化技术团队实习生发生严重违纪行为且已被辞退，但相关报道也存在部分夸大及失实信息...……更多

2024-10-19 21:50:00实习生,字节,模型,实习,攻击,训练

$多个中国团队斩获EMNLP\\\'24最佳论文！UCLA华人学者中三篇杰出论文$