...论文亚军(Best Paper Runner-up):由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是预训练所需的), Zhenghao Lin 和 Zhibin Gou(……更多
...iv 发表,题目为《优化大语言模型测试时计算比扩大模型参数更高效》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)[2]。论文作者包括:美国加州大学伯克利分……更多