正确率,清华,模型,全新,科学,方法头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

【新智元导读】最近，一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后，一个仅80亿参数的小模型，在科学问题上也能和GPT-4o一较高下！或许，单纯地卷AI计算能力并不是唯一的出路。我们都知道，在...……更多

2024-12-03 13:34:00正确率,清华,模型,全新,科学,方法

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

【新智元导读】LLM数学水平不及小学生怎么办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力，成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力，你会怎么做？既...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

北大字节VAR最佳论文、厦大清华亚军，NeurIPS 202

...获得了最佳论文亚军（Best Paper Runner-up）：由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》（并非所有 token 都是预训练所需的）， Zhenghao Lin 和 Zhibin……更多

2024-12-05 09:47:00论文,清华,亚军,字节,北大,模型

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...如果大模型对预测结果表示具有高度自信时，回答结果的正确率也更高，也就是说，大模型完全可以辅助人类做科研新发现。最重要的是，这种方法并不特定于某一个学科，其他知识密集型任务上也可以使用。科研结果预测即使...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...（SAIL）。他在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。同时，他也是李飞飞创业公司World Labs的顾问。参考链接：[1]https://arxiv.org/abs/2411.04998v1[2]https://www.worldlabs.ai/t……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

AI老师上线？专家：通用人工智能将推动教育范式转变

...让通用大模型像学生一样去解答题库里的题目，发现它的正确率非常低；接下来又尝试让通用模型进行模拟题的定制，测试下来发现，通用大模型只能做到模仿题目的形态，在题目的难度、内容和考点设置上都没有办法满足需求...……更多

2024-07-13 09:49:00范式,人工智能,人工,老师,智能,专家

常见电子邮件分类算法的性能分析

...)。从图1可看出，随着训练量(Train examples)的增大，训练集正确率下降，测试集正确率上升，最后稳定在0.84左右，准确率一般，但方差较小，具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线，红色线代表测试集(学习过...……更多

2024-08-26 09:59:00性能分析,算法,电子邮件,性能,常见,邮件

将偏好学习引入模型训练，北大李戈团队提出代码生成优化新框架

代码模型SFT对齐后，缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作，在模型训练过程中引入偏好学习，提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上，相比于单独使用SFT，CodeDPO能够将模型的...……更多

2024-11-28 09:57:00代码生成,偏好,框架,北大,生成,模型

科学家推出大模型数据集，涵盖奥赛数学题，有望让AI辅导数学课

...随后，他们开始进行大量的测试。期间发现，如果只使用正确率作为最终的测试结果，并不能完全体现本次算法的优势。由于对大模型的请求是有成本的，所以当算法在使用大模型解决数学问题时，算法会设置一个针对大模型的...……更多

2024-03-13 10:26:00数学,数学题,科学家,模型,辅导,课程

谷歌AlphaFold 3在《自然》杂志刊登：准确率超50%

...歌旗下公司DeepMind创建的基于深度学习的人工智能测序式模型AlphaFold解决了这个问题。北京时间5月8日（周三）晚间，《自然》杂志刊登了DeepMind的AlphaFold团队和伦敦药物研发公司IsomorphicLabs共同署名的论文，介绍了AlphaFold3，这是...……更多

2024-05-12 23:11:00准确率,自然,杂志,结构,蛋白质,蛋白

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

... 800 次互动就能达到稳定效果，并且证据收集能力和推理正确率显著提升。AMOR 及基线方法在微调或不微调时的实验结果实例展示下图比较了 AMOR 和传统的 ReAct 框架（基于 GPT-3.5）分别回答同一问题的推理过程：AMOR（上）和 ReAc...……更多

2024-12-11 09:53:00清华,学徒,蚂蚁,不够,团队,怎么办

火爆全球的Chat GPT，想毁灭人类？

...录，足足有80.3%的准确率，明显好于使用传统方法的74.6%正确率。有趣的是，当研究人员尝试微调（fine-tune，是指通过使用在大数据上预先训练好的模型来初始化自己的模型权重，从而提升精度。自己训练好的模型也可以当做预...……更多

2023-02-01 21:23:00火爆,人类,全球,训练,模型,人类

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...LLM的表现也都全方位超过了人类专家。更重要的是，这些模型被证实对于数据没有明显的记忆。也就是说，它们已经掌握了一般科研的普遍模式，可以做更多的前瞻性（Forward-looking）预测、预测未知的事物。这立马引发科研圈的...……更多

2024-12-02 09:51:00结论,神经,科研,人类,水平,专家

Bengio团队提出多模态新基准，直指Claude 3.5和

...时间、地名、人名的错误，人类在简单难度下的中文平均正确率约为 98.58%，在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误，人类在简单难度的中文下几乎接近满分，而中文困难难度下正确...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？

...，他们设置了三个不同的评估指标，分别是Top-1（第一项正确率）、Top-5（前五项正确率）和Top-max（是否包含正确答案）。在Top-1指标中，o1 mini在约200条数据上的得分是17%。o1得到了25%，而微调后的o1 mini，得到了31%。ChatGPT就此生...……更多

2024-12-09 09:53:00奥特,奥特曼,字节,直播,惊喜,模型

首个o1复现开源RL框架OpenR来了，UCL、上交等高校联

...理教授（研究）杨林易。o1 作为 OpenAI 在推理领域的最新模型，大幅度提升了 GPT-4o 在推理任务上的表现，甚至超过了平均人类水平。o1 背后的技术到底是什么？OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现...……更多

2024-10-15 09:56:00框架,团队,联合,模型,过程,步骤

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...现。上述评测还显示，o1模型在MMLU Categories中的高数测试正确率高达98%，且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势，足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

专访小竹财税AI袁林：在通用大模型浪潮中寻找财税大模型的蓝海

...下没有难懂的财税。记者：小竹财税AI在财税领域的回答正确率高达92%，远超通用大模型。这一成就是如何实现的？袁林：这一成就得益于我们高质量、多样化的垂直（专业）数据库。在模型的embedding过程中，我们探索了多种中...……更多

2024-04-25 10:30:00模型,浪潮,专访,模型,专业,领域

港中文团队提出大模型元推理范式，革新大模型的评价体系

...院工作过一段时间。在 ChatGPT 面世以后，他意识到针对大模型的研究范式存在一定的不足，于是决定来到香港中文大学读博。图 | 曾忠燊（来源：曾忠燊）前不久，曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式，...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

媲美OpenAI事实性基准，这个中文评测集让o1-previ

...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8)，其他大部分模型都处于低分状态，其中 GPT-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA，我们对……更多

2024-11-21 09:43:00事实性,基准,中文,评测,事实,模型