• 我的订阅
  • 头条热搜
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
【新智元导读】最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。我们都知道,在...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
【新智元导读】LLM数学水平不及小学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既...……更多
北大字节VAR最佳论文、厦大清华亚军,NeurIPS 2024最佳论文出炉
...获得了最佳论文亚军(Best Paper Runner-up):由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》(并非所有 token 都是预训练所需的), Zhenghao Lin 和 Zhibin……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...如果大模型对预测结果表示具有高度自信时,回答结果的正确率也更高,也就是说,大模型完全可以辅助人类做科研新发现。最重要的是,这种方法并不特定于某一个学科,其他知识密集型任务上也可以使用。科研结果预测即使...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...(SAIL)。他在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神”之一。同时,他也是李飞飞创业公司World Labs的顾问。参考链接:[1]https://arxiv.org/abs/2411.04998v1[2]https://www.worldlabs.ai/t……更多
AI老师上线?专家:通用人工智能将推动教育范式转变
...让通用大模型像学生一样去解答题库里的题目,发现它的正确率非常低;接下来又尝试让通用模型进行模拟题的定制,测试下来发现,通用大模型只能做到模仿题目的形态,在题目的难度、内容和考点设置上都没有办法满足需求...……更多
常见电子邮件分类算法的性能分析
...)。从图1可看出,随着训练量(Train examples)的增大,训练集正确率下降,测试集正确率上升,最后稳定在0.84左右,准确率一般,但方差较小,具有较强的抗过拟合能力。图2.决策树图2为决策树学习曲线,红色线代表测试集(学习过...……更多
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,相比于单独使用SFT,CodeDPO能够将模型的...……更多
谷歌AlphaFold 3在《自然》杂志刊登:准确率超50%
...歌旗下公司DeepMind创建的基于深度学习的人工智能测序式模型AlphaFold解决了这个问题。北京时间5月8日(周三)晚间,《自然》杂志刊登了DeepMind的AlphaFold团队和伦敦药物研发公司IsomorphicLabs共同署名的论文,介绍了AlphaFold3,这是...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...随后,他们开始进行大量的测试。期间发现,如果只使用正确率作为最终的测试结果,并不能完全体现本次算法的优势。由于对大模型的请求是有成本的,所以当算法在使用大模型解决数学问题时,算法会设置一个针对大模型的...……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
... 800 次互动就能达到稳定效果,并且证据收集能力和推理正确率显著提升。AMOR 及基线方法在微调或不微调时的实验结果 实例展示下图比较了 AMOR 和传统的 ReAct 框架(基于 GPT-3.5)分别回答同一问题的推理过程:AMOR(上)和 ReAc...……更多
火爆全球的Chat GPT,想毁灭人类?
...录,足足有80.3%的准确率,明显好于使用传统方法的74.6%正确率。有趣的是,当研究人员尝试微调(fine-tune,是指通过使用在大数据上预先训练好的模型来初始化自己的模型权重,从而提升精度。自己训练好的模型也可以当做预...……更多
科研党狂喜!AI预测神经学研究结论超人类专家水平 | Nature子刊
...LLM的表现也都全方位超过了人类专家。更重要的是,这些模型被证实对于数据没有明显的记忆。也就是说,它们已经掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)预测、预测未知的事物。这立马引发科研圈的...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...时间、地名、人名的错误,人类在简单难度下的中文平均正确率约为 98.58%,在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误,人类在简单难度的中文下几乎接近满分,而中文困难难度下正确...……更多
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
...,他们设置了三个不同的评估指标,分别是Top-1(第一项正确率)、Top-5(前五项正确率)和Top-max(是否包含正确答案)。在Top-1指标中,o1 mini在约200条数据上的得分是17%。o1得到了25%,而微调后的o1 mini,得到了31%。ChatGPT就此生...……更多
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...理教授(研究)杨林易。o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...现。上述评测还显示,o1模型在MMLU Categories中的高数测试正确率高达98%,且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。 OpenAI还选择了专为美国最优秀的高中数学...……更多
专访小竹财税AI袁林:在通用大模型浪潮中寻找财税大模型的蓝海
...下没有难懂的财税。 记者:小竹财税AI在财税领域的回答正确率高达92%,远超通用大模型。这一成就是如何实现的?袁林:这一成就得益于我们高质量、多样化的垂直(专业)数据库。在模型的embedding过程中,我们探索了多种中...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...院工作过一段时间。在 ChatGPT 面世以后,他意识到针对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8), 其他大部分模型都处于低分状态,其中 GPT-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对……更多
上交大推出“可进化游戏引擎”!虚拟世界演化无需预设
...(Naive Evaluation):评估引擎的正确性,包含两个指标。正确率(Acc):即生成的代码是否正确地实现了应有的功能。执行率(Exe):即生成的代码是否能通过编译,不论正确与否。Exe对于用户的体验感非常重要,很多情况下,...……更多
重要突破!西湖大学团队和浙二医院共同实现脑机接口中文解码
...数平均仅为29%,部分参与者通过脑电解码得到的句子完全正确率达到了30%。相对高效的解码性能得益于三个独立音节元素解码器的优秀表现和智能语言模型的完美配合。特别的是在分类21个声母方面,声母解码器的准确率超过了4...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...,当在 op≤21 的题目上进行训练时,模型不仅能达到 99% 正确率,还能在更高难度的题目(如 op=32)上保持 83% 的正确率(见图 3)。这表明模型学会了某种推理技能,毕竟它从未见过 op>21 的题。(顺带一提,GPT-4o 在该数据集...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品|搜狐科技作者|郑松毅2024年已过半,大模型之争热度不减,通往AGI的路究竟该怎么走?近日,清华大学计算机系讲席教授、人工智能研究院基础模...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法则。接下来,直接进入正题。适配大模...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...新评测中,夸克 “灵知” 学习大模型在考研数学题上的正确率和得分率已经可以比肩OpenAI最新发布的o1模型,且远超国内其他模型。另外,在多个国内数学竞赛与高考等重要测试中,夸克的正确率和得分率也处于绝对领先地位...……更多
频繁使用GPS丧失方向感?清华大学陈霓虹:影响或可逆,可通过学习训练提升
...在目标位置放上食物奖励,这些经过了自由探索的大鼠的正确率有着突飞猛进的变化。“通过这个实验,我们可以看出,自由探索和好奇心可能对我们的学习和空间认知都非常关键。”陈霓虹说。图片来自陈霓虹讲授的《认知心...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
更多关于科技的资讯:
别被厂商忽悠了!家用路由器选购大揭秘
打开购物网站搜路由器,满屏“穿墙王”“千兆路由”等夸张广告词令人眼花,一时间竟不知该如何挑选合适的路由器品牌和型号。其实家用路由器大多能满足日常需求
2025-04-27 22:34:00
作为潍坊地区汽车流通领域的领军企业,山东某汽车集团有限公司以50余家4S店的规模稳居区域市场龙头地位。随着企业规模扩张
2025-04-27 22:46:00
安丘农商银行:服务有深度 金融有温度
今年以来,安丘农商银行始终将满足客户需求作为金融服务的出发点和落脚点,通过积极开展外拓走访、优化厅堂服务以及创新多种宣传方式
2025-04-27 22:47:00
数字赋能文旅 仓山区将推出多项数字场景体验项目
福州新闻网4月27日讯(记者 谢敏 通讯员 仓萱 文/图)27日,记者从仓山区获悉,数字峰会期间,仓山区将推出多项数字场景体验项目
2025-04-27 22:49:00
朱雀玄武敕令再申请改48字新名字:户口本都放不下了
4月27日消息,据媒体报道,朱雀玄武敕令此前想把名字更改为“周天紫薇大帝”,这一申请未获通过。随后这位小伙在此提交改名申请
2025-04-27 23:04:00
“珍珠女王”白如芳逝世:年仅55岁
4月27日消息,据媒体报道,被誉为“珍珠女王”的知名珍珠艺术设计师、北京红桥商场芳华珠宝品牌创始人白如芳女士,因病于2025年4月23日逝世
2025-04-27 23:34:00
年轻人上桌,白酒慌了?
某种程度上,年轻人与白酒之间的关系,如今更像是一种双向试探:白酒不断靠近年轻人的消费场景,却始终在外围打转;年轻人愿意为创意买单
2025-04-27 23:36:00
博主曝华为首款鸿蒙PC:办公软件已基本解决
快科技4月27日消息,在3月举行的华为Pura先锋盛典及鸿蒙智行新品发布会上,华为常务董事、终端BG董事长余承东正式宣布
2025-04-27 20:04:00
再添天文利器!中国首个大型通用光谱望远镜JUST启动建设
快科技4月27日消息,据报道,上海交通大学JUST光谱望远镜基建项目在青海冷湖正式启动建设,标志着我国即将实现大型光谱望远镜从无到有的历史性突破
2025-04-27 20:04:00
全球首个在轨验证星载基站亮相科交会
大皖新闻讯 作为“平天星座”的首发卫星,“池州一号”卫星将于今年年底搭载“池州造”火箭发射升空。“池州一号”卫星由池州星移联信航天科技公司自主研发
2025-04-27 20:23:00
从显示技术到航天动力 蚌埠近200件创新成果闪耀“科交会”
大皖新闻讯 世界首片8.6代OLED玻璃基板彰显国内显示技术的领先实力,“蚌埠造”龙云发动机助力航空航天产业发展……第三届中国(安徽)科技创新成果转化交易会上
2025-04-27 20:23:00
OPPO担任人工智能终端工作组副组长单位
4月25日,人工智能终端产业发展研讨会暨人工智能终端工作组第一次全体大会召开,工业和信息化部副部长熊继军出席会议并致辞
2025-04-27 20:28:00
母亲节送礼攻略 | 野兽派萱草花系列新品
近日,高端艺术生活方式品牌野兽派发布2025母亲节主题大片《每个妈妈都喜欢花》。片中,国民演员赵雅芝与其儿子黄恺杰温情亮相
2025-04-27 20:45:00
何同学风波后复更:为一位女生制作单手键盘
快科技4月27日消息,此前,博主何同学因发布网约车司机求好评相关言论引发争议,不久何同学删博。今日晚间,沉寂两周后何同学复更
2025-04-27 21:04:00
中国青年报客户端讯(中青报·中青网记者 胡春艳 实习生 粟悦)在中国电影诞生120周年、世界电影诞生130周年之际,作为第15届北京国际电影节的重要组成部分
2025-04-27 21:14:00