正确率,清华,模型,全新,科学,方法头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...这是该团队在继 PMC-LLaMA 后，在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中，大语言模型已经有了广泛的研究。然而，这些进展主要依赖于英语的基座模型...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

...简单任务的准确率可以达到60%，最难任务准确率仅有21%大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的...……更多

2024-09-26 13:38:00普林,普林斯顿,斯顿,准确率,基准,科学家

OpenAI发布最新技术研究，AI“黑盒”不再是难题！

...随着ChatGPT在法律、金融、营销等领域的广泛使用，确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性，我们根本无法验证其生成内容的准确性，这也就会出现输出“黑盒”的情况。为了...……更多

2024-07-18 09:47:00最新技术,难题,研究,技术,模型,小数

阿里推出AI数据科学家，全流程自动化，科研小白也能用

...，中间数据信息，已生成代码信息）会导致模型生成代码正确率下降，可以在未来考虑使用LLM进行总结，对信息进行筛选。b）同一个Task可进行进一步的分解，以降低对LLM推理能力的要求。2、对话交互式，可以将任务和任务的执...……更多

2024-08-08 09:40:00小白,阿里,科学家,流程,自动化,科研

高于临床测试3倍准确率！剑桥大学开发AI模型，提前6年预测阿

...【新智元导读】剑桥大学研究利用人工智能建立机器学习模型精准预测阿尔茨海默症发展，准确率远超临床测试结果，为阿尔兹海默症早期干预开辟新路径。如果说人工智能可以在一个领域产生前所未有的积极影响，「医疗保健...……更多

2024-07-22 09:40:00阿尔茨海默,剑桥大学,阿尔,剑桥,准确率,临床

夸克上线“AI解题大师” 用深度思考帮用户讲透难题、拓展思维

...此前，夸克“灵知”学习大模型在考研数学题等评测上的正确率和得分率已经可以比肩OpenAI的o1模型。夸克学习产品负责人程飞表示：“随着AI解题大师上线，夸克能帮助用户把难题讲解得更加准确和透彻，深度思考过程还能启...……更多

2025-03-18 11:49:00夸克,难题,深度,思维,大师,用户

追光而遇沐光前行丨清华博士领航北海学子逐梦而行

...经常答不完卷子，或者说对题目明明有思路，但是速度和正确率无法兼得，就可以通过刷题来解决。对于一些特别典型的题目，他建议大家可以选择性地裁剪。平时多整理易错点，并用一两句话概括一下错误的原因，这样便于回...……更多

2024-05-27 12:23:00而行,北海,清华,领航,学子,博士

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...最近一段时间，有关 AI 科学家的研究越来越多。大语言模型（LLM）有望帮助科学家检索、综合和总结文献，提升人们的工作效率，但在研究工作中使用仍然有很多限制。对于科研来说，事实性至关重要，而大模型会产生幻觉，...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

DeepSeek/o3的弱点找到了！三心二意明明对了又改错

...种“无效努力”不仅浪费计算资源，还显著降低了答案的正确率。“三心二意”是罪魁祸首这一现象在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析，团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上，对...……更多

2025-02-04 19:41:00弱点,模型,推理,答案,思路,准确率

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...效果的影响。主要结论如下：多数情况下，自我纠错后的正确率高于原正确率（图4）正确率提升与自我评估的准确率高度相关（图4(c):），甚至呈线性关系（图5（a））。采用不同的评价方式效果依次提升：仅使用对/错评价 &...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

实验证明，大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型（LLM）的出现，人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近，OpenAI 发布了 o1 ...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

谷歌最新自然语言推理算法

...爆炸！自动推理绝对算是自然语言处理领域的一大难题，模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语言理解」如阅读理解和问答等任务中取得了极高的...……更多

2023-01-09 21:57:00自然语言,算法,推理,自然,语言,目标

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

新智元报道编辑：alan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

第五范式迎面来，AI向善很关键

...准的实验与计算成果，由此发挥更大潜力；运用在大语言模型，可以有效利用大量现有知识，拓展人类局限的想象力……第五范式将带来革命性改变。鄂维南说，曾经，做科研的具体操作犹如“小农作坊”，而AI for science将推动...……更多

2023-11-08 06:44:00范式,关键,范式,科学,人类,科研

商汤科技与金山办公达成商业合作，“日日新”大模型补强办公软件

...在数据分析场景下的数据测试集（1000+题目）中以85.71%的正确率超过GPT-4。基于商汤“日日新”延伸出的代码模型能力微调，协同办公平台WPS365实现了场景优化和能力增强，可以内化WPS365多类场景的API能力，实现自然语言快速调...……更多

2024-04-12 15:11:00商汤,办公,补强,金山,办公软件,理科

表格增强生成TAG登场：解锁AI自然语言与数据库的完美结合

...数据中提取有用信息。如今，他们只需输入问题，由语言模型驱动的底层系统会完成其余工作，让用户只需与数据对话即可立即获得答案。这些新系统向数据库提供自然语言交互，这种转变取得了丰硕成果，但仍存在一些问题。...……更多

2024-09-10 13:38:00自然语言,表格,生成,自然,语言,数据库

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

Llama 3.1 405B“最强模型”宝座还没捂热乎，就被砸场子了——Mistral AI发布最新模型Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理