• 我的订阅
  • 头条热搜
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...这是该团队在继 PMC-LLaMA 后,在持续构建开源医疗语言大模型的最新进展。该项目受到科创 2030—“新一代人工智能” 重大项目支持。在医疗领域中,大语言模型已经有了广泛的研究。然而,这些进展主要依赖于英语的基座模型...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...随着ChatGPT在法律、金融、营销等领域的广泛使用,确保模型的安全、准确输出同时被很好理解变得非常重要。但由于神经网络的复杂和多变性,我们根本无法验证其生成内容的准确性,这也就会出现输出“黑盒”的情况。为了...……更多
阿里推出AI数据科学家,全流程自动化,科研小白也能用
...,中间数据信息,已生成代码信息)会导致模型生成代码正确率下降,可以在未来考虑使用LLM进行总结,对信息进行筛选。b)同一个Task可进行进一步的分解,以降低对LLM推理能力的要求。2、对话交互式,可以将任务和任务的执...……更多
高于临床测试3倍准确率!剑桥大学开发AI模型,提前6年预测阿尔茨海默症
...【新智元导读】剑桥大学研究利用人工智能建立机器学习模型精准预测阿尔茨海默症发展,准确率远超临床测试结果,为阿尔兹海默症早期干预开辟新路径。如果说人工智能可以在一个领域产生前所未有的积极影响,「医疗保健...……更多
夸克上线“AI解题大师” 用深度思考帮用户讲透难题、拓展思维
...此前,夸克“灵知”学习大模型在考研数学题等评测上的正确率和得分率已经可以比肩OpenAI的o1模型。夸克学习产品负责人程飞表示:“随着AI解题大师上线,夸克能帮助用户把难题讲解得更加准确和透彻,深度思考过程还能启...……更多
追光而遇 沐光前行丨清华博士领航北海学子逐梦而行
...经常答不完卷子,或者说对题目明明有思路,但是速度和正确率无法兼得,就可以通过刷题来解决。对于一些特别典型的题目,他建议大家可以选择性地裁剪。平时多整理易错点,并用一两句话概括一下错误的原因,这样便于回...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至关重要,而大模型会产生幻觉,...……更多
DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
...种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。“三心二意”是罪魁祸首这一现象在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...效果的影响。主要结论如下:多数情况下,自我纠错后的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 &...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 ...……更多
谷歌最新自然语言推理算法
...爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语言理解」如阅读理解和问答等任务中取得了极高的...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
新智元报道编辑:alan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向...……更多
第五范式迎面来,AI向善很关键
...准的实验与计算成果,由此发挥更大潜力;运用在大语言模型,可以有效利用大量现有知识,拓展人类局限的想象力……第五范式将带来革命性改变。鄂维南说,曾经,做科研的具体操作犹如“小农作坊”,而AI for science将推动...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...在数据分析场景下的数据测试集(1000+题目)中以85.71%的正确率超过GPT-4。基于商汤“日日新”延伸出的代码模型能力微调,协同办公平台WPS365实现了场景优化和能力增强,可以内化WPS365多类场景的API能力,实现自然语言快速调...……更多
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
...数据中提取有用信息。如今,他们只需输入问题,由语言模型驱动的底层系统会完成其余工作,让用户只需与数据对话即可立即获得答案。这些新系统向数据库提供自然语言交互,这种转变取得了丰硕成果,但仍存在一些问题。...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。主打的就是一个高性价比。用官……更多
anthropic发布全新claude2大语言模型
...进:其在美国律师资格考试的多选题部分可以取得76.5%的正确率,前代Claude1.3为70%;在GRE阅读和写作测试中,Claude2的得分超过了90%的应届毕业生;在美国医师执照考试中,Claude2在3个科目中的分数都超过60%,也就是取得了“ALLPASS...……更多
AI大模型也高考?成绩单出来了,星火综合第一
...科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。 在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩,率先占领了业内第一梯队。同时,小竹财税成功获得1000万元天使轮融资。据了解,小竹财税(安徽小竹信息技术有限公司)成立于2021年11月,...……更多
Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子
...上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。最后,来看一下研究团队阵容。该研究由田渊栋等人带来。田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。Qinqing Zheng是FAIR的...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
几天前 OpenAI 新模型 o1 的发布,再次引发了人们对大语言模型的高度关注和讨论。而 o1 发布之所以如此“轰动”,是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域,还表现出超强...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大...……更多
\
...析,并在合适的步骤自行调用计算引擎,以提高题目解答正确率。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不...……更多
...型的自学习、自完善、自更新,提高各料型自动判级综合正确率,为废钢采购全流程智能化验质提供技术保障。该公司根据现场需求,积极展开靶向技术攻关。权万红带领技术团队认真查看废钢定级系统中的车次分层拍照质检情...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...进行了验证。验证结果显示,如表3所示,问答对的平均正确率达到了94.8%。表3 数据集人工验证结果Baseline模型介绍基于构建的Medical-CXR-VQA数据集,作者提出了一种多模态图推理模型,如图3所示。针对拍摄胸部X光片时病人姿态变...……更多
为什么诺贝尔化学奖又双叒给AI?
...到2020年末AlphaFold2的出现。AlphaFold2的三维蛋白质结构预测模型准确率超过90%,比最接近的竞争对手高出5倍。通过深度学习,人工智能近乎轻松地破解了“人力不可为”的难题,震撼了生物学界。近几年,AlphaFold2改变了生物学家...……更多
aiforscience:用人工智能催化一场新的“科学革命”
...白质结构模型,其实与实际观测到的实验数据相去甚远,正确率不足40%。其后续发展需要持续提高预测模型的精度,以无限缩小预测结构和实验误差。不仅如此,从蛋白质结构预测推进到药物研发环节,不同药物设计方法的原理...……更多
《麻省理工科技评论》中国智能计算创新人物峰会圆满落幕
...能计算创新人物颁奖仪式”在北京举办,本次活动由北京清华工业开发研究院、之江实验室作为战略合作伙伴共同支持。出席本次活动的领导嘉宾包括了北京清华工业开发研究院副院长付小龙、之江实验室党委委员及副主任陈伟...……更多
...ixabay撰文 | 张天祁● ● ●今年年初,DeepSeek发布DeepSeek-R1模型,引发全球的关注。在公开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。...……更多
更多关于科技的资讯:
生产周期缩短1/3,宇捷轴承凭核心技术领跑细分市场
齐鲁晚报·齐鲁壹点 陶春燕 山东省宇捷轴承制造有限公司是国家级专精特新重点“小巨人”企业、国内最大的调心滚子轴承生产企业
2025-09-27 20:05:00
电动车照亮小区应急通道?淄博供电验证居民V2G桩集群放电场景
当小区突发故障停电,地下车库里业主们的电动汽车,瞬间变身为一个巨大“充电宝”,为消防、通风和应急照明系统供电,守护社区安全
2025-09-27 12:35:00
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00