• 我的订阅
  • 头条热搜
微软发布旗下最小语言模型phi-2
...相比较其它主流语言模型,依然小很多。微软表示Phi-2在逻辑推理和安全性方面显示出显著的改进。通过正确的微调和定制,小型语言模型是云和边缘应用程序的强大工具。MicrosoftResearch机器学习基础小组负责人SebastienBubeck在Twitt...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...程能力“爆表”新模型到底有多强?它在需要深入思考和逻辑推理的专业任务上不仅吊打GPT-4o,还超过了拥有博士学位的人类专家。OpenAI表示,新模型在物理、化学和生物等学科的挑战性基准测试中,表现超过人类专家。在国际...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...而不是像 CoT 那样过早地进行单一的确定性路径。在某些逻辑推理任务中,Coconut 的表现优于 CoT,因为在规划过程中需要大量的回溯,而在推理过程中则需要较少的思考 token。论文链接:https://arxiv.org/abs/2412.0676911.GameArena:通过...……更多
全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一
...(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...数。ARC-AGI由Keras之父Fran ? ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。这标志着,o3的最佳成绩超过...……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2.4%。这种AI大模型生成内容与真实数据不符,或偏离用户指令的现象,会极大影响用户的使用体验。在医疗、法律、金融等对准确性要...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...爆火,利用纯提示方法让普通LLM摇身一变,成为具备复杂推理能力的OpenAI o1。九月份,OpenAI o1正式登场。作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多
真香!智谱大模型,有了首个免费的API
...性的同时增加多样性)。体验地址:https://open.bigmodel.cn/逻辑推理能力,从简单到复杂,包含一般逻辑推理和数学推理。测试 1:先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题,很容易就答对了。类似的数字...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型...……更多
...调遣语言模型之外的其他技术。例如,解决数学问题需要逻辑推理,而目前大多数AI模型都不擅长逻辑推理。鉴于此,谷歌深度思维公司开发出AlphaGeometr,将语言模型与符号引擎(使用符号和逻辑规则进行推理)相结合,构建出一...……更多
o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9,而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例(图中用黄色高亮标记出了 10 个),也或多或少与这...……更多
...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理,打造‘灰盒’可信大模型。具体而言,通过融合科学规律、观测数据和合成数据,开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席,上智...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力,使其成为通用人...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k。其中的HellaSwag测试集,由华盛顿大学和Allen AI在2019年推出,专门针对人类擅长但LLM...……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?随着OpenAI o1的爆火,最近CoT也成了圈内热议的高频词。靠着CoT的强力加持,o1...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中,以 86.9 分的成绩排名第一。其通用能力较 Tele……更多
Anthropic再反击!发布Claude 3.5吊打GPT-4o,视觉、逻辑推理等方面表现更强
...个版本Claude 3.5 Sonnet。从官方披露的测试数据来看,其在逻辑推理、编程、数学等方面中的表现性能均超越GPT-4o。网友直言,“太卷了,现在AI竞争是要以周为单位了吗?” 从官方介绍来看,Claude 3.5全家桶仍会有3款系列模型,...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。其中360模型在四个评测数据集上达到第一,平均分为第三。在LongBench(多任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中...……更多
第二届全球数贸会 | 文心一言成唯一入驻中国馆大模型
...代知识增强大语言模型,具备对话交互、内容创作、知识推理、多模态生成等能力。你可以跟它聊天,让它给你画一幅画,或者问它一些专业问题,写策划、做攻略,敲代码、做表格等等,高效便捷地帮助大家获取信息、知识和...……更多
超越ChatGPT:人类特有的思维要强化
...一数据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足,可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌,但当你尝试问它类似这样...……更多
大模型“翻车”小学题?
...相关性,使得AI在文字创作上达到人类平均水平,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的,与语言模型处理的语言数据在本质上有所不同。这意味着大模型要学好数学,除了学习世界知识外,还应该有思维...……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...据的问题,构建百万量级合成数据,分门别类提升数学、逻辑推理、代码等能力;针对RLHF泛化性弱的问题,在离线DPO的基础上引入了二阶段在线强化策略,实现整体效果处于业界头部水平,文本创作、知识问答、数理逻辑及代...……更多
连发两款模型“补课”,百度AI成色如何?
...标DeepSeek-R1,具备长思维链,擅长中文问答、文学创作、逻辑推理等。不过,百度并未公布有关基准测试和DeepSeek-R1、o1等同类模型的对比。搜狐科技注意到,文心大模型X1默认启用联网搜索、代码解释器、文档问答、图片理解、A...……更多
...开评测中,它的综合能力逼近当时的顶尖大模型,尤其在逻辑推理和数学题上展现出强劲性能,而且它的成本要远低于作比较的其他大模型。更令圈内研究者惊喜的,是它在训练方式上的简化。以往的模型在提升推理能力时,通...……更多
20多家车企接入DeepSeek:为啥没有“蔚小理华米特”
...上叫我给他们讲讲 AI 是怎么回事。由于同时具备强大的推理能力及开源模型两个特质,导致几乎所有科技公司都在研究怎样和 DeepSeek「深度融合」一下。华为、腾讯、百度、字节等互联网巨头,尽管都有各自自研的模型,但不...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...在MMLU(多任务语言理解)、Knowledge(知识)、Reasoning(推理)、Comprehension(理解)等关键指标上均超越了Meta Llama 2的13B模型。这一个故事,在2024年2月1日的发布会上,也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多
...模型4.0训练算法效率提升3.6倍,周均训练有效率超过98%,推理性能提升50倍。王海峰认为,人工智能具有多种典型能力,理解、生成、逻辑、记忆是其中的基础能力,这四项能力越强,越接近通用人工智能,而大语言模型具备了...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅准确识别了手写体文字并遵照指示,且答题逻辑完...……更多
更多关于科技的资讯:
一句话、一张图,共绘古祠新名片!陈家祠商圈标识及宣传语邀您来设计
为提升陈家祠商圈品牌形象与文化内涵,扩大商圈影响力,进一步彰显岭南文化商圈特色,打造文化消费新地标,现面向全社会公开征集陈家祠商圈标识(LOGO)及宣传语
2025-12-12 09:23:00
晚上6点半,杭州遥望科技大楼的直播间里,灯光亮如白昼。小五对着镜子最后检查了一下妆容,深吸一口气,走向镜头。五年前,她站在黑龙江齐齐哈尔的寒风中
2025-12-12 08:08:00
如果未来的高速公路能像人一样“思考”,预判几公里外的风险;如果跨海大桥有“专属医生”,能飞檐走壁进行体检;如果服务区不再只是简简单单的驿站
2025-12-12 08:09:00
河北新闻网讯(杨春辉)如何深化信贷业务专业化能力,推动一线员工全面掌握产品体系与营销策略,从而为“一池两新万企”行动提供坚实支撑
2025-12-12 06:53:00
12月10日-12日,由浙江传媒学院主办、浙江传媒学院实践教学与艺术创作中心协办的 “剧想天开”——《儿童剧人物造型设计创新人才培训》成果展在杭州时尚中心正式展出
2025-12-12 07:07:00
站在4K摄像机前,主播“俍一”落落大方,此刻她站在演播室里,但直播间的观众们看到的却是由AI实时生成的背景。这样的场景在以前是不可想象的
2025-12-12 07:08:00
家电业创新驱动拓蓝海
家电业正朝着绿色、智能化方向升级,既精准匹配消费者需求,也开拓了市场新空间从电视、冰箱、洗衣机的传统“三大件”到智慧互联
2025-12-12 07:14:00
今年“双12”,南京企业捧出主题多元、内容丰富的促消费活动,推动消费市场提质扩容据悉,今年南京将“双12”作为南京市“四季有约·暖冬跨年庆”促消费活动的重要节点
2025-12-12 07:14:00
在直播间买了商品退货难、赔付慢等情况一直是困扰消费者的难题,临近“双12”,由杭州高新区(滨江)市场监管局联合辖区内头部直播电商企业共同起草的团体标准《放心消费直播间管理与运营规范》(以下简称《规范》)正式发布
2025-12-12 07:38:00
鲁网12月11日讯近日,建设银行泰安分行高效推进网点服务数字化转型,顺利完成泰安花园支行、新泰向阳支行、新汶翟镇支行、东平白佛山支行等4家网点的排队机轻量化叫号模式试点改造
2025-12-11 14:40:00
意大利ICA意卡亮相大湾区设计论坛:以色彩、技术与资源,赋能设计师
2025年广州设计周于12月5日至8日盛大开幕,在广州保利世贸博览馆、广州国际采购中心及海珠国际会展中心三馆共18个展厅同时举行
2025-12-11 14:53:00
苏大课堂来了位虚拟数字人老师
近日,在苏州大学传媒学院副教授程曦的《新媒体运营》课堂上,迎来了一位与她外型一模一样的虚拟数字人老师,只要是关于课程中的问题
2025-12-11 14:57:00
中新经纬12月11日电 11日,“网信中国”微信号发布汽车行业网络乱象专项整治行动公开曝光第二批典型案例。近期,国家网信办会同工业和信息化部等部门持续开展汽车行业网络乱象专项整治行动
2025-12-11 15:10:00
鲁网12月11日讯走进建行青岛市分行瞿塘峡路支行,大堂经理正俯身协助客户核对账单、同步讲解线上查询技巧;城阳支行营业部里
2025-12-11 15:17:00
【儒商风采】德州市恩锋企业管理咨询有限公司董事长李媛媛:先做朋友,再做生意
鲁网12月11日讯(记者 赵洪斌 通讯员 赵慧)“让一个企业家在半小时内,向陌生人交底,说出自己公司的核心难题——这事儿
2025-12-11 15:17:00