• 我的订阅
  • 头条热搜
...我们需要结合快思考的‘黑盒’预测和慢思考的‘白盒’逻辑推理,打造‘灰盒’可信大模型。具体而言,通过融合科学规律、观测数据和合成数据,开发理解物理世界的垂直领域科学大模型。”作为本届大赛评委会主席,上智...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
亚马逊推出“自动推理检查”工具,对抗 AI 幻觉
...拉斯维加斯举办的 re:Invent 2024 大会上,AWS 推出了“自动推理检查”(Automated Reasoning checks)工具,该工具通过交叉引用客户提供的信息来验证模型的响应准确性。AWS 宣称,这是“第一个”也是“唯一”的针对幻觉的防护措施。...……更多
清华开源混合精度推理系统MixQ:大模型近无损量化并提升推理吞吐
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。△图1 MixQ吞吐与已有...……更多
腾讯大模型混元Turbo:御气升昺云,梓桐金鼎开
...不足,腾讯还特别强化了模型在高质量文本创作、数学和逻辑推理等方面的能力。 文本创作能力的显著提升在文本创作领域,大多数大模型表现平平,尤其在专业写作方面,常常缺乏足够的灵活性和精准度。混元Turbo在这方面...……更多
百川智能发布baichuan3稳定语言模型
...语言处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测上的中文效果同样超过了GPT-4,是中文医疗任务表现最佳的大模型。Baichuan3还突破“迭代式强化学习”...……更多
香港金融科技周|度小满CEO朱光:推理大模型将深入到金融核心业务
...布了GPT-o1大模型,“思考能力”显著提升,能够进行复杂逻辑推理和问题拆解。在本次大会上,朱光也分享了度小满用推理大模型在风控场景上做的一些创新性探索。在信贷领域,推理大模型可以通过分析客户的征信报告、银行...……更多
...大模型的超低价格引发行业震动。据悉,豆包主力模型的推理输入价格只有0.0008元/千Tokens,比行业便宜99.3%。对此,谭待坦言,“降价是用技术优化成本来实现的。如果只是补贴,用亏损换收入是不可持续的,火山引擎不会走这...……更多
人工智能的真面目到底是什么?是数学、逻辑学,还是计算机科学?
...在人工智能中发挥着重要作用。早期的专家系统就是基于逻辑推理构建的。逻辑学提供了一种形式化的方法来描述和推理世界,使得计算机能够模拟人类的思维方式进行推理和决策。虽然现代的深度学习技术已经不再直接使用逻...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...一在今年5月的 OpenCampass 测试榜单中,TeleChat 系列模型的逻辑推理能力名列开源大模型榜单第一。作为新一代版本,TeleChat2-115B 在9月最新公布的 C-Eval 评测 Open Access 模型综合榜单中,以 86.9 分的成绩排名第一。其通用能力较 Tele……更多
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
...成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务,每个级别都有其独特的难点和解决方案,需要不同的技术和方法来优化性能。受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接...……更多
智能体不够聪明怎么办?清华&蚂蚁团队:让它像学徒一样持续学习
...出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,真实准确地反映了国内外大模型...……更多
...理陈宁介绍,DeepEdge10是国内首创的国产14nm Chiplet大模型推理芯片,采用自主可控的国产工艺,内含国产RISC-V核,支持大模型推理部署。依托自研芯片DeepEdge10创新的D2D chiplet架构打造的X5000推理卡,已适配并可承载SAM CV大模型、Lla...……更多
面壁智能发布2B模型:适配主流手机,推理成本仅为GPT-4的1/360 | 最前线
...在MMLU(多任务语言理解)、Knowledge(知识)、Reasoning(推理)、Comprehension(理解)等关键指标上均超越了Meta Llama 2的13B模型。这一个故事,在2024年2月1日的发布会上,也被AI模型层公司面壁智能的CEO李大海不断提起。对标Mistral..……更多
面壁智能发布开源大模型eurux-8x22b
...大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万条左右数据。 ……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...功证明了AI在解决复杂数学问题上的巨大潜力,尤其是在逻辑推理和证明方面。8.大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4Meta和纽约大学的研究团队最近提出了一种创新的“自我奖励语言模型”方法,使得微...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
...文认为,模型产生幻觉的三大来源:数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式,如位置接近性、共现统计数据和相关文档计数,从而导致幻觉。此外,大模型还可能会出现长尾知识回忆不足、难以...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...爆火,利用纯提示方法让普通LLM摇身一变,成为具备复杂推理能力的OpenAI o1。九月份,OpenAI o1正式登场。作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...力一直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火...……更多
如何让大模型输出更精准、更可靠的结果?
...拥有强大的知识长期记忆和理解关联能力,能进行复杂的逻辑推理和概念关联,从而生成更深入的解析和推断。这使得大模型兼具专业性、精准性、可追溯三大优势。01专业性RAG如同给大模型开了一个外挂,让它在回答问题之前...……更多
专注于推理的OpenAI“草莓”模型两周内发布?是人工智能下一重大突破
...“秋季发布”(9月至11月)要更早。上述报道称,专注于推理能力的人工智能“草莓”发布前后还有一些亟待解决的问题,但看似“仓促上马”似乎说明OpenAI感受到了大语言模型驱动产品领域的激烈竞争压力,希望通过近几个月...……更多
AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?
...美国人工智能初创公司Groq最新推出的面向云端大模型的推理芯片引发了业内的广泛关注。其最具特色之处在于,采用了全新的Tensor Streaming Architecture (TSA) 架构,以及拥有超高带宽的SRAM,从而使得其对于大模型的推理速度提高了1...……更多
绿军or小牛,瞎蒙只是一种感觉
...人工智能所基于的模型是常规的大数据收集和按类别进行逻辑推理,这是绝大多数从业者使用的通用模型。人类的阅读量远远不如人工智能,所以在数据收集上肯定比不过人工智能,但是人类有一个特性是人工智能永远比不上的...……更多
真香!智谱大模型,有了首个免费的API
...性的同时增加多样性)。体验地址:https://open.bigmodel.cn/逻辑推理能力,从简单到复杂,包含一般逻辑推理和数学推理。测试 1:先来一道前段时间让很多大模型翻车的「9.11 和 9.9 哪个更大」问题,很容易就答对了。类似的数字...……更多
科大讯飞股价跌停,市值蒸发120亿元
...为单位数,提升最多的是代码能力,仅有提升9%,其次是逻辑推理(8%),文本生成、知识问答、多模态能力则均只有7%。此前科大讯飞在8月15日发布星火V2.0时,七大能力大幅度提升,其中语言理解能力提升78%,文本生成、知识...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
【新智元导读】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性...……更多
GPT刚刚公开「草莓」项目:推理能力翻倍,定价200美元?
... OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。根据目前流出的信息来看,相比以往的 GPT 模型,「草莓」在处理复杂问题、执行多步骤任务方面展现出前所未有的潜力,使其成为通用人...……更多
更多关于社会的资讯:
太重集团9月22日发布消息,在国家工业和信息化部刚刚公布的2025年度卓越级智能工厂项目名单中,太原重工轨道交通设备有限公司高速轮轴全流程制造智能工厂名列其中
2025-09-25 06:32:00
文明健康 有你有我清晨7时,赶着去龙潭公园晨练的老人陆续登上803路公交车。此时正值早高峰,车厢里人多拥挤,乘客摩肩接踵
2025-09-25 07:34:00
打破地域壁垒,江苏医保生育服务再加码省内异地分娩费用实现“即生即报”南报网讯(记者王婕妤)江苏医保生育服务再“加码”。近期
2025-09-25 07:39:00
南报网讯(通讯员鼓轩记者王婷婷)9月23日,第十二届产业数字化大会在鼓楼举行。活动中发布最新产业数字化赋能平台,同时启动“中德中小企业‘人工智能+’合作伙伴计划”
2025-09-25 07:40:00
记者走基层|一家县级小医院 引来百位大专家
9月16日,中国人民解放军火箭军特色医学中心肝胆外科医生刘军桂(右)在黄骅市人民医院为患者诊断病情。河北日报记者 李 傲摄9月16日清晨6时
2025-09-25 07:59:00
车主抱着对4S店和汽车品牌的信任购买了保养服务套餐,如今却因门店突然关停,面临“钱交了、服务没了”的境遇。汽车品牌方以“经销商独立经营”为由推诿
2025-09-25 08:00:00
近日,上海市嘉定区南翔镇社区卫生服务中心创新“家医夜市”模式,派出63支家庭医生团队,为户外劳动者提供夜间服务。在一家顺丰网点
2025-09-25 08:01:00
沪一美术馆引入“讲解神器”,可与人互动、拍照答疑
中国青年报客户端上海9月24日电(中青报·中青网记者 王烨捷)你是否遇到过在博物馆租借的智能导览反应不灵敏的情况?当你走近文物
2025-09-25 06:04:00
南京,争上“油”
汇聚500余家行业领军企业,第四届石油石化工业展览会暨易派客工业品展览会在宁举行南京,争上“油”南京本土企业——南京钢铁参展
2025-09-25 07:38:00
多举措整治 摊贩已劝离
本报讯 (全媒体记者王熠帆) “又是凌晨1点被吵醒,楼下喝酒划拳、说笑的声音隔着玻璃都听得清清楚楚,根本不敢开窗户,一开窗全是油烟味
2025-09-25 05:25:00
编者按:在时代的浪潮中,创新创业成为推动城市发展的强劲动力。南京,这座充满历史底蕴与现代活力的城市,正以其独特的魅力吸引着无数怀揣梦想的追光者
2025-09-24 14:45:00
海南农商银行吴彩娇:深耕金融一线十三载 以初心担当书写农商人答卷
消费日报网讯(记者 郑红梅 □ 王静王好)在海南农商银行海口美鑫支行的营业大厅,运营主管吴彩娇的身影始终忙碌而温暖。从2012年入行至今
2025-09-24 14:51:00
烟台毓璜顶医院莱山院区产科:以专业守护新生,用温情点亮孕育
鲁网9月24日讯(记者 魏萱 通讯员 李成修 马瑾)孕育新生命,是一场交织着期待与挑战的旅程。在烟台毓璜顶医院莱山院区
2025-09-24 15:11:00
G3002西安绕城高速方家村立交外环方向至灞桥收费站匝道实施交通管制
据西安交警消息,G3002西安绕城高速方家村立交外环方向至灞桥收费站匝道实施交通管制,详情如下:来源:华商网 相关热词搜索:
2025-09-24 15:26:00
东博会观察:科技出海成主角,广西打造中国-东盟创新共同体
近日,广西南宁国际会展中心人潮涌动,气氛热烈。机器人和机器狗表演“科目三”舞蹈、AI智能眼镜现场翻译、高科技鼠标通过语音控制
2025-09-24 15:31:00