• 我的订阅
  • 头条热搜
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率则能够达到 83.3%。这种推理能力的重要意义在于,有望在更广泛的领域应用,例如,药物发现、材料科学、编程、高等数学和物理等。o1 实...……更多
聚焦2024数博会|城市拥堵存难题?百度有新解
...交通流量的变化规律,进行交通流量的五分钟短时预测,准确率在80%以上,进一步保障信控优化效果。同时,百度通过利用百度地图+百度大模型的整合技术优势,利用交通大模型的推荐策略,可以实现个性化精准提示,让市民...……更多
奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...更显得“有理有据”了。新模型现身竞技场,网友第一波实测最早在昨天下午,有网友发现lmsys竞技场上多了个匿名新模型anonymous-chatbot。之前很多包括OpenAI在内很多科技公司都会发布前会进行一波测试。再加上它自称是GPT-4模型...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...多路径召回的文本内容,进行重排序,进一步提升回答的准确率。 其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多
医疗大模型激战正酣,京东健康锋芒再露
...求。”数据显示,京东健康皮肤医院基于大模型的AI辅诊准确率超过95%,皮肤医院开发的专病随访服务患者付费转化率已达20%。准确性数据的背后是一个个真实的辅诊案例,中国医科大学附属第一医院皮肤科郭昊医生就曾分享过...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...有正确答案的问题),百融云创大模型在回答非IDK问题时准确率达到67.7%左右,回答IDK问题时的准确率达到33.3%,整体准确率达到50.5%,略高于ChatGPT3.5的50.3%。孔子曰,知之为知之,不知为不知,是知也,一个“聪明”的大模型也...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...调模型。经过测试,人类在该基准上可以达到至少82.1%的准确率,但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类,分别只有64.7%和59.9%。 目前全部数据已经上传至HuggingFace仓库。仓库地址:https://huggingface.co/da……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但...……更多
...数据后,再给到大模型进行处理,这将大大提高大模型的准确率。“我们做过一些评测,表格识别准确率能达到92%,标题识别准确率达到95%,段落识别准确率达到93%。”百融云创AI创新负责人表示。在解决大模型幻觉问题上,百...……更多
...文本理解能力,在数据样本覆盖面、泛化学习能力、诊断准确率等方面处于行业领先水平。“当前,能源行业的设备存在种类多、结构和机理复杂、运维难度大等问题。为解决这些问题,我们基于国家能源集团自建的人工智能底...……更多
...基层减负等场景,实现基层材料整理效率提升100倍,回复准确率提升至75%;智能生成电子病历,实现一份入院记录生成时间仅需15秒,内容准确率90%以上,降低工作量超过70%;制造业新产品研发,实现靶点识别准确率提高至95%,...……更多
中移云智服赋能千行百业打造定制化解决方案 助力科技创新成果造福企业惠及万民
...其中,自助服务的问答机器人加持大模型后更懂业务,应答准确率可达90%以上;人工服务方面,“智能会话+知识推荐+智能会话小结”可提高服务质量和效率;“智能派单+自动填单”可精准辅助坐席处理工单,填单准确率达85%。此外,升...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...:在教育领域,如果 GPT4 在小学级别的数学题目上的评测准确率只有四成,那么我们难免会对 GPT4 的实用性产生怀疑。在咨询领域,大模型的应用场景高度依赖于对不同方案的推演、整体步骤的拆分、解析等能力。而当今大模型...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...)两部分作为上下文信息,模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字(TEI)的作为上下文信息,并不包含图像(VI),模型能还原出的遮住文字的准确率。 结果表明:绝大多数模型目前都不能胜...……更多
有了AI,亚马逊把物流玩得更溜了
...。十年前,亚马逊首次将深度学习模型引入SCOT,预测的准确率在短短两年内跃升了15倍,同时亚马逊能够储备更多的商品,并更快地将商品送到客户手中。2020年,亚马逊开始使用Transformer框架,来引入一个统一的预测模型。在亚...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...本能力的一种方法)中,360Zhinao-7B-Chat-360K达到98%以上的准确率。360仿照SuperCLUE-200K测评基准构造了中文大海捞针测试,同样做到了98%以上的准确率。除模型权重外,该模型的微调训练代码,推理代码等全套工具集也被一并开源,...……更多
阿里达摩院发布业内首个遥感ai大模型,支持多模态交互
...型在一些特定场景下,对比传统的遥感模型,实例提取的准确率可提升25%,变化检测的准确率可提升30%。达摩院同时声称,这一遥感AI大模型提供了“开箱即用”的API调用服务,用户可以根据需求定制不同的遥感AI解译功能,如...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅...……更多
容联云QCon全球软件大会分享:大模型引领“营销服”创新实践
...意地方询问Copilot大模型客服助手问题,即问即答,知识准确率达到89%。2、银行话术助手:提高业务转化率 在银行营销业务中,优秀的营销话术能够有效提升业务转化率。原来,是靠主管听完大量录音后总结话术给到营销员,但...……更多
2024中国AI大模型产业发展报告发布 展望五大产业趋势
...务等场景中降本增效、生产自动化、降低风险、提高诊断准确率、提高政务服务效率等诉求。相关领域的创新和发展共同推动着中国AI大模型产业的蓬勃发展,预示着未来更广阔的市场前景。 中国AI大模型产业呈现蓬勃发展的态...……更多
不要小看「实而不华」的腾讯 AI
...统深刻理解广告内容,精排大模型提升广告和用户的匹配准确率。更直接地,去年年底,人工智能技术驱动带来的业务增长在腾讯财报中开始有了更加明显的体现。在 2023 年第四季度及全年业绩发布后,腾讯董事会主席兼首席执...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)。 当然,这也说明人家不是瞎蒙的,确实动脑子了。视觉上的长上下文另一篇研究来自UCSB,考察的是视觉大模型...……更多
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...,支持声音的跨语种迁移;豆包·语音识别模型:更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别;豆包·文生图模型:更精准的文字理解能力,图文匹配更准确,画面效果更优美,擅长对中国文化元素的...……更多
“钻研ChatGPT”一年多后 顺丰推出“丰知”物流决策大模型
...露,货拉拉自研的货运无忧大模型已在多场景应用,问答准确率超过90%。如今随着顺丰的加入,物流大模型混战再次升级,在物流公司的大模型时代竞争中,谁又将抢占先机?“丰知”物流决策大模型旨在将大模型技术应用于物...……更多
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
...评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。不过现有科研辅助相关的基准测试都...……更多
... Labs团队研发的最新迭代人工智能模型AlphaFold3,能以较高准确率预测蛋白质与其他生物分子相互作用的结构,其准确率比之前的专用工具显著提升。AlphaFold3能预测含有蛋白质数据银行(Protein Data Bank)内几乎所有分子类型的复合物...……更多
...科研人员一遍又一遍地认识到大模型的能量。从分析结果准确率低、需人工二次确认到分析准确率提高至95%,从每月分析600余篇到每周3000+篇医药相关信息文档,在海若大模型的加持下,齐鲁制药实现了效率和质量的双重飞跃...……更多
...的缺陷隐患样本极少,传统小模型难以识别;且平均识别准确率低于80%,无法做到智能辅助、精确分析。南方电网广西电网公司机巡与不停电作业中心有关负责人介绍,以往依靠小模型对线路巡检图像查缺,可能会把铁塔上的树...……更多
...内部、外部和前瞻性数据集中,测试了该模型,结果显示准确率达98%。团队还进行了一项前瞻交叉试验,以进一步评估AI模型的性能和辅助能力。结果显示,该模型的准确率相较于专家内镜医师、资深内镜医师与新手内镜医师均...……更多
更多关于科技的资讯:
文化中国行|硬核数据作证 吉林省音乐厅跻身顶级音乐厅行列
吉林省音乐厅12月31日即将惊艳亮相,这是一座音质效果优秀的专业音乐殿堂,凭借过硬的声学品质,足以跻身国内外同等规模的顶级音乐厅行列
2025-12-14 10:39:00
湖南银行推出“福享幸福+”品牌深耕养老金融新蓝海
在人口老龄化加速与“银发经济”蓬勃发展的时代背景下,湖南银行推出养老金融品牌“福享幸福+”,以“金融+健康+生活”为核心定位
2025-12-13 16:46:00
手捧“创业安徽”金奖 “上海南七里”奔赴“合肥南七里”
大皖新闻讯 日前,第四届创业安徽大赛决赛在合肥举办,来自国内外的21个创新创业项目获奖,分享270万元奖金。其中,10个优质项目还现场签署协议
2025-12-13 19:14:00
杭州日报讯 12月12日,第十届中国设计智造大奖(Design Intelligence Award,下文简称“DIA”)颁奖盛典在中国美术学院良渚校区举行
2025-12-14 07:04:00
在全球制造业加速迈向智能化与数字化的今天,构建高效、可靠且面向未来的自动化系统,已成为企业提升核心竞争力、应对市场不确定性的战略基石
2025-12-13 22:48:00
潮聚湾区 创玩未来——《广州潮玩产业招商研究报告》发布会暨行业主题研讨会在荔湾成功举办
为精准把握潮玩产业蓬勃发展的时代脉搏,助力广州建设具有全球影响力的潮玩产业高地,12月11日,由广州市投资发展委员会办公室主办
2025-12-13 16:43:00
12日晚,第十届中国设计智造大奖(DIA)颁奖盛典在中国美术学院良渚校区举行。第十届中国设计智造大奖征集自2024年12月12日启动
2025-12-13 07:36:00
全球首个甲骨文智能体“殷契行止” 上线 最懂甲骨文的AI来了
小程序“了不起的甲骨文”,展示甲骨文“其”的不同字形。(本组图/小程序截图)甲骨拓本甲骨文“门”字 甲骨文摹本甲骨文“马”字扫码看视频 厦门网讯 (厦门日报教育工作室首席专家 佘峥 通讯员 王志鹏)你只需往电脑上传一张甲骨图片
2025-12-12 08:28:00
厦门网讯(厦门日报记者 曾嫣艳 通讯员 曾焕滨)昨日,厦门临空经济片区场景创新平台推广暨供需对接与企业路演活动在翔安创新实验室举办
2025-12-12 08:28:00
从流程到质量:制片人为短剧工业化提供的“52集样本”
在短剧行业从 “流量争夺” 转向 “品质与流程双竞争” 的关键阶段,如何在有限周期内平衡效率、成本与成片质量,成为所有制作机构必须破解的难题
2025-12-12 08:29:00
剧想天开,造梦未来|一场关于“儿童剧人物造型”的想象力实验
儿童戏剧,是投射在少年儿童心灵舞台上的第一束光。人物造型,作为这束光中最具象、最绚烂的色彩,不仅定义角色的灵魂,更深刻影响着儿童认知世界的方式与审美情感的塑造
2025-12-12 08:29:00
聚焦“中文+职业”融合:星禾星穗在世界中文大会展示校企合作新范式
在近期举办的2025世界中文大会上,教育企业星禾星穗多维度参与,展现了其在“中文+专业/职业”领域的系统思考与实践成果
2025-12-12 08:30:00
会打拳的机器人带你触摸未来 走进国家“芯火”双创基地象屿园区孵化加速器
元启创新的人形机器人正在打拳。(元启创新 供图)厦门网讯 (厦门日报记者 吴晓菁) “灵犀,灵犀,表演一段佛山醒狮。”昨日
2025-12-12 08:59:00
“数字丝路”赋能文化出海,中国数字文化扬帆全球新蓝海
2025年12月9日下午,一场聚焦数字文化出海与青年文化交流的“共建数字丝绸之路”研讨会在上海举行。中国传媒大学经济与管理学院教授方英
2025-12-12 09:00:00
AI 眼镜似乎成了AI具身智能行业中最“靓”的仔,无论是苹果、谷歌这些大厂,还是国内的科技巨头,纷纷下场。本周二,谷歌在The Android Show活动上宣布
2025-12-12 09:10:00