准确率,实测,模型,能力,规划,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

混合架构赋予AI人类推理能力

...与没有“动作域获取”影响的情况下执行相同任务相比，准确率分别提高了59%和89%。研究人员希望在可预见的未来为“动作域获取”找到其他家务用途。能够解决问题“语言引导的抽象”框架也让机器人能够像人一样更好地理解...……更多

2024-06-12 18:15:00推理,架构,混合,人类,能力,语言

真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几

...知、检索增强式生成（RAG）和自适应生成能力，研发问答准确率超过 90%。据统计，通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时，随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化，通义灵码的...……更多

2024-09-21 09:38:00通义,阿里,程序员,进化,流程,程序

百度文心大模型4.0技术进展

...确知识，最后把这些找到的知识组装进Prompt送入大模型，准确率好，效率也高；另一方面，对大模型的输出进行反思，从生成结果中拆解出知识点，然后再利用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，进而对有...……更多

2023-10-18 04:20:00文心,进展,模型,技术,模型,文心

高途深度整合DeepSeek，全面升级AI赋能教育模式

...时，在用户产品侧，以DeepSeek为技术核心的高中数学测评准确率提升了15%，高中AI选科规划服务借由AI助力也实现了质量的提高。高途教育科技集团联合创始人罗斌表示：“以DeepSeek-R1为代表的技术创新，将大模型技术在教育场景...……更多

2025-02-13 12:00:00深度,整合,升级,模式,教育,进一

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...语言模型在预测神经科学结果方面超越了人类专家，平均准确率达到81%，而人类专家仅为63%；模型通过整合大量文献数据，展现出了惊人的前瞻性预测能力，预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下，...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

“数字@成都” 让成都更美好

...客服场景已运行5个月，实测数据显示，大模型意图理解准确率达91%，已接近于人，相较于传统AI的68%有较大提升。不仅如此，天镜能同时在多个文档的文字、图表等多模态文本中找到并融合答案，充分理解后将其组织为人更容易...……更多

2023-12-29 02:49:00成都,数字,成都,京东,天镜,人工智能

我在百度大模型应用升级里，找到了企业增收提效的最佳路径

...面，甄知将传统被动式的搜索知识转变为主动获取知识，准确率高达90%。喻友平现场演示了基于甄知平台构建的参会小助手，其可以以自然语言方式交互，为用户解答会议相关地点、报名等问题，提供产品最新升级知识信息点...……更多

2024-06-27 09:21:00路径,模型,升级,应用,企业,知识

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...中，深度研究所使用的模型在专家级问题上达到了26.6%的准确率，刷新之前的18.2%的纪录。相比之下，DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

...中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%；在非拉丁文字语言上，所有模型的表现显著弱于英语。在大语言模型（LLMs）不断发展的背景下，如何评估这些模型在多轮对话和多语言环境下的指...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

大模型能省钱了：国内首个“AI评标师”已上岗

...审系统通过运用AI技术进行采购场景创新，使得智能评审准确率大幅提升。据了解，国家能源集团的智能无人评审系统实现了非招标采购全类别（物资、工程和服务）、全评审方式（询价通知单、最低价、综合评估法）全覆盖。...……更多

2024-04-17 14:43:00模型,智能,讯飞,模型,评审,星火

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料（MMedC）构建在构建数据集方面，研究团队收集了一份多语言医疗语料库...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

开年“王炸”！智能体再升级，科大讯飞打造办公新范式

...时音频文件，5分钟转录完毕，提炼仅需1分钟，角色分离准确率超95%；提供销售、访谈等12种场景模板，转录准确率超96%，总结准确率超90%。帮助企业及其员工在每一次交流中，都能快速挖掘到宝贵的信息价值。星火投标专业...……更多

2025-01-08 17:35:00开年,讯飞,范式,升级,智能,办公

讯飞星火首发智能体平台，敏捷触达大模型应用企业落地最后一公里

...模型消耗的运算资源非常大。为了解决大模型应用效率和准确率问题，刘庆峰谈道，基于讯飞星火V3.5对长文本的理解、学习、回答能力，科大讯飞进行了重要的模型剪枝和蒸馏，从而推出业界性能最优的130亿参数的大模型，在...……更多

2024-04-26 11:44:00讯飞,星火,敏捷,落地,模型,智能

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...理能力，并证实了我们的训练策略的有效性。除了更高的准确率外，我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍，这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

钉钉自己挤上牌桌

...比不同模型和工作流程得出结果的性能：仅用GPT-3.5模型准确率为48%，仅用GPT-4模型准确率为67%，GPT-3.5+Agent效果高于GPT-4模型的表现，GPT-4+Agent的效果则远高于GPT-4模型。 AI Agent市场的快速发展也超出很多人的预估。MarketsandMa……更多

2024-05-01 02:00:00牌桌,助理,模型,应用,场景,能力

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率则能够达到 83.3%。这种推理能力的重要意义在于，有望在更广泛的领域应用，例如，药物发现、材料科学、编程、高等数学和物理等。o1 实...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

海信星海大模型接入DeepSeek

...景做试点应用。以数据自动化标注为例，DeepSeek R1（32B）准确率相较其他同参数模型准率提升3%，准确率达到99.67%，从过去半自动化标注全面过渡到全自动化标注，人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多

2025-02-13 16:06:00海信,星海,接入,模型,海信,模型

聚焦2024数博会｜城市拥堵存难题？百度有新解

...交通流量的变化规律，进行交通流量的五分钟短时预测，准确率在80%以上，进一步保障信控优化效果。同时，百度通过利用百度地图+百度大模型的整合技术优势，利用交通大模型的推荐策略，可以实现个性化精准提示，让市民...……更多

2024-08-29 20:10:00新解,难题,城市,交通,模型,贵阳

浪潮数字商业发布基于大模型的数字员工3.0解决方案 --

...烟草行业特定图像识别任务中，提高模型训练效率和识别准确率，满足大规模门店巡查和实时数据分析需求。自然语言处理与交互：基于自然语言处理技术，构建智能交互对话系统，运用语音识别技术将用户语音指令准确转化为...……更多

2025-03-03 14:42:00数字,金叶,解决方案,方案,浪潮,模型

全方位抗险的“韧性城市”，如何打造？

...了多次实战应用，经灾后对比核实，全省总受灾人口预测准确率达96%，为省级和各地方应急部门的台风风险研判和指挥调度提供了科学量化的决策参考。2024年，上海发布《上海市加快推进韧性安全城市建设的意见》，提出全面...……更多

2024-12-09 09:53:00韧性,全方位,城市,韧性,城市,灾害

奥特曼晒“草莓”引热议神秘新模型现身竞技场网友第一波实测

...更显得“有理有据”了。新模型现身竞技场，网友第一波实测最早在昨天下午，有网友发现lmsys竞技场上多了个匿名新模型anonymous-chatbot。之前很多包括OpenAI在内很多科技公司都会发布前会进行一波测试。再加上它自称是GPT-4模型...……更多

2024-08-08 15:11:00奥特,奥特曼,一波,实测,竞技场,草莓

文档处理效能飙升！浩鲸科技“文档大模型”核心技术揭秘！

...多路径召回的文本内容，进行重排序，进一步提升回答的准确率。其中，“界面识别模型” 强化了对用户手册中最常见软件界面的支持，主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多

2024-09-26 13:36:00文档,效能,模型,核心,处理,技术

医疗大模型激战正酣，京东健康锋芒再露

...求。”数据显示，京东健康皮肤医院基于大模型的AI辅诊准确率超过95%，皮肤医院开发的专病随访服务患者付费转化率已达20%。准确性数据的背后是一个个真实的辅诊案例，中国医科大学附属第一医院皮肤科郭昊医生就曾分享过...……更多

2024-07-24 17:51:00京东,锋芒,模型,医疗,健康,京东

荣耀Magic V5发布，一文看懂YOYO到底有多强大

...息和自动执行任务方面表现出色，例如，MagicGUI模型操作准确率高达91.5%，MagicVL-Nano端侧模型可在保护用户隐私安全基础上实现低功耗图像理解；此外，荣耀构建的三款云端大语言模型，可实现个性化推理、精准理解用户意图；...……更多

2025-07-04 13:11:00一文,荣耀,荣耀,智能,用户,模型

大幅减缓幻觉百融云创大模型精度测评结果出炉

...有正确答案的问题），百融云创大模型在回答非IDK问题时准确率达到67.7%左右，回答IDK问题时的准确率达到33.3%，整体准确率达到50.5%，略高于ChatGPT3.5的50.3%。孔子曰，知之为知之，不知为不知，是知也，一个“聪明”的大模型也...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

超级推理模型正面对垒：谷歌版o1发布次日，OpenAI o1

...突破，最高的测试成绩达到了类人水平。o3软件工程测试准确率比o1高近47% 竞赛数学高15% 人类博士专家级生化物高近13%今年9月，OpenAI 发布o1的预览版o1 preview时称，o1是第一个具备真正通用推理能力的大模型，它的核心能力推理...……更多

2024-12-21 09:15:00下一代,推理,正面,模型,模型,测试

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...调模型。经过测试，人类在该基准上可以达到至少82.1%的准确率，但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类，分别只有64.7%和59.9%。目前全部数据已经上传至HuggingFace仓库。仓库地址：https://huggingface.co/da……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力