• 我的订阅
  • 头条热搜
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...问题,是否会导致其在行业应用面临较大的挑战?比如对准确率要求比较高的教育、医疗、金融等行业?赵东岩:是的,所以在这些关键领域,模型的对齐效果非常关键。实践中,可以通过多次校验,对齐,RAG来改善大模型的幻...……更多
科学家提出大模型分子交互学习框架,已在400多万分子对中验证
...次序给出分子的关键生化性质,从而提升分子交互的预测准确率。图 | 预训练阶段的提示词和预期回复的设计(来源:arXiv)期间,预训练阶段的数据来自 Drugbank 和 PubChem,它们都是包含分子-性质对的权威生化数据库。此外,为...……更多
...I语音客服承担超70%的市民咨询接待任务;AI文字客服问答准确率超90%;通过接入12393医保服务热线,助力浙江省医保咨询“一号受理”,打造省市县高度配合的一体化服务体系。北京市首个政务大模型服务平台“亦智”也已在经...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下,...……更多
海信星海大模型接入DeepSeek
...景做试点应用。以数据自动化标注为例,DeepSeek R1(32B)准确率相较其他同参数模型准率提升3%,准确率达到99.67%,从过去半自动化标注全面过渡到全自动化标注,人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多
蚂蚁数科能源电力时序大模型EnergyTS发布 预测精度超谷歌、亚马逊
...场景测评显示,该垂类模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。图说:蚂蚁数科EnergyTS能源电力时序大模型Benchmark评分值得注意的是,此次EnergyTS的发布...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
...性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的多种可能性,帮助开发者快速实现功能。在语言理解方面,模型输出内容、格式更加...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...多路径召回的文本内容,进行重排序,进一步提升回答的准确率。 其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)。 当然,这也说明人家不是瞎蒙的,确实动脑子了。视觉上的长上下文另一篇研究来自UCSB,考察的是视觉大模型...……更多
...持。某教育企业通过该技术,在AI教育问答场景中的答案准确率提升70%,用户满意度提高40%。动态策略调整引擎:基于实时数据反馈和机器学习算法,能够快速调整AI优化策略,以适应不断变化的市场环境和用户行为。某零售品...……更多
阿里推出AI数据科学家,全流程自动化,科研小白也能用
...”。步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。规范化后的性能得分范围通常是0到1,其中1表示...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...等,这样一来在各种具体下游任务下,实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力,由此...……更多
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...、就餐区、货架商品等超过400种细粒度物体的精准识别,准确率超95%,其任务处理时间从原来的3小时优化至5分钟内。同时,阿里云Agent Infra重要组件的无影AgentBay迎来重大升级。无影AgentBay是阿里云为Agent量身打造的“超级大脑...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。 相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为...……更多
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
...来总结评论。实验及结果表 1 显示了每种方法的精确匹配准确率和执行时间。如表所示,在选定的 BIRD (一个数据集,用于测试 LMs 的文本到 sql 的能力)查询类型中,研究者发现手写 TAG(hand-written TAG)基线始终能达到 40% 或更...……更多
国产chatgpt何时能出?百度站出来了最快3月评分全球第一
...爆全球,这种对话式AI人工智能凭借过人的智商、超高的准确率震撼了世人,而对国内用户来说,中国这么多研究AI技术的公司,什么时候有对标ChatGPT的产品?在这件事上,百度站出来了,最快3月份发布国产版ChatGPT。据了解,...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种...……更多
谷歌最新自然语言推理算法
...能让GPT-3的推理性能大幅提升,比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%但诸如CoT和SelectionInference等方法都是以前向(forwarddirection)的方式从公理(axioms)中搜索证明过程(proof)以推导出最终结论(c……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...T-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多
看病就用支付宝:支付宝推出“AI健康管家”,让AI长出“手和脚”
...使得蚂蚁医疗大模型在医疗问答、报告解读、辅助诊疗等准确率达90%以上。经临床专家验证,证明了该大模型在实际医疗应用中的专业性和可靠性。目前,相关数据集与技术均已开源开放,其背后研发团队也在CVPR、KDD、ACL、ECCV...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
... DCLM-7B具体表现如何呢?结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大..……更多
支付宝多模态医疗大模型正式亮相
...医疗多模态结构,使得模型识别报告、药品、毛发等图像准确率达90%以上,相关技术在行业顶尖技术期刊与会议CVPR、KDD、ECCV等发表了多项成果。目前,该多模态医疗大模型不仅提供智能问答、病历结构化和检索、辅助诊断,还...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...小模型来验证、监督,GPT-4大模型的输出,从而提升输出准确率以及可控性。PVG技术概念早在2021年8月的一篇论文中就被提出来,OpenAI也正是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正...……更多
...等技术,实现了农业知识有问必答的同时,提高了回答的准确率,缓解了大模型普遍存在的“幻觉”诟病问题。模型由海量高质量农业知识数据训练而成,数据涵盖农学、园艺学、栽培学、生物信息学、动物科学、动物医学、设...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库...……更多
更多关于科技的资讯:
当城市核心区的物理空间增长几近饱和,未来的竞争力新高地何在?12月5日,一场发布会以别开生面的“数字气味”体验开场,为上城区加快建设中央创新区(CID)的战略发布
2025-12-07 07:21:00
日前,山西转型综改示范区入区企业山西恒真真空玻璃科技有限公司自主研发的新产品——“真空发热玻璃”上市。这一产品将高效真空玻璃技术与新型半导体制热技术深度融合
2025-12-07 07:32:00
生产设备共享给清河羊绒带来什么——河北特色产业集群共享智造故事(四)纱线在电脑横机上来回穿梭、电商平台的提示音此起彼伏……随着冬季来临
2025-12-06 08:04:00
厦门移动智慧康养产品亮相首届海峡两岸(厦门)银发博览会
市民现场体验移动随心屏(闺蜜机)的AI舌象问诊功能。厦门网讯 (文/厦门日报记者 许晓婷 王玉婷 通讯员 陈奕珣 图/厦门移动 提供)伸出舌头拍一拍
2025-12-06 08:26:00
厦门网讯 (厦门日报记者 林露虹)刷到一部微短剧,不知不觉被剧情吸引,回过神来看介绍,发现竟是AI参与制作的。类似经历
2025-12-06 08:26:00
从“手搓”到“智造” 厦门跑步机“跑”向全球
厦门网讯 (厦门日报记者 詹文 林健华)在位于同安工业集中区的生产车间里,一节一节钢板正传送上激光切割台,自动切割、打孔
2025-12-06 08:26:00
共建共享破局资源瓶颈:临沂联通与电信合作以5G RedCap创新实现业务与服务双突破
鲁网12月5日讯近日,临沂联通与临沂电信深度践行国家共建共享战略,成功完成全省首个基于电信800M频段的5G RedCap技术承载联通物联网专网业务的商用落地
2025-12-06 13:44:00
中国青年报客户端讯(中青报·中青网记者张均斌)近日,“中央引导地方”专项科技赋能文化方向立项课题——“面向文博场景的智能伴游导览系统研发及示范应用”启动会
2025-12-06 15:25:00
2025教室节能照明标杆盘点 四大品牌绿色护眼解决方案解析
在“双碳”目标引领下,校园节能改造成为教育领域绿色发展的重要方向。据住建部统计,商业建筑能耗中照明系统占比高达35%,学校作为人员密集
2025-12-06 16:09:00
海尔智慧家电亮相迪拜
11月26日至28日,中东地区极具影响力的家电电子展在迪拜世贸中心举办。展会中,海尔智家针对当地高温、多尘等特点,集中展示了洗衣机
2025-12-06 16:10:00
12月1日,豆包手机助手技术预览版正式发布,首发搭载于中兴Nubia工程样机。豆包手机助手是以豆包APP为基础,与手机厂商在操作系统层面合作开发的AI助手软件
2025-12-06 17:41:00
文化中国行|全场听觉无死角 吉林省音乐厅声学揭秘
历经修缮重生的丰乐剧场,以“吉林省音乐厅”之名即将绽放春城。这座历史建筑,从伪满时期影剧院到音乐剧场的跨越,背后藏着一套极致考究的声学设计方案
2025-12-06 18:41:00
伊贝格:让机床行业不再为“头”烦恼
“关键核心技术与高端装备对外依存度高”一直是制约制造业升级的瓶颈。五轴联动铣头作为五轴机床的核心功能部件,过去很长一段时间被欧洲部分知名厂商垄断
2025-12-06 22:07:00
山东重工潍柴集团2026年商务大会圆满召开
鲁网12月6日讯12月6日,以“乘势向上 聚力向新”为主题的山东重工潍柴集团2026年商务大会在潍坊举行。山东重工集团党委书记
2025-12-06 22:43:00
近日,兴业数金上线投产跨境人民币理财项目,建立基于手机银行APP的“跨境理财通”线上功能专区,助力本行成为第二家实现“跨境理财通”业务全线上办理的内地商业银行
2025-12-06 16:08:00