• 我的订阅
  • 头条热搜
科学家提出大模型分子交互学习框架,已在400多万分子对中验证
...次序给出分子的关键生化性质,从而提升分子交互的预测准确率。图 | 预训练阶段的提示词和预期回复的设计(来源:arXiv)期间,预训练阶段的数据来自 Drugbank 和 PubChem,它们都是包含分子-性质对的权威生化数据库。此外,为...……更多
...I语音客服承担超70%的市民咨询接待任务;AI文字客服问答准确率超90%;通过接入12393医保服务热线,助力浙江省医保咨询“一号受理”,打造省市县高度配合的一体化服务体系。北京市首个政务大模型服务平台“亦智”也已在经...……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。在现代化工具的帮助下,...……更多
海信星海大模型接入DeepSeek
...景做试点应用。以数据自动化标注为例,DeepSeek R1(32B)准确率相较其他同参数模型准率提升3%,准确率达到99.67%,从过去半自动化标注全面过渡到全自动化标注,人工投入极大降低。海信星海大模型于2024年9月位列C-Eval评测榜单...……更多
蚂蚁数科能源电力时序大模型EnergyTS发布 预测精度超谷歌、亚马逊
...场景测评显示,该垂类模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。图说:蚂蚁数科EnergyTS能源电力时序大模型Benchmark评分值得注意的是,此次EnergyTS的发布...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
...的 LongVILA 模型在 1400 帧的大海捞针实验中实现了 99.5% 的准确率,相当于 274k 个 token 的上下文长度。此外, MM-SP 系统可以有效地将上下文长度扩展到 200 万个 token 而无需梯度检查点,与环形序列并行(ring sequence parallel……更多
...性和准确性。代码能力上,星火X1不仅提高了代码生成的准确率,对生成代码逻辑理解也进一步提升,能够应对更复杂的编程需求,思考问题的多种可能性,帮助开发者快速实现功能。在语言理解方面,模型输出内容、格式更加...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
...模型中,LLaMA 3.1 405B 在常规 Blocksworld 测试中表现最佳,准确率达到 62.6%。然而模型在 Mystery Blocksworld 的表现却远远落后——没有一个 LLM 在测试集上达到 5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。这种结...……更多
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
...多路径召回的文本内容,进行重排序,进一步提升回答的准确率。 其中,“界面识别模型” 强化了对用户手册中最常见软件界面的支持,主要得益于很多用户都喜欢使用截图来对知识库进行提问。该模型训练数据提取自浩鲸科...……更多
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...绩直接惨不忍睹,表现最好的Command R(simple)只有22.47%的准确率。——要知道,这考试瞎蒙也能得25分(四选一)。 当然,这也说明人家不是瞎蒙的,确实动脑子了。视觉上的长上下文另一篇研究来自UCSB,考察的是视觉大模型...……更多
阿里推出AI数据科学家,全流程自动化,科研小白也能用
...”。步骤2:规范化计算。如果指标是“越大越好”(如准确率、F1分数、AUC),NPS等于原始值;如果指标是“越小越好”(如损失值),则需要将原始值映射到接近1的较高NPS值。规范化后的性能得分范围通常是0到1,其中1表示...……更多
大模型重构生命科学!最大基础模型面世,解锁DNA超长序列
...等,这样一来在各种具体下游任务下,实现更好的性能和准确率。还有像DNA大模型序列长度跃升至128K,可以更好的捕获远端调控信息,实现了超长序列解码生命的可能性。这有点类似于通用大模型具备了长文本读取能力,由此...……更多
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...中,深度研究所使用的模型在专家级问题上达到了26.6%的准确率,刷新之前的18.2%的纪录。 相比之下,DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发,目的是评估人工智能在广泛学科领域的表现,被视为...……更多
表格增强生成TAG登场:解锁AI自然语言与数据库的完美结合
...来总结评论。实验及结果表 1 显示了每种方法的精确匹配准确率和执行时间。如表所示,在选定的 BIRD (一个数据集,用于测试 LMs 的文本到 sql 的能力)查询类型中,研究者发现手写 TAG(hand-written TAG)基线始终能达到 40% 或更...……更多
国产chatgpt何时能出?百度站出来了最快3月评分全球第一
...爆全球,这种对话式AI人工智能凭借过人的智商、超高的准确率震撼了世人,而对国内用户来说,中国这么多研究AI技术的公司,什么时候有对标ChatGPT的产品?在这件事上,百度站出来了,最快3月份发布国产版ChatGPT。据了解,...……更多
百度文心大模型4.0技术进展
...确知识,最后把这些找到的知识组装进Prompt送入大模型,准确率好,效率也高;另一方面,对大模型的输出进行反思,从生成结果中拆解出知识点,然后再利用搜索引擎、知识图谱、数据库,以及大模型本身进行确认,进而对有...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...验评估方面,HourVideo采用五选多任务问答(MCQ)任务,以准确率作为评估指标,分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的MCQ时的一个重要挑战——理想情况下,每个MCQ应独立评估,但这种...……更多
谷歌最新自然语言推理算法
...能让GPT-3的推理性能大幅提升,比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%但诸如CoT和SelectionInference等方法都是以前向(forwarddirection)的方式从公理(axioms)中搜索证明过程(proof)以推导出最终结论(c……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...T-4o mini 仅 37.6 分,ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。基于中文 SimpleQA,我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 s……更多
看病就用支付宝:支付宝推出“AI健康管家”,让AI长出“手和脚”
...使得蚂蚁医疗大模型在医疗问答、报告解读、辅助诊疗等准确率达90%以上。经临床专家验证,证明了该大模型在实际医疗应用中的专业性和可靠性。目前,相关数据集与技术均已开源开放,其背后研发团队也在CVPR、KDD、ACL、ECCV...……更多
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
... DCLM-7B具体表现如何呢?结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,而所需计算量仅为后者的1/6。与其他同等大..……更多
支付宝多模态医疗大模型正式亮相
...医疗多模态结构,使得模型识别报告、药品、毛发等图像准确率达90%以上,相关技术在行业顶尖技术期刊与会议CVPR、KDD、ECCV等发表了多项成果。目前,该多模态医疗大模型不仅提供智能问答、病历结构化和检索、辅助诊断,还...……更多
OpenAI发布最新技术研究,AI“黑盒”不再是难题!
...小模型来验证、监督,GPT-4大模型的输出,从而提升输出准确率以及可控性。PVG技术概念早在2021年8月的一篇论文中就被提出来,OpenAI也正是受此灵感启发。这是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正...……更多
...等技术,实现了农业知识有问必答的同时,提高了回答的准确率,缓解了大模型普遍存在的“幻觉”诟病问题。模型由海量高质量农业知识数据训练而成,数据涵盖农学、园艺学、栽培学、生物信息学、动物科学、动物医学、设...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料(MMedC)构建在构建数据集方面,研究团队收集了一份多语言医疗语料库...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...本能力的一种方法)中,360Zhinao-7B-Chat-360K达到98%以上的准确率。360仿照SuperCLUE-200K测评基准构造了中文大海捞针测试,同样做到了98%以上的准确率。除模型权重外,该模型的微调训练代码,推理代码等全套工具集也被一并开源,...……更多
不仅仅是「GPTs」,支付宝在做一种很新的智能体
...」之处远不止于此,更大的优势在于蚂蚁背后多年技术、知识、经验积累,水到渠成地走向专业智能体路线。以医疗领域为例,支付宝和上海市第一医院联合打造 了Al 就医助理「公济小壹」。为应对医疗领域的业知识的短板,...……更多
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...的可靠性。以下是两个案例:- Phi-2对金融数据情绪分析准确率,从34%提高到85%。- 仅用100个示例,ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说,对于较小的初始精度(<50%),微调是一个巨大的障碍,需要用几...……更多
更多关于科技的资讯:
近日,上城区发布第四批“人工智能+”机会场景清单,25个场景聚焦产业升级、金融服务、智慧教育、智能医疗等重点领域。据悉
2025-12-13 08:06:00
“甩一甩”就能测温的水银体温计,即将在2026年1月1日全面禁产的政策下退出历史舞台。这则消息引发的全网热议,恰是怀旧情感与环保理性
2025-12-13 08:16:00
厦门网讯(厦门日报记者 应洁)昨日,“新质设计——红点产品设计大奖·中国获奖作品精选展”在红点厦门设计博物馆开展,来自70多家中国企业的百余件“红点奖”获奖作品呈现出国际一流设计的“中国力量”
2025-12-13 08:39:00
第六届中国人工智能大赛配套论坛在厦成功举办
厦门网讯(厦门日报记者 翁华鸿 通讯员 张晶晶 王艳红)12日,第六届中国人工智能大赛配套论坛在厦门成功举办。论坛以“融新汇智
2025-12-13 08:39:00
中新经纬12月13日电 据“网信中国”微信号13日消息,2025年12月2日,中央网信办提出并归口的《数据安全技术 电子产品信息清除技术要求》强制性国家标准由国家市场监督管理总局
2025-12-13 10:42:00
中国科大利用磁力系统实现宽带磁声混合频率梳
大皖新闻讯 12月13日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在磁力系统研究中取得新进展。该团队董春华教授研究组通过磁振子与高频声子相互作用
2025-12-13 14:35:00
京东宠物百千万爆品计划启动:联合pidan打造确定性产品 单款猫砂月销1500万
猫砂是猫用品购买频率最高的产品,其潜力被外界看好。不过,因行业门槛低,这两年入局者多、竞争加剧,猫砂利润像纸一样薄,最低仅1%
2025-12-13 14:56:00
2025年“福满榕城 奋勇争先”短视频征集展播——《项目审批专班:“五项机制”激活发展新效能》。
2025-12-13 15:03:00
沁珠宝的2025年:文化赋能,匠心质造,新中式珠宝坚定前行
2025年,是新中式珠宝赛道蓬勃发展的一年,也是沁珠宝以文化为帆、品质为桨,实现跨越式发展的关键之年。在刚刚过去的2025年11月
2025-12-13 16:41:00
鲸鸿动能系列营销案例正式入库复旦管院案例中心,开启产学融合新路径
2025年12月10日,由复旦大学管理学院与鲸鸿动能联合举办的“技术驱动的商业创新:从生态支撑到全球竞逐”主题的案例课堂暨鲸鸿动能案例入库仪式
2025-12-13 16:42:00
硬核突破!全球领先脑肿瘤放疗设备将在廊坊临空实现“中国制造、全球交付”
河北新闻网讯(刘英、刘岩)12月6日,百洋医药高端制造产业化基地在临空经济区(廊坊)高端智能制造港正式启用投产,将承担全球领先脑肿瘤精准放疗设备ZAP-X火星舟放射外科机器人的生产供应任务
2025-12-13 17:52:00
开栏语 深圳,一座将创新刻入基因的城市。无数海归人才,正是这基因中最活跃的段落。作为改革开放的窗口与先锋,她以澎湃的活力与无限的机遇
2025-12-14 11:22:00
日前,第七届浙江国际智慧交通产业博览会在杭州盛大开幕。开幕式上,多项重磅政策与创新成果集中亮相,省交通运输厅、省科技厅共同发布《交通科技创新合作协议》
2025-12-14 11:39:00
海辰储能第三届生态日 发布长时储能与AIDC最新成果
当前,长时储能技术已成为破解新能源波动性难题、打造全天候绿电系统的核心支撑,而AIDC等高能耗行业也亟需依托长时储能的优势破解能源困局
2025-12-14 12:45:00