知识,准确率,推理,蚂蚁,框架,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌最新自然语言推理算法

...能让GPT-3的推理性能大幅提升，比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%但诸如CoT和SelectionInference等方法都是以前向（forwarddirection）的方式从公理（axioms）中搜索证明过程（proof）以推导出最终结论（c……更多

2023-01-09 21:57:00自然语言,算法,推理,自然,语言,目标

看病就用支付宝：支付宝推出“AI健康管家”，让AI长出“手和

...使得蚂蚁医疗大模型在医疗问答、报告解读、辅助诊疗等准确率达90%以上。经临床专家验证，证明了该大模型在实际医疗应用中的专业性和可靠性。目前，相关数据集与技术均已开源开放，其背后研发团队也在CVPR、KDD、ACL、ECCV...……更多

2024-09-09 13:37:00长出,支付,管家,健康,支付,医疗

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

... DCLM-7B具体表现如何呢？结果显示，它在MMLU基准上5-shot准确率达64%，可与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美；并且在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，而所需计算量仅为后者的1/6。与其他同等大..……更多

2024-07-23 09:33:00苹果,一口,模型,一口气,训练,过程

支付宝多模态医疗大模型正式亮相

...医疗多模态结构，使得模型识别报告、药品、毛发等图像准确率达90%以上，相关技术在行业顶尖技术期刊与会议CVPR、KDD、ECCV等发表了多项成果。目前，该多模态医疗大模型不仅提供智能问答、病历结构化和检索、辅助诊断，还...……更多

2024-07-06 13:14:00模态,模型,支付,医疗,模态,模型

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

OpenAI发布最新技术研究，AI“黑盒”不再是难题！

...小模型来验证、监督，GPT-4大模型的输出，从而提升输出准确率以及可控性。PVG技术概念早在2021年8月的一篇论文中就被提出来，OpenAI也正是受此灵感启发。这是一种基于博弈论的训练方法，通过模拟证明者和验证者之间的互动...……更多

2024-07-18 09:47:00最新技术,难题,研究,技术,模型,小数

我国农业科技领域AI应用获重要突破 “神农大模型1.0”发布

...等技术，实现了农业知识有问必答的同时，提高了回答的准确率，缓解了大模型普遍存在的“幻觉”诟病问题。模型由海量高质量农业知识数据训练而成，数据涵盖农学、园艺学、栽培学、生物信息学、动物科学、动物医学、设...……更多

2023-12-31 09:21:00神农,农业科技,模型,突破,领域,我国

迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测

...学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料（MMedC）构建在构建数据集方面，研究团队收集了一份多语言医疗语料库...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

360智脑7b参数模型采用3.4万亿tokens训练

...本能力的一种方法）中，360Zhinao-7B-Chat-360K达到98%以上的准确率。360仿照SuperCLUE-200K测评基准构造了中文大海捞针测试，同样做到了98%以上的准确率。除模型权重外，该模型的微调训练代码，推理代码等全套工具集也被一并开源，...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

不仅仅是「GPTs」，支付宝在做一种很新的智能体

...」之处远不止于此，更大的优势在于蚂蚁背后多年技术、知识、经验积累，水到渠成地走向专业智能体路线。以医疗领域为例，支付宝和上海市第一医院联合打造了Al 就医助理「公济小壹」。为应对医疗领域的业知识的短板，...……更多

2024-10-08 18:08:00不仅仅,支付,智能,智能,百宝,支付

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的可靠性。以下是两个案例：- Phi-2对金融数据情绪分析准确率，从34%提高到85%。- 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说，对于较小的初始精度（<50%），微调是一个巨大的障碍，需要用几...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

大模型是否有推理能力？DeepMind数月前的论文让AI社区

...消失。结果还表明，随着数据集大小的增加，模型的最终准确率会提高（在模型大小之间保持一致）。同样，作者观察到架构大小增加的总体趋势是无论数据集大小如何，整体性能都会提高。通过下表 2 可以得出以下几点：动作...……更多

2024-10-23 12:05:00推理,模型,能力,论文,社区,模型

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率则能够达到 83.3%。这种推理能力的重要意义在于，有望在更广泛的领域应用，例如，药物发现、材料科学、编程、高等数学和物理等。o1 实...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

京东：推动大模型加快落地应用助力培育发展新质生产力

... 2024年07月30日第 16 版）生成图片采纳率达65%、营销文案准确率超95%，生成式人工智能（AIGC）营销工具“京点点”已经服务20多万户商家，助力商家提升运营效率；快递员只需语音录入，就能给用户发去送货短信，还能通过提问...……更多

2024-07-30 06:38:00京东,生产力,落地,模型,应用,生产

英伟达发布Llama-3.1-Nemotron-51B AI

...保持了几乎相同的精度情况下，推理速度提高了 2.2 倍。准确率能效MT BenchMMLUText generation(128/1024)Summarization/ RAG (2048/128)Llama-3.1- Nemotron-51B- Instruct8……更多

2024-09-26 09:49:00英伟,模型,模型,英伟,精度,内存

以图灵机为师：通过微调训练让大语言模型懂执行计算过程

...EF 可在 7 种经典数学算术运算的测试中实现了近乎 100% 的准确率，且能够支撑 100 位操作数的计算，而同等难度下， GPT-4o 在一些算术问题测试中无法正确给出计算结果。论文标题：Executing Arithmetic: Fine-Tuning Large Language ……更多

2024-10-21 09:54:00灵机,模型,训练,过程,语言,运算符

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...增强），对比Lean-CoT和Lean-STaR的表现。仅用专家迭代时，准确率就达到了43.0%，低于Lean-STaR (45.5%)。这表明Lean-STaR的性能提升不仅仅来自于专家迭代的使用，思维增强也有不可忽略的效果。问题类型与难度MiniF2F-test中的问题有多个...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

智慧家庭重磅文件，征求意见稿来了！事关千亿市场、8大应用场景

...拟现实交互以及多模态交互的交互终端、交互流程、响应准确率与响应时间要求等标准；互联互通针对跨品牌、跨平台智慧家庭设备的识别、访问、控制，包括总体要求、云云互联、端云互联、端端互联、注册入网、设备模型等...……更多

2024-11-23 09:40:00重磅,场景,智慧,意见,文件,家庭

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

2023年度“星河产业应用创新奖”揭晓，国网智研院、宝马等1

...司数百人的 IT 核心团队及庞大的供应商团队，解决问题准确率大幅提升的同时，降低约 30%的推理费用和时间。上海南洋万邦软件技术有限公司基于⻜桨和文心大模型打造一站式节能减碳方案，立足产业需求，从碳感知、碳计算...……更多

2024-01-04 16:41:00宝马,创新奖,星河,获奖,年度,产业

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...其专门用于评估模型在化学、物理和生物学等领域的专业知识水平，并邀请了拥有相关领域博士学位的专家参与测试。测试结果显示，o1不仅成功完成了测试，更是超越了博士表现，成为首个在GPQA diamond 基准上击败人类专家的AI...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

苹果AI登场，与OpenAI合作，Siri将采用GPT-4o

...款 2 亿日元，并计划在 2024 财年将拨款提升至 3 亿日元。准确率可达 70%，科学家利用 AI 解读狗的叫声：研究发现，用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。这一模型的主要障碍是缺乏公开可用的数据。研...……更多

2024-06-11 09:00:00情报局,独角兽,情报,芯片,进展,苹果

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...rompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分的绝对优势排名第一。开源共享，引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

港中文团队提出大模型元推理范式，革新大模型的评价体系

...：在教育领域，如果 GPT4 在小学级别的数学题目上的评测准确率只有四成，那么我们难免会对 GPT4 的实用性产生怀疑。在咨询领域，大模型的应用场景高度依赖于对不同方案的推演、整体步骤的拆分、解析等能力。而当今大模型...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

清华开源混合精度推理系统MixQ：大模型近无损量化并提升推理

...合精度量化的LlaMA模型在MMLU 20个领域上的数据集进行推理准确率测试表明，采用8bit混合精度量化后的准确率下降不到0.1%：△图6 混合精度量化分类准确率不过，此前已有的混合精度量化的系统的性能普遍不高，主要瓶颈在针对...……更多

2024-10-22 09:57:00推理,清华,吞吐,精度,混合,模型

腾讯推出PDF识别神器：复杂文档解析准确率超98%

...能推理并对表格数据和结构进行正确复原，极大提高识别准确率。每次复制表格都数据错位的人有福了！不仅中英文，它还支持20+语言，以及繁体字、生僻字等多种类字体。更惊喜的是，它还支持将识别后的图片、PDF文档转换为...……更多

2024-06-21 19:35:00腾讯,准确率,神器,文档,文档,腾讯

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...调模型。经过测试，人类在该基准上可以达到至少82.1%的准确率，但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类，分别只有64.7%和59.9%。目前全部数据已经上传至HuggingFace仓库。仓库地址：https://huggingface.co/da……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力