知识,准确率,推理,蚂蚁,框架,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...学场景。所有数据和代码、模型均已开源。MMedBench 上的准确率，图 d 展⽰了在 MMedC 上进⼀步预训练使模型性能相⽐于基线显著提升。大规模多语医疗语料（MMedC）构建在构建数据集方面，研究团队收集了一份多语言医疗语料库...……更多

2024-09-30 09:51:00多语,大规,模型,语料,基准,大规模

360智脑7b参数模型采用3.4万亿tokens训练

...本能力的一种方法）中，360Zhinao-7B-Chat-360K达到98%以上的准确率。360仿照SuperCLUE-200K测评基准构造了中文大海捞针测试，同样做到了98%以上的准确率。除模型权重外，该模型的微调训练代码，推理代码等全套工具集也被一并开源，...……更多

2024-04-14 01:04:00模型,训练,参数,模型,文本,评测

不仅仅是「GPTs」，支付宝在做一种很新的智能体

...」之处远不止于此，更大的优势在于蚂蚁背后多年技术、知识、经验积累，水到渠成地走向专业智能体路线。以医疗领域为例，支付宝和上海市第一医院联合打造了Al 就医助理「公济小壹」。为应对医疗领域的业知识的短板，...……更多

2024-10-08 18:08:00不仅仅,支付,智能,智能,百宝,支付

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...的可靠性。以下是两个案例：- Phi-2对金融数据情绪分析准确率，从34%提高到85%。- 仅用100个示例，ChatGPT对Reddit评论情绪分析的准确率从48%提高到73%。通常来说，对于较小的初始精度（<50%），微调是一个巨大的障碍，需要用几...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率则能够达到 83.3%。这种推理能力的重要意义在于，有望在更广泛的领域应用，例如，药物发现、材料科学、编程、高等数学和物理等。o1 实...……更多

2024-09-20 13:33:00模型,推理,思维,原理,核心,模型

京东：推动大模型加快落地应用助力培育发展新质生产力

... 2024年07月30日第 16 版）生成图片采纳率达65%、营销文案准确率超95%，生成式人工智能（AIGC）营销工具“京点点”已经服务20多万户商家，助力商家提升运营效率；快递员只需语音录入，就能给用户发去送货短信，还能通过提问...……更多

2024-07-30 06:38:00京东,生产力,落地,模型,应用,生产

英伟达发布Llama-3.1-Nemotron-51B AI

...保持了几乎相同的精度情况下，推理速度提高了 2.2 倍。准确率能效MT BenchMMLUText generation(128/1024)Summarization/ RAG (2048/128)Llama-3.1- Nemotron-51B- Instruct8……更多

2024-09-26 09:49:00英伟,模型,模型,英伟,精度,内存

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...增强），对比Lean-CoT和Lean-STaR的表现。仅用专家迭代时，准确率就达到了43.0%，低于Lean-STaR (45.5%)。这表明Lean-STaR的性能提升不仅仅来自于专家迭代的使用，思维增强也有不可忽略的效果。问题类型与难度MiniF2F-test中的问题有多个...……更多

2024-08-10 09:47:00顶新,成数,清华,模型,训练,高手

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...T4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。目前该论文已被ACL 2024接……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

2023年度“星河产业应用创新奖”揭晓，国网智研院、宝马等1

...司数百人的 IT 核心团队及庞大的供应商团队，解决问题准确率大幅提升的同时，降低约 30%的推理费用和时间。上海南洋万邦软件技术有限公司基于⻜桨和文心大模型打造一站式节能减碳方案，立足产业需求，从碳感知、碳计算...……更多

2024-01-04 16:41:00宝马,创新奖,星河,获奖,年度,产业

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能

...其专门用于评估模型在化学、物理和生物学等领域的专业知识水平，并邀请了拥有相关领域博士学位的专家参与测试。测试结果显示，o1不仅成功完成了测试，更是超越了博士表现，成为首个在GPQA diamond 基准上击败人类专家的AI...……更多

2024-09-13 16:44:00复旦,相关性,概率,推理,模型,教授

苹果AI登场，与OpenAI合作，Siri将采用GPT-4o

...款 2 亿日元，并计划在 2024 财年将拨款提升至 3 亿日元。准确率可达 70%，科学家利用 AI 解读狗的叫声：研究发现，用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。这一模型的主要障碍是缺乏公开可用的数据。研...……更多

2024-06-11 09:00:00情报局,独角兽,情报,芯片,进展,苹果

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

...rompt 设计、多模型的投票机制等手段，进一步提高了模型准确率和鲁棒性，最终以领先第二名将近 3 分的绝对优势排名第一。开源共享，引领创新TeleChat2-115B 的开源标志着大模型国产化迈进了又一个新征程。作为最早布局并首先...……更多

2024-09-30 09:50:00万卡,重磅,模型,国产,训练,模型

港中文团队提出大模型元推理范式，革新大模型的评价体系

...：在教育领域，如果 GPT4 在小学级别的数学题目上的评测准确率只有四成，那么我们难免会对 GPT4 的实用性产生怀疑。在咨询领域，大模型的应用场景高度依赖于对不同方案的推演、整体步骤的拆分、解析等能力。而当今大模型...……更多

2024-03-04 10:23:00革新,模型,范式,中文,推理,团队

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...调模型。经过测试，人类在该基准上可以达到至少82.1%的准确率，但Claude 3.5 Sonnet和GPT-4o等顶流模型的成绩却远远落后于人类，分别只有64.7%和59.9%。目前全部数据已经上传至HuggingFace仓库。仓库地址：https://huggingface.co/da……更多

2024-08-08 16:23:00模态,领衔,基准,推理,视觉,能力

腾讯推出PDF识别神器：复杂文档解析准确率超98%

...能推理并对表格数据和结构进行正确复原，极大提高识别准确率。每次复制表格都数据错位的人有福了！不仅中英文，它还支持20+语言，以及繁体字、生僻字等多种类字体。更惊喜的是，它还支持将识别后的图片、PDF文档转换为...……更多

2024-06-21 19:35:00腾讯,准确率,神器,文档,文档,腾讯

春节流量给支付宝留下了什么？

...是能做的。”陈亮认为，当下AI技术的挑战主要在于提高准确率。以往依赖复杂且可行性不高的模板来调用功能，不仅难以保持高准确率，而且维护困难，导致项目难以持续，大模型技术的引入给LUI提供了更多的可能。基于大模...……更多

2024-02-16 12:00:00流量,支付,五福,支付,模型,蚂蚁

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

...可能会掣肘大模型落地应用；需求尽快找到大模型落地与知识产权保护、数据隐私保护之间的平衡点；大模型幻觉问题仍未得到“根治”；大模型从“可用”到“好用”，需要供需双方协同发力，联合研发；部分领域应用积极响...……更多

2024-04-28 11:00:00大佬,清华,微软,重磅,北京,蚂蚁

蚂蚁数科SOFAStack发布全栈AI服务，助力企业用好大模

...站式模型工作台，并实现可视化研发、管理多种具备行业知识库的Agent（智能体）应用，助力企业跑完企业AI应用业务落地的最后一公里。“大模型的高速发展使得AI不得不面临算力管理复杂、训练推理成本高、任务调度难等多方...……更多

2024-06-28 18:10:00蚂蚁,模型,服务,企业,模型,训练

AI新时代揭幕！会“思考解题逻辑”的OpenAI推理大模型登

...中，AI会不断试错并打磨答案，从而显著提高生成结果的准确率和质量。有趣的是，点开AI思考的过程，还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认，这里展示的并不是原...……更多

2024-09-13 13:34:00新时代,推理,逻辑,模型,模型,问题

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据，以及在榜单上的最新评测的结果。 ……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

用AI自动设计智能体，数学提分25.9%，远超手工设计

...分数提高了 13.6/100（与基线比），在 MGSM 的数学任务中将准确率提高了 14.4%。此外，在跨域迁移后，它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比，本文算法表现出色，这...……更多

2024-08-24 09:36:00设计,手工,数学,智能,智能,元智

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

...准等方面都建立了很深度的链接。目前我们在北上杭这块准确率，基本上能做到百分之八九十，还在继续优化中。第二个是全科医生。医疗领域面临一个主要问题是，AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定...……更多

2024-09-29 09:55:00军大,切入点,模型,支付,医疗,应用

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

...效率提升了25%。在智能办公领域，大模型目前的意图识别准确率已达到97%。奇富科技则透露，通过AIGC的强大赋能，在电销系统中，语义分析和线索挖掘帮助提升电销线索识别准确率高达98%，同时将转化率提高超过5%。在智能营销...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

中兴通讯携手上海移动开展业界首个基于大模型的短信反诈治理探索

...、语义等根源维度上进行治理，有效提升诈骗短信的识别准确率、拦截率和召回率。自该系统上线后，境外涉诈案件数量明显降低，为减少人们财产损失、维护社会和谐做出贡献。基于大模型的短信反诈治理主要包括AI实时推理...……更多

2023-10-12 17:21:00中兴通讯,上海,模型,业界,通讯,短信

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

...于 Python、C++、J等多种语言。在HumanEval基准测试中，它的准确率为53% ，接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日，Mistral联合创始人兼CEO Arthur Mensch在X上表示，引发众多猜测的“miqu-1-70b”是……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

蚂蚁集团井贤栋：恪守科技伦理，推动AI向善而行

...严谨产业，业界普遍认为面临着三个“能力短板”：领域知识相对缺乏、复杂决策难以胜任，以及对话交互不等于有效协同。而垂直领域、高质量的数据往往以多种模态存在，体系庞杂，比较分散，对隐私保护和资产价值保护的...……更多

2024-07-04 16:38:00而行,伦理,蚂蚁,集团,科技,智能

真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几

...知、检索增强式生成（RAG）和自适应生成能力，研发问答准确率超过 90%。据统计，通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时，随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化，通义灵码的...……更多

2024-09-21 09:38:00通义,阿里,程序员,进化,流程,程序

GPT-4劲敌，谷歌进入高能+高产模式

...中，Gemini 1.5 Pro能够在长达100万token的文本块中，以99%的准确率找出隐藏有特定信息的文本片段。图源：Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书（587,287字..……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理