知识,准确率,推理,蚂蚁,框架,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据，以及在榜单上的最新评测的结果。 ……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

用AI自动设计智能体，数学提分25.9%，远超手工设计

...分数提高了 13.6/100（与基线比），在 MGSM 的数学任务中将准确率提高了 14.4%。此外，在跨域迁移后，它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比，本文算法表现出色，这...……更多

2024-08-24 09:36:00设计,手工,数学,智能,智能,元智

中兴通讯携手上海移动开展业界首个基于大模型的短信反诈治理探索

...、语义等根源维度上进行治理，有效提升诈骗短信的识别准确率、拦截率和召回率。自该系统上线后，境外涉诈案件数量明显降低，为减少人们财产损失、维护社会和谐做出贡献。基于大模型的短信反诈治理主要包括AI实时推理...……更多

2023-10-12 17:21:00中兴通讯,上海,模型,业界,通讯,短信

支付宝进军大模型医疗应用，技术一号位：我们有4个切入点

...准等方面都建立了很深度的链接。目前我们在北上杭这块准确率，基本上能做到百分之八九十，还在继续优化中。第二个是全科医生。医疗领域面临一个主要问题是，AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定...……更多

2024-09-29 09:55:00军大,切入点,模型,支付,医疗,应用

本周硅谷发生了什么？｜苹果Vision Pro正式开售；Ne

...于 Python、C++、J等多种语言。在HumanEval基准测试中，它的准确率为53% ，接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日，Mistral联合创始人兼CEO Arthur Mensch在X上表示，引发众多猜测的“miqu-1-70b”是……更多

2024-02-05 11:37:00硅谷,字节,接口,人类,苹果,模型

大模型观察｜从训练到落地金融业，大模型“升级之路”面临哪些挑

...效率提升了25%。在智能办公领域，大模型目前的意图识别准确率已达到97%。奇富科技则透露，通过AIGC的强大赋能，在电销系统中，语义分析和线索挖掘帮助提升电销线索识别准确率高达98%，同时将转化率提高超过5%。在智能营销...……更多

2024-01-29 21:36:00模型,之路,金融业,落地,观察,训练

GPT-4劲敌，谷歌进入高能+高产模式

...中，Gemini 1.5 Pro能够在长达100万token的文本块中，以99%的准确率找出隐藏有特定信息的文本片段。图源：Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书（587,287字..……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几

...知、检索增强式生成（RAG）和自适应生成能力，研发问答准确率超过 90%。据统计，通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时，随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化，通义灵码的...……更多

2024-09-21 09:38:00通义,阿里,程序员,进化,流程,程序

21.5万张X光，78万个问题！德州大学NIH等联合发布医学

...建立规则，使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。同时，作者还与2位临床专家合作对100个样本的标签进行了全面的评估，进一步帮助微调LLM。基于该数据集，作者提出了一种新的基于图（Graph）的可解释...……更多

2024-08-10 09:47:00德州,问答,视觉,医学,联合,数据

蚂蚁集团井贤栋：恪守科技伦理，推动AI向善而行

...严谨产业，业界普遍认为面临着三个“能力短板”：领域知识相对缺乏、复杂决策难以胜任，以及对话交互不等于有效协同。而垂直领域、高质量的数据往往以多种模态存在，体系庞杂，比较分散，对隐私保护和资产价值保护的...……更多

2024-07-04 16:38:00而行,伦理,蚂蚁,集团,科技,智能

还在人工炼丹？自动提示工程指南来了，还带从头实现

...e given problem about geometric shapes.」可以看到，性能并不好，准确率只有 36%，应该有很大的改进空间。不过，在使用 APE 之前，让我们先尝试下一种提示技术：思路链（CoT）推理；这种技术虽然对原始提示词修改不多，但事实证明却...……更多

2024-09-10 13:39:00从头,人工,提示,指南,工程,提示

李飞飞空间智能之后，上交、智源、北大提出空间大模型Spati

...深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多

2024-08-08 09:39:00空间,北大,模型,智能,深度,模型

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...理能力，并证实了我们的训练策略的有效性。除了更高的准确率外，我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍，这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多

2024-06-21 09:52:00机器,模态,人多,机器人,推理,北大

GPT-4o的识图能力有多牛？四大维度深度体验

...识别数据图上的信息，并按要求以图表的形式重新呈现，准确率高达100%。图片来源：GPT-4o四、手写指令和逻辑推理最后，记者上了点难度，用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美，不仅...……更多

2024-05-19 14:21:00维度,深度,能力,体验,模型,训练

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...的正确率高于原正确率（图4）正确率提升与自我评估的准确率高度相关（图4(c):），甚至呈线性关系（图5（a））。采用不同的评价方式效果依次提升：仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 C...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

协同发展，生态聚合丨1024程序员节暨「源聚一堂」开源技术沙

...于开发者的节日里，开发者们在美食节、精彩节目、开源知识有奖问答、互动魔术与游戏，现场K歌等精彩互动中尽情狂欢。让开发者卸下代码和工作，参与线下的狂欢盛宴，领略开发者的多彩风格！广大开发者们以极客精神，...……更多

2023-10-25 13:02:00北京站,一堂,北京,程序员,沙龙,生态

中国财税GPT迎来最准确的大模型：小竹财税AI问世

...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型，小竹财税AI将不断提升其逻辑推理和上下文理解能力，以更好地满足用户的需求，努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多

2024-03-14 13:30:00中国,模型,模型,领域,需求,正确率

AI搜索助手心流正式上线

...户的复杂问题。“心流在长文本评测实验中达到超过99%的准确率，具有非常优秀的长文本阅读能力。”据心流的技术人员介绍，在语义理解方面，心流的直接理解能力优于当前市场上的主流模型，间接理解能力（包含复杂推理）...……更多

2024-07-10 15:23:00手心,搜索,知识,能力,搜索,模型

百川智能发布baichuan3稳定语言模型

...助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大，能充体现大模型的各项能力，被百川智能称为“大模型皇冠上的明珠”。因此，诸如OpenAI、谷歌等头部大模型企业都将医疗...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

类人神经网络再进一步！DeepMind最新50页论文提出Al

...校准自己的判断，即人类对某个问题的确定性往往与预测准确率成正比，而AI系统则过于自信，即使在预测错误时也表现出高度的确定性。所以说，在真正实现通用人工智能之前，深度学习模型和人类之间仍然存在诸多差异需要...……更多

2024-09-23 10:00:00神经网络,框架,层次,神经,视觉,人类

Bengio团队提出多模态新基准，直指Claude 3.5和

...）两部分作为上下文信息，模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字（TEI）的作为上下文信息，并不包含图像（VI），模型能还原出的遮住文字的准确率。结果表明：绝大多数模型目前都不能胜...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

提效30%，降本80%！商汤大模型让智慧园区效能倍增

...种类的目标物体和异常状态的精准识别与过滤，可将事件准确率提升30%，同时将新任务的训练综合成本降低近80%，大大延展了各种长尾场景应用能力。此外，新版本产品的基础软硬件已全面实现国产化，让企事业用户在使用AI产...……更多

2024-11-15 10:14:00商汤,效能,园区,模型,智慧,算法

搜题更精准、难题都有解夸克“AI搜题”提升用户学习能力与效

...加详细的内容解析和学习引导。夸克AI可以围绕题目中的知识点与考点进行深度讲解，精准定位关键步骤。同时以 “启发式” 学习的独特体验，夸克AI搜题让用户不仅学会这一道难题，还能举一反三学会一类题。夸克“AI搜题” ...……更多

2024-11-01 11:51:00夸克,学习能力,难题,效率,能力,用户

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

...LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态，开源模型在选择LLM...……更多

2024-09-24 13:36:00英伟,模态,文本,性能,模态,模型

全面透视豆包：功能、版本、价格、优势、应用

...。对客服团队进行培训后上线使用，同时持续监控回答的准确率和客户满意度，根据情况优化问题库和豆包的配置。六、使用豆包的潜在问题和注意事项 1. 潜在问题回答准确性：尽管豆包尽力提供准确的信息，但它的回答仍可...……更多

2024-07-24 14:44:00豆包,优势,版本,功能,应用,价格

2023内容科技应用典型案例：农业银行大模型ChatABC

...述农业银行大模型ChatABC，对于大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习（RLHF）等大模型相关新技术进行了深入探索和综合应用，结合农业银行研发支持知识库、内部问答数据以及人工标注数据等金融...……更多

2024-04-08 17:06:00农业银行,典型案例,模型,典型,案例,银行

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发，直接cue Llama 3.1 405B的那种：Perplexity CEO Aravind Srinivas也开麦了：开源追赶闭源的趋势很明显，未来闭源模型只..……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理