• 我的订阅
  • 头条热搜
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。 ……更多
用AI自动设计智能体,数学提分25.9%,远超手工设计
...分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比,本文算法表现出色,这...……更多
中兴通讯携手上海移动开展业界首个基于大模型的短信反诈治理探索
...、语义等根源维度上进行治理,有效提升诈骗短信的识别准确率、拦截率和召回率。自该系统上线后,境外涉诈案件数量明显降低,为减少人们财产损失、维护社会和谐做出贡献。基于大模型的短信反诈治理主要包括AI实时推理...……更多
支付宝进军大模型医疗应用,技术一号位:我们有4个切入点
...准等方面都建立了很深度的链接。目前我们在北上杭这块准确率,基本上能做到百分之八九十,还在继续优化中。第二个是全科医生。医疗领域面临一个主要问题是,AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...于 Python、C++、J等多种语言。在HumanEval基准测试中,它的准确率为53% ,接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日,Mistral联合创始人兼CEO Arthur Mensch在X上表示,引发众多猜测的“miqu-1-70b”是……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...效率提升了25%。在智能办公领域,大模型目前的意图识别准确率已达到97%。奇富科技则透露,通过AIGC的强大赋能,在电销系统中,语义分析和线索挖掘帮助提升电销线索识别准确率高达98%,同时将转化率提高超过5%。在智能营销...……更多
GPT-4劲敌,谷歌进入高能+高产模式
...中,Gemini 1.5 Pro能够在长达100万token的文本块中,以99%的准确率找出隐藏有特定信息的文本片段。 图源:Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书(587,287字..……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...建立规则,使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。同时,作者还与2位临床专家合作对100个样本的标签进行了全面的评估,进一步 帮助微调LLM。基于该数据集,作者提出了一种新的基于图(Graph)的可解释...……更多
蚂蚁集团井贤栋:恪守科技伦理,推动AI向善而行
...严谨产业,业界普遍认为面临着三个“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。而垂直领域、高质量的数据往往以多种模态存在,体系庞杂,比较分散,对隐私保护和资产价值保护的...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...e given problem about geometric shapes.」可以看到,性能并不好,准确率只有 36%,应该有很大的改进空间。不过,在使用 APE 之前,让我们先尝试下一种提示技术:思路链(CoT)推理;这种技术虽然对原始提示词修改不多,但事实证明却...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...理能力,并证实了我们的训练策略的有效性。除了更高的准确率外,我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 C...……更多
协同发展,生态聚合丨1024程序员节暨「源聚一堂」开源技术沙龙(北京站)成功举办
...于开发者的节日里,开发者们在美食节、精彩节目、开源知识有奖问答、互动魔术与游戏,现场K歌等精彩互动中尽情狂欢。让开发者卸下代码和工作,参与线下的狂欢盛宴,领略开发者的多彩风格!广大开发者们以极客精神,...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型,小竹财税AI将不断提升其逻辑推理和上下文理解能力,以更好地满足用户的需求,努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多
AI搜索助手心流正式上线
...户的复杂问题。“心流在长文本评测实验中达到超过99%的准确率,具有非常优秀的长文本阅读能力。”据心流的技术人员介绍,在语义理解方面,心流的直接理解能力优于当前市场上的主流模型,间接理解能力(包含复杂推理)...……更多
百川智能发布baichuan3稳定语言模型
...助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大,能充体现大模型的各项能力,被百川智能称为“大模型皇冠上的明珠”。因此,诸如OpenAI、谷歌等头部大模型企业都将医疗...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...校准自己的判断,即人类对某个问题的确定性往往与预测准确率成正比,而AI系统则过于自信,即使在预测错误时也表现出高度的确定性。所以说,在真正实现通用人工智能之前,深度学习模型和人类之间仍然存在诸多差异需要...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...)两部分作为上下文信息,模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字(TEI)的作为上下文信息,并不包含图像(VI),模型能还原出的遮住文字的准确率。 结果表明:绝大多数模型目前都不能胜...……更多
...种类的目标物体和异常状态的精准识别与过滤,可将事件准确率提升30%,同时将新任务的训练综合成本降低近80%,大大延展了各种长尾场景应用能力。此外,新版本产品的基础软硬件已全面实现国产化,让企事业用户在使用AI产...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...加详细的内容解析和学习引导。夸克AI可以围绕题目中的知识点与考点进行深度讲解,精准定位关键步骤。同时以 “启发式” 学习的独特体验,夸克AI搜题让用户不仅学会这一道难题,还能举一反三学会一类题。夸克“AI搜题” ...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM...……更多
全面透视豆包:功能、版本、价格、优势、应用
...。对客服团队进行培训后上线使用,同时持续监控回答的准确率和客户满意度,根据情况优化问题库和豆包的配置。六、使用豆包的潜在问题和注意事项 1. 潜在问题回答准确性:尽管豆包尽力提供准确的信息,但它的回答仍可...……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...述农业银行大模型ChatABC,对于大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习(RLHF) 等大模型相关新技术进行了深入探索和综合应用,结合农业银行研发支持知识库、内部问答数据以及人工标注数据等金融...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:Perplexity CEO Aravind Srinivas也开麦了:开源追赶闭源的趋势很明显,未来闭源模型只..……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...平台创建,吸收了朱有勇院士的研究成果以及相关的农业知识,可以为农民解答生产生活中的问题。▲农民院士智能体百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜谈道,在过去半年,用户使用文心大模型...……更多
...键步骤。统计学方法提供了各种性能指标,如均方误差、准确率、召回率和F1分数等,用于衡量模型的性能。这些指标允许我们量化模型的预测能力,并对不同模型进行比较。通过统计学方法,我们可以确定哪种模型在特定任务...……更多
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
...的 Softmax 层,随着 Transformer 模型处理更长的序列以提高准确率,这项技术变得越来越重要。所提出的技术将 Softmax 层划分为多个子层,更改数据访问模式,然后将分解的 Softmax 子层与后续和前面的过程合并。该方法分别将 BERT、...……更多
更多关于科技的资讯:
华为matepadpro13.2英寸2025:轻量办公新标准
在充满机遇与挑战的2024年,我们见证了很多款经典产品的诞生,它们或许是不同的品类,但却有着异曲同工的方向——高效。从手机到平板再到PC
2025-01-03 00:32:00
转发华为手机不实信息!200万粉丝数码博主向华为道歉
快科技1月3日消息,网络不是不法之地,日前又有一名数码博主向华为公开道歉。微博拥有216万粉丝的博主“IT科技侠”向华为道歉
2025-01-03 00:44:00
CNMO特推出了“焕新·2024年度盘点”
2024年,“焕新”一词可以说是覆盖到了人们生活的方方面面,不论是各类优秀的产品不断地更新换代,还是国补、省补和区补等各类政策的出台执行
2025-01-03 03:18:00
《企元数智免费送小程序,重塑企业运营模式新格局》
一、开篇:数字时代,企业运营新契机在当今数字化浪潮汹涌澎湃的时代,企业运营环境正经历着深刻变革。市场竞争的激烈程度已臻白热化
2025-01-03 03:34:00
领克旗舰SUV将在1月3日19点迎来全球首秀
不久前,领克预告了即将推出一款新的旗舰SUV车型。而在1月2日,领克正式公布了新车的官图。领克新车1月2日,领克汽车销售有限公司副总经理林克在微博正式公布了领克旗舰SUV的新车官图
2025-01-03 03:42:00
企元数智慷慨馈赠:免费小程序助力企业服务升级
在风云变幻的商业世界中,企业的生存与发展犹如逆水行舟,不进则退。而当下,客户体验至上的时代已然来临,企业服务质量的高低直接决定了其在市场中的竞争力
2025-01-03 03:50:00
企元数智免费小程序,打造企业专属的数字化名片
在这个信息飞速流转、竞争白热化的商业时代,一张亮眼的“名片”对于企业而言,意义非凡。它不再仅仅局限于纸质卡片上的几行文字与联系方式
2025-01-03 03:54:00
REDMI正式发布了Turbo 4
REDMITurbo系列独立,标志着中端机型在性能上向旗舰看齐的又一次突破。在保证强大性能的同时,它依然保持了中端价位的亲民定位
2025-01-03 04:27:00
三星希望成为人工智能领域领导者
近日,CNMO从外媒获悉,三星今年希望将自己打造为“人工智能领域无可争议的领导者”。过去几年,三星一直在为其设备加入人工智能功能
2025-01-03 04:28:00
redmiturbo4正式发布,性能大跃进
2025年1月2日,Redmi举办新品发布会,正式推出全新一代潮流性能小旗舰——RedmiTurbo4。这款产品不仅延续了Turbo系列“好看又能打”的设计理念
2025-01-03 04:49:00
一边充电一边使用手机危险吗?
通常情况下,一边充电一边使用手机并不会引发爆炸,但在某些特定条件下,这样的行为可能会提升相关风险。为了保障安全,强烈建议使用手机制造商提供的原装充电器或符合安全标准的充电器进行充电
2025-01-03 04:50:00
真我14 Pro+和真我Neo7 SE的配置信息曝光
当手机市场中的新机数量和实力都得到提升之后,对于消费者来说真的是一件好事,原因也很简单,那就是可以选择到适合自己的机型
2025-01-03 04:59:00
乐道l60城市绿洲ai智舱带来丰富、沉浸式体验
12月31日上午,乐道汽车在河南郑州举办了乐道L60媒体品鉴会。此次品鉴会吸引了众多媒体的参与,乐道华北一区域总经理李昂对乐道品牌进行了详细介绍
2025-01-03 05:16:00
华为mate70系列更新:应用锁、文件管理更便捷
1月2日,据博主@Adak封狼居胥消息,华为Mate70系列和nova12Ultra的HarmonyOSNEXT5.0
2025-01-03 05:30:00
车间里来了机器人“装配工”
本文转自:人民日报四川绵阳构建人工智能机器人全产业链生态集群车间里来了机器人“装配工”本报记者 李凯旋四川省绵阳市长虹智能制造产业园内
2025-01-03 06:18:00