• 我的订阅
  • 头条热搜
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
... 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。 ……更多
用AI自动设计智能体,数学提分25.9%,远超手工设计
...分数提高了 13.6/100(与基线比),在 MGSM 的数学任务中将准确率提高了 14.4%。此外,在跨域迁移后,它们在 GSM8K 和 GSM-Hard 数学任务上的准确率分别比基线提高了 25.9% 和 13.2%。与手工设计的解决方案相比,本文算法表现出色,这...……更多
支付宝进军大模型医疗应用,技术一号位:我们有4个切入点
...准等方面都建立了很深度的链接。目前我们在北上杭这块准确率,基本上能做到百分之八九十,还在继续优化中。第二个是全科医生。医疗领域面临一个主要问题是,AI目前还无法替代专业医生进行诊断。因此我们更多地将AI定...……更多
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...效率提升了25%。在智能办公领域,大模型目前的意图识别准确率已达到97%。奇富科技则透露,通过AIGC的强大赋能,在电销系统中,语义分析和线索挖掘帮助提升电销线索识别准确率高达98%,同时将转化率提高超过5%。在智能营销...……更多
中兴通讯携手上海移动开展业界首个基于大模型的短信反诈治理探索
...、语义等根源维度上进行治理,有效提升诈骗短信的识别准确率、拦截率和召回率。自该系统上线后,境外涉诈案件数量明显降低,为减少人们财产损失、维护社会和谐做出贡献。基于大模型的短信反诈治理主要包括AI实时推理...……更多
真·AI程序员,阿里云「通义灵码」全面进化,全流程开发仅用几分钟
...知、检索增强式生成(RAG)和自适应生成能力,研发问答准确率超过 90%。据统计,通义灵码为已有用户贡献的代码比例已经接近 30%。与此同时,随着通义大模型在语义理解、代码生成、开发工作流等方面全面进化,通义灵码的...……更多
本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;
...于 Python、C++、J等多种语言。在HumanEval基准测试中,它的准确率为53% ,接近于GPT-4的67% 。Mistral CEO确认新模型性能接近GPT-42月1日,Mistral联合创始人兼CEO Arthur Mensch在X上表示,引发众多猜测的“miqu-1-70b”是……更多
GPT-4劲敌,谷歌进入高能+高产模式
...中,Gemini 1.5 Pro能够在长达100万token的文本块中,以99%的准确率找出隐藏有特定信息的文本片段。 图源:Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书(587,287字..……更多
蚂蚁集团井贤栋:恪守科技伦理,推动AI向善而行
...严谨产业,业界普遍认为面临着三个“能力短板”:领域知识相对缺乏、复杂决策难以胜任,以及对话交互不等于有效协同。而垂直领域、高质量的数据往往以多种模态存在,体系庞杂,比较分散,对隐私保护和资产价值保护的...……更多
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
...建立规则,使得相同信息覆盖面上比基于传统规则的方法准确率提高62%。同时,作者还与2位临床专家合作对100个样本的标签进行了全面的评估,进一步 帮助微调LLM。基于该数据集,作者提出了一种新的基于图(Graph)的可解释...……更多
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
...的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均...……更多
还在人工炼丹?自动提示工程指南来了,还带从头实现
...e given problem about geometric shapes.」可以看到,性能并不好,准确率只有 36%,应该有很大的改进空间。不过,在使用 APE 之前,让我们先尝试下一种提示技术:思路链(CoT)推理;这种技术虽然对原始提示词修改不多,但事实证明却...……更多
李飞飞空间智能之后,上交、智源、北大提出空间大模型SpatialBot
...深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...理能力,并证实了我们的训练策略的有效性。除了更高的准确率外,我们的模型实现的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,这可以归因于 Mamba 语言模型的内容感知推理能力和效率。图 4. RoboVQA 上与机器人相关的推理对比...……更多
GPT-4o的识图能力有多牛?四大维度深度体验
...识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。图片来源:GPT-4o四、手写指令和逻辑推理最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅...……更多
自我纠错如何使OpenAI o1推理能力大大加强?北大MIT团队理论解释
...的正确率高于原正确率(图4) 正确率提升与自我评估的准确率高度相关(图4(c):),甚至呈线性关系(图5(a))。 采用不同的评价方式效果依次提升:仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 C...……更多
协同发展,生态聚合丨1024程序员节暨「源聚一堂」开源技术沙龙(北京站)成功举办
...于开发者的节日里,开发者们在美食节、精彩节目、开源知识有奖问答、互动魔术与游戏,现场K歌等精彩互动中尽情狂欢。让开发者卸下代码和工作,参与线下的狂欢盛宴,领略开发者的多彩风格!广大开发者们以极客精神,...……更多
中国财税GPT迎来最准确的大模型:小竹财税AI问世
...对高效解决财税问题的需求日益迫切。作为中国财税领域准确率领先的垂直大模型,小竹财税AI将不断提升其逻辑推理和上下文理解能力,以更好地满足用户的需求,努力实现“让天下没有难懂的财税”的目标。期待小竹财税在A...……更多
AI搜索助手心流正式上线
...户的复杂问题。“心流在长文本评测实验中达到超过99%的准确率,具有非常优秀的长文本阅读能力。”据心流的技术人员介绍,在语义理解方面,心流的直接理解能力优于当前市场上的主流模型,间接理解能力(包含复杂推理)...……更多
百川智能发布baichuan3稳定语言模型
...助力医疗资源实现普惠和平权。并且医疗问题专业性强、知识更新速度快、准确性要求高、个体差异大,能充体现大模型的各项能力,被百川智能称为“大模型皇冠上的明珠”。因此,诸如OpenAI、谷歌等头部大模型企业都将医疗...……更多
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念「对齐」人类
...校准自己的判断,即人类对某个问题的确定性往往与预测准确率成正比,而AI系统则过于自信,即使在预测错误时也表现出高度的确定性。所以说,在真正实现通用人工智能之前,深度学习模型和人类之间仍然存在诸多差异需要...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...)两部分作为上下文信息,模型能还原出被遮住的文字的准确率。蓝色框内表示仅包含图像中的文字(TEI)的作为上下文信息,并不包含图像(VI),模型能还原出的遮住文字的准确率。 结果表明:绝大多数模型目前都不能胜...……更多
...种类的目标物体和异常状态的精准识别与过滤,可将事件准确率提升30%,同时将新任务的训练综合成本降低近80%,大大延展了各种长尾场景应用能力。此外,新版本产品的基础软硬件已全面实现国产化,让企事业用户在使用AI产...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。文本大模型经过多年的发展,逐渐发展成了统一的纯解码器Transformer架构。反观现有的多模态大模型架构仍然处于混乱状态,开源模型在选择LLM...……更多
搜题更精准、难题都有解 夸克“AI搜题”提升用户学习能力与效率
...加详细的内容解析和学习引导。夸克AI可以围绕题目中的知识点与考点进行深度讲解,精准定位关键步骤。同时以 “启发式” 学习的独特体验,夸克AI搜题让用户不仅学会这一道难题,还能举一反三学会一类题。夸克“AI搜题” ...……更多
2023内容科技应用典型案例:农业银行大模型ChatABC
...述农业银行大模型ChatABC,对于大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习(RLHF) 等大模型相关新技术进行了深入探索和综合应用,结合农业银行研发支持知识库、内部问答数据以及人工标注数据等金融...……更多
全面透视豆包:功能、版本、价格、优势、应用
...。对客服团队进行培训后上线使用,同时持续监控回答的准确率和客户满意度,根据情况优化问题库和豆包的配置。六、使用豆包的潜在问题和注意事项 1. 潜在问题回答准确性:尽管豆包尽力提供准确的信息,但它的回答仍可...……更多
开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1
...编程语言。特别在MMLU上,其预训练版本更是达到了84.0%的准确率。消息一出,Mistral AI联创兼首席科学家第一时间转发,直接cue Llama 3.1 405B的那种:Perplexity CEO Aravind Srinivas也开麦了:开源追赶闭源的趋势很明显,未来闭源模型只..……更多
...智能化水平。蚁盾CTO张凯隆介绍道,生成式AI具有“理解推理+自主决策”的能力及特性,“AIR”引擎借助生成式AI,大幅简化了原有需要专业算法工程师深度参与的操作流程,在风险管理复杂度综合降低50%的前提下,将风险对抗...……更多
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...平台创建,吸收了朱有勇院士的研究成果以及相关的农业知识,可以为农民解答生产生活中的问题。▲农民院士智能体百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜谈道,在过去半年,用户使用文心大模型...……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00