多维,基准,群体,模型,自动化,评估头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

多模态竞技场对标90B Llama 3.2！Pixtral

...要好。最后，与开源模型一起，Mistral还贡献了一个开源基准测试MM-MT-Bench，用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是：模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出，后...……更多

2024-11-20 09:43:00模态,竞技场,竞技,报告,技术,模态

快手发布对标Sora的视频生成大模型「可灵」已开放邀测体验

...率。可灵大模型在研发过程中，配套建设了高效的大规模自动化数据解决方案，覆盖了海量视频挖掘、多维打标筛选、视频描述增强、及数据驱动的效果质量评估等多个方面。在训练过程中，采用了多种计算优化和通信优化方案...……更多

2024-06-07 09:20:00快手,生成,模型,开放,体验,视频

开闭源模型「大乱斗」：看看哪个智能体最能窥见人类真实意图

...该工作首先引入了 Intention-in-Interaction（IN3）这一全新的基准测试，旨在通过与用户明确的交互来理解用户的隐式意图。以 Mistral-7B 为框架，基于 IN3 训练的 Mistral-Interact 能主动评估任务的模糊性，询问用户意图，并在启动下游智...……更多

2024-08-14 09:39:00意图,模型,人类,智能,智能,任务

苹果AI震撼上线iPhone，进化版Siri却没有ChatG

...示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基准上的结果。可以看到，AFM预训练模型有着强大的语言和推理能力，从而为后训练和特征微调提供了坚实的基础。后训练人类评估对于苹果AI的应用场景来说，人类评估...……更多

2024-08-01 09:40:00进化,模型,苹果,报告,技术,苹果

速度是友商22倍！华为AI存储斩获中国最权威测试第一

...数据库、大数据、云计算等业务场景，采用与场景结合的多维度评估，能够真实反映存储系统在实际业务场景的业务能力。华为OceanStor A800 AI存储通过8节点存储集群提供了超过5690万OPS、1318GB/s带宽，分别是友商的22倍和6倍，单节...……更多

2024-11-30 21:05:00华为,中国,存储,速度,权威,测试

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

...人员进一步提出利用大模型的先验知识来初始化网络，以自动化地发现攻击线索。在危险问题评测集 Harmbench 上的实验结果表明，ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻击成功率。最后，研究人员基于 Acto...……更多

2024-11-08 09:46:00诱导,推理,安全性,对话,安全,攻击

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自

...，超过了参数量大10倍的CodeLlama-70B-Instruct。在全部的三项基准测试（代码生成、数据科学编程、代码编辑）中，SelfCodeAlign都战胜了之前最先进的指令微调方法OctoPack。此外，在HumanEval+上，SelfCodeAlign的性能超越了基于GPT-3.5……更多

2024-11-29 09:26:00伯克,伯克利,进化,模型,代码,方法

招商银行：以科技创新加强普惠金融服务

...推出把传统抵押向线上转化的招捷贷产品；推出线上化、自动化的小额信用贷产品招企贷；面向供应链上下游推出的招链易贷、经销易贷以及面向科技企业推出的数字化科创贷产品。她提到，在小微企业板块，招行通过数据整合...……更多

2024-06-03 15:24:00普惠,招商银行,金融服务,科技创新,招商,银行

微软开源 OmniParser 纯视觉 GUI 智能体：让

...析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导...……更多

2024-10-30 09:47:00微软,截图,屏幕,视觉,智能,模型

比瓴科技荣获第三届横琴国际科技创新创业大赛潜力奖

...、SCA、漏洞评估等），向下统一对接DevOps各类工具，提供自动化流程编排与工具编排能力，流程与数据统一管理、统一输出，不同数据源漏洞的关联分析，重新对漏洞危险等级排序，提供漏洞修复优先级建议等。通过编排能力实...……更多

2024-06-26 14:00:00横琴,科技,科技创新,第三届,潜力,大赛

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...，执行这些数据集的全面评估变得非常耗时。此外，这些基准在训练期间也容易受到污染的影响。为此， LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多

2024-08-22 09:50:00模态,框架,模型,评测,污染,成本

全球最强开源大模型Llama 3发布：使用15T数据预训练，

...版本，可以支持广泛的应用。同时，Llama 3 在广泛的行业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。最强开源 LLM 来了Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目...……更多

2024-04-20 11:03:00模型,训练,参数,数据,全球,模型

· 加大促消费力度金融科技助力消费金融

...用生物识别技术，完成在线身份验证和反欺诈识别，通过自动化的信用评估模型和数据分析工具，能够快速处理大量贷款申请，使贷款随时审批发放，极大地提高了消费信贷的审批效率。“消费金融行业已进入存量竞争时代，获...……更多

2024-02-26 08:35:00消费,金融,力度,科技,金融,消费

智慧供热新突破！济南热力集团 × DeepSeek打造更聪明

...语音或文字指令，自动调用平台功能，实现供热业务流程自动化，还具备24小时智能监盘能力，一旦发现异常工况，立即报警通知并提供专业处置方案，全方位保障供热系统的稳定运行。设备预测性维护，构建“工艺机理”+“大...……更多

2025-03-14 15:39:00智慧,济南,热力,变革,大脑,突破

盈米基金与阿里云达成AI全栈战略合作

...家、系统服务的协同运作，实现数据、策略与投顾方法的自动化调度与客户长期的个性化陪伴。阿里云在云计算、大模型领域的领先实力，是支持行业AI转型升级的重要基础设施。希望通过此次与阿里云的战略合作，进一步推动...……更多

2025-07-22 21:12:00阿里,战略,基金,合作,阿里,模型

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

...剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench，登上了Nature子刊《自然人类行为（Nature human behavior）》。结果显示，经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%，远超人类专家的63%。在...……更多

2024-12-02 09:51:00结论,神经,科研,人类,水平,专家

2025浪潮数字企业创新论坛广州站成功举办

...岳Al重构财务数智化转型新范式》专题报告，提出从流程自动化到基于大模型、智能体的智能助手再到基于多智能体协同的智能原生，财务数智化的目标是通过智能体集群，实现智能财务的自感知、自决策、自优化，推动财务迈...……更多

2025-06-24 17:12:00广州站,广州,浪潮,数字,成功,企业

LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

...史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答...……更多

2024-09-25 09:48:00饱和,规划,模型,测试,规划,能力

中关村科金：大模型将重塑营销流程自动化

来源：极目新闻营销自动化是营销科技中至关重要的一环。面对海量C端消费者繁琐的营销工作流程，营销自动化能够由机器全面接管，从而释放人的精力来专注于战略的制定以及创造性工作。通过自动化工具和流程，营销人员...……更多

2023-11-17 09:43:00中关,中关村,模型,流程,自动化,营销

Manus和DeepSeek的差别是什么谁更厉害：一文秒懂

...分析等。核心优势：任务闭环能力：从规划到交付全流程自动化，减少人工干预，例如并行处理“爬取财报→编写代码→部署网站”的复杂链路。工具链整合：支持调用Photoshop插件等工具，重构创意产业流程。GAIA基准测试表现...……更多

2025-03-07 13:14:00一文,差别,厉害,模型,知识,技术

技术驱动金融进化：揭秘 Indira 与 IAS 2.0 战

...持一致性与公正性。全球合规框架：技术驱动监管响应的自动化系统面对全球多样的监管环境，IAS2.0通过集成合规自动监控引擎（ComplianceEngine）与动态KYC/AML模块，实现跨境交易行为的实时审查与自动响应。系统已适配多个主流...……更多

2025-04-20 20:01:00矩阵,进化,背后,驱动,战略,服务器

科技助力租赁行业智能化升级贝壳惠居亮相广州智建展

...务标准的一致性。实际运营数据显示，\"AI阿贝\"上线后，自动化服务占比达到61%，会话转人工率降至35%。这意味着超过六成的业主咨询可以得到即时、准确的自动回复，大大提升了服务效率和用户体验。一位体验过“AI阿贝”的...……更多

2025-05-08 20:13:00广州,贝壳,租赁,升级,智能,行业

360集团携手中国信通院共促人工智能安全发展

...院（以下简称中国信通院）联合360集团，发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则，采用科学严谨的测试方法，评估大模型在内容安全、数据安全和科技伦...……更多

2024-04-09 01:58:00信通,人工智能,中国,人工,智能,集团

全球首个多模态地理科学大模型发布

...资源研究所联合中国科学院青藏高原研究所、中国科学院自动化研究所等单位研发的多模态地理科学大模型“坤元”(Sigma Geography)正式发布。据介绍，该大模型是专注于地理科学的专业语言大模型，具备处理地理科学相关问题的...……更多

2024-09-19 15:08:00模态,模型,地理,科学,全球,地理

信也科技亮相国际AI顶会IJCAI2024，多维展示AI实力

...,信也科技自研编码辅助工具Xcoder,通过智能化代码推理和自动化帮助,帮助开发者节约时间、提升效率。深度鉴伪方案再升级,业界与学界携手共进“信也科技杯”决赛两周后,全球八强选手再次汇聚IJCAI,在研讨会现场展示了针对语...……更多

2024-08-13 16:09:00多维,实力,国际,科技,科技,陈磊

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...-4o开刀，去解决动物过河难题。在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。经过测试，Gowers发现大模型的废话比率可以达到5倍。一开始，他先给出了一个农民带2只鸡...……更多

2024-07-01 08:58:00菲尔,得主,难题,经典,农夫,模型

全模态对齐框架align-anything来啦：实现跨模态指

...使反馈内容更加立体和多元化。这种全模态反馈能呈现更多维度的信息，帮助模型更好地理解和捕捉不同模态之间的相互关系，提高对齐的精准度；统一的反馈收集和处理机制当前不同模态之间的反馈形式不统一，导致对齐过程...……更多

2024-10-18 09:47:00模态,指令,框架,模态,模型,数据

“AI科学家”登场科研自动化时代来了？

◎本报记者刘霞科研过程可以完全自动化吗？一个研究机器学习的国际团队正在勇闯“无人区”。据《自然》网站近日报道，日本Sakana AI公司和加拿大、英国科学家携手，创建了一种基于大语言模型的“人工智能(AI)科学家”...……更多

2024-09-12 07:47:00科学家,科研,自动化,科学,时代,科学家

寻找未来：保险+人工智能实践案例集发布

...化续保工作流程。该项目结合计算引擎和模型学习技术，自动化处理客户信息和历史数据，实现高效准确的保险续保。通过智能引擎实时分析、客户自动提醒、续保数据分析及一键式续保操作，该项目显著提高了续保工作效率，...……更多

2024-01-04 11:14:00人工智能,人工,实践,案例,智能,项目

泰州农村商业银行：审计视角下的线上贷款风险分析与防范

...成为主流。线上审批灵活高效，便捷与挑战并存内部控制自动化。线上贷款为实现快速审批放款，依托于业务系统对人员信息校验、贷款流程控制、信贷业务信息校验、关键业务信息生成等重要环节的自动化控制。控制逻辑的关...……更多

2024-12-11 22:49:00泰州,商业银行,视角,审计,风险,农村

page 5/2000 首页上一页 1 2 3 456 7 8 9 10 下一页末页

更多关于科技的资讯：

基于提示工程的模型输出不确定性量化分析

摘要：随着生成式人工智能技术在各行业的广泛应用，模型输出结果的不确定性问题日益受到关注。为提高模型在关键领域的可靠性，对输出不确定性进行量化分析成为重要方向

2025-12-04 06:17:00

给智能体装上“大脑”和“小脑”

杭州博士后用AI让机器懂协作、更安全杭州日报讯让机器从执行命令的“孤岛”，成为懂得协作的群体？让机器人安全走进人类生活

2025-12-04 06:38:00

紫林醋业产品通过欧盟认证

12月3日从紫林醋业获悉，紫林醋业部分主导产品通过欧盟有机认证(EU Organic Certification)，获准使用欧盟统一有机标识“欧洲叶标”(Euro-Leaf)

2025-12-04 07:31:00

豆包手机助手回应“侵犯用户隐私”：不存在任何黑客行为

中新经纬12月3日电 12月3日，豆包手机助手在官方微信号就“侵犯用户隐私”等问题进行回应，称不存在任何黑客行为。具体来看

2025-12-04 07:42:00

支付宝AI4SDL研发安全体系斩获首届“AI领航杯”星光金奖

12月1日-3日，由中国互联网协会主办的2025“人工智能+”产业生态大会在北京举办。开幕式上，首届“AI领航杯”“人工智能+”应用与技能大赛总决赛举行了隆重的颁奖仪式

2025-12-04 07:47:00

海内外太空算力布局同步加速

近期，在“智绘星空胜算在天—太空数据中心建设工作推进会”上，北京拟在700—800公里晨昏轨道建设运营超GW(千兆瓦)级集中式大型数据中心系统

2025-12-03 09:42:00

太极韵动武汉，一场独属于银发爱好者的健康之约

承武当余韵,赴江城之约——小糖乐学以“传韵江城汇,小糖太极行”为引,再启太极文化与健康同行之旅。继武当山“问道太极”盛会圆满落幕

2025-12-03 13:40:00

“数字试错”替代“物理试错” 新一代AI质检平台在杭发布

杭州日报讯产品还没走下生产线，就能在虚拟世界预知它未来十年会不会开裂、变形——这样的场景正在杭州成为现实。日前，工业科技企业浙江远算科技有限公司发布“AI质检数实融合验证平台”

2025-12-03 13:41:00

“江苏制造”叩响中东商机

本报记者陆春花为进一步深化江苏与中东地区在“一带一路”倡议下的经贸合作，推动江苏制造高质量“走出去”、精准“引进来”

2025-12-03 13:41:00

曹操出行与越疆合作，人形机器人入驻行业首个“绿色智能通行岛”

12月1日，曹操出行与越疆科技正式签署战略合作协议。双方将围绕Robotaxi（自动驾驶出租车）运营场景，共同探索机器人技术在车辆清洁

2025-12-03 13:41:00

江苏“领航工厂”引领“智造”变革

从“智慧车间”到“工业大脑”，“江苏智造”通过数据驱动全流程变革，赋能产业链协同升级近日，全国首批15家领航级智能工厂名单发布

2025-12-03 13:41:00

国内首款AI助盲眼镜发布，基于通义千问打造

12月3日，杭州瞳行科技公司正式发布国内首款AI助盲眼镜。该眼镜基于通义千问Qwen-VL、OCR等系列模型打造，具有出行避障

2025-12-03 13:41:00

杭州市公共自行车公司发来短信绑卡租车功能即将取消想问一下

橙友“橙汁儿”向橙柿直通车反映：这几天收到了短信，是杭州市公共自行车公司发来的——“尊敬的用户，由于业务升级，您之前办理的绑卡租车功能即将在2025年12月底取消

2025-12-03 13:41:00

跳出“好评怪圈”，让好评回归本质

北京上班族李想称，健身私教课结束后，教练为索要好评，直接拿他手机代笔修改达3分钟。好评既影响消费者选择，也关联平台推流与服务者收益

2025-12-03 13:41:00

杭州这个社区成了杭州AI人的“线下聚集地”

找“搭子” 聊技术谈合作每日商报讯一个多星期前，“魔搭社区”（杭州）开发者中心启用。这个中心是国内规模最大的模型开源社区“魔搭社区”的首个线下实体空间

2025-12-03 13:41:00

头条订阅服务