• 我的订阅
  • 头条热搜
数势科技—中原银行智能指标平台建设项目入选《沙丘社区大模型先锋案例Top50》
...理平台,确保指标定义的统一性和标准化,通过低代码、自动化的指标生产代替人工开发进而提高指标交付效率,以便更好地挖掘数据中的价值。在此基础上,项目还融合大模型能力构建智能分析平台,实现指标问答、图表生成...……更多
赛宁网安BAS+DeepSeek:一支永不跳槽的红队专家
...护有效性验证评估工具,虽满足了安全验证评估持续化、自动化的需求,但验证成效在一定程度上受制于攻击场景与攻击剧本的设计。BAS厂商普遍依赖固定的攻击剧本和场景,无法还原黑客的动态攻击方式。而现实中,黑客在攻...……更多
什么影响大模型安全?NeurIPS\'24新研究提出大模型越狱攻击新基准
全新大语言模型越狱攻击基准与评估体系来了。来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。提出攻击分析系统性框架JailTrackBench。JailTrackBench研究重点分析了不同...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五...……更多
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华、伯克利的科学家一口气测评了这25个LLM
...研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。他们发现,顶级商业LLM在复杂环境中表现出强大的能...……更多
...和优化“展业小助手”程序建设,进一步实现重复性劳动自动化处理,强化科技赋能,深化业务营销支持,进一步将平台优势转化为业务动能,服务客户、赋能基层、创新发展,实现用户体验、业务效率和经营价值的同步提升。...……更多
五大数字员工已上岗!讯飞星火让每个岗位都用上大模型
...快速构建可落地的智能体应用。反过来看企业端,企业对自动化、智能化工具的需求旺盛也在推动大模型应用落地的加速。目前,很多企业的现状是,大量有效数据被存储在企业内部但无法真正作为决策者选择的支撑,因此在技...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
传openai全球招外包大军手把手训练chatgpt取代码农
...高级的编程技能。他们的作用是,编写OpenAI期待实现的「自动化」基本代码。具体来说,其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息,用来训练人工智能工具或自动驾驶汽车。 另外的40%则是实打实的...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答...……更多
AI卷翻科研!DeepMind 36页报告:全球实验室被「AI科学家」指数级接管
...真正瓶颈问题;而非企图让人类科学家已擅长的任务实现自动化。随着AI推动科学变得更经济高效,社会对于科学和科学家的需求也会随之增加。和其他行业不同,科学的需求几乎是无限的,而科技也并不会降低对科学家的需求...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
...二人民医院脊柱关节外科 康复医学科护士长 康丹:一些自动化的任务,如智能导诊、药物分配等重复性和机械性的护理任务,正在被自动化系统取代。但是也需要特别警惕护理伦理、护理的数据安全和患者的隐私保护等问题。...……更多
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
...进的代理模型。模型输入包括每个加利福尼亚州县的28天多维特征以及24维的州级初始条件,用于描述流行病状态。模型输出未来28天的流行病状态预测。四个自定义数据集主要由多项选择题构成,而其中的气候科学数据集还包含...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接:https://arxiv.org/abs/2411.16594 网站链接:https://llm...……更多
图像为纸 机械为笔:山东建院智振视控团队绘就振捣新画卷
...致的返工,大幅缩短施工周期;减少人工成本上,它实现自动化监测与数据分析,降低对人工经验的依赖,减少因人工监督不足引发的质量问题;在提升施工质量方面,精准控制振捣频率、时间和力度,有效避免蜂窝、麻面等质...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准,由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等。本次报告选取了国内外具有代表性的32个大模型4月份的版本,通...……更多
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构性能
...是,HydraLoRA 的非对称架构摆脱了手动干预的需求,通过自动化的方式优化了任务间的学习过程。 ……更多
六维力/力矩传感器的结构
...AGR)为4.54%。由于电动车(EV)销量的成长、各种制造流程的自动化程度不断提高以提高效率和生产力,以及消费性电子产品和穿戴式装置的日益普及,该市场正在经历稳定成长。高工机器人产业研究所(GGII)数据显示,2022年中国...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...量低于 Llama 3.1 的 4050 亿,但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 个 token,新版模型在此……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
这才是真开源模型!公开后训练一切,性能超越Llama 3.1 Instruct
...lu 3 系列模型明显优于同等规模的其它模型。8B 模型在各基准上的表现70B 模型在各基准上的表现 Tülu 3 是如何炼成的?Ai2 在预训练语言模型的基础上,通过四个阶段的后训练方法生成 Tülu 3 模型(见图 1)。这套训练流程结合...……更多
2025年,智能人才招聘系统将全面颠覆企业招聘生态!
...招聘过程中,利用大数据、人工智能等技术实现招聘流程自动化、智能化的一种新型招聘模式。“但需要注意的是,并不是应用了大数据、人工智能等技术的招聘系统就可以称之为智能化招聘系统。”用友大易相关负责人在接受...……更多
月狐数据发布中国市场首份《AIGC应用app智能化评测报告》
...及23个二级指标构成,采用了500道封闭题和开放题,结合自动化测试和专家评分的形式对各大AIGC应用产品进行打分。评估结果显示,文心一言app智能化综合指数位居第一,其次是讯飞星火app、豆包app。拆分二级指标来看,文心一...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...会在简单的算术上犯蠢。然而,LLM的数学能力弱,不代表自动化的定理证明器对数学没用。前段时间陶哲轩也曾在采访中强调,使用。这是一股不可小觑的力量。最近,CMU和清华的一项研究就致力于让LLM的「自然语言思维链」和...……更多
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...。由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一...……更多
企企通:AI赋能,重塑未来供应链与采购新生态
...供了技术支持,有力驱动采购流程从传统模式向智能化、自动化、高效化的形态转变,提升供应链的透明度、灵动性和响应速度。1、AI技术赋能供应链智能化升级,实现效率提升与成本优化人工智能(AI)以其卓越的数据处理能...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...型参数量和训练token数的最佳比率。如果你希望在论文的基准测试中得到最优模型,那么Chinchilla本身没有问题;但Meta要发布的旗舰模型还需要更高的推理效率。因此,我们选择增加训练的token数,并增加训练时长,让模型达到「...……更多
教育部上线国家智慧教育平台:科大讯飞AI求职助手入选
...布、简历筛选、笔试测评、视频面试及录用通知等全流程自动化处理,通过算法优化实现高效人岗匹配。智能人才库管理支持非结构化简历文本的关键信息抽取与标签化处理,结合行业知识图谱自动推荐匹配候选人,显著降低人...……更多
更多关于科技的资讯:
厦门抢占具身智能产业新赛道
第十四届中国创新创业大赛——首届具身智能专业赛成果在厦发布。厦门网讯(文/厦门日报记者 吴晓菁 通讯员 高菲 康潇潇 图/厦门日报记者 卢剑豪)昨日的厦门国际会议中心酒店
2025-09-26 08:38:00
具身智能孵化加速器在厦正式揭牌第十四届中国创新创业大赛首届具身智能专业赛昨日发布成果东南网9月26日讯(海峡导报记者 黄奕琳)昨日
2025-09-26 10:17:00
全国26家实验室参与!由雷沃支持的这场“田间论剑”举行
日前,2025年农业机械检测实验室间比对活动在山东潍坊举行。该活动由中国农业机械化协会主办、农机鉴定检测分会承办、潍柴雷沃智慧农业协助开展
2025-09-26 07:05:00
人们依托脑力开展思维活动,而人工智能则依赖算力进行“思考”。“十四五”期间,中国在算力建设上的投入力度相当大,发展成效显著
2025-09-26 07:31:00
王灿:以笔为犁 深耕“城事”
王灿。 臧翔宇 摄□胡欣玥芮天舒祁绩外出采访结束后,王灿轻轻推开南京报业传媒集团融媒中心时政新闻部的门。工位上屏幕亮起
2025-09-26 07:41:00
560余家企业携4.8万余个岗位来东大揽才“AI+”岗位热度不减,实战经验是核心指标□南京日报/紫金山新闻记者何洁 实习生黄佳琪杨久久9月25日
2025-09-26 07:41:00
厦门网讯(厦门日报记者 沈彦彦 应洁)明日,厦门岛外首家永辉“胖东来模式”调改店将在杏林万科里正式开业。作为厦门第二家
2025-09-25 08:53:00
9月24日,“青春华章・向西而歌”网络大思政课活动上,西安交通大学微电子学院集成电路工程专业博士研究生魏上杰介绍,集成电路是“国之重器”的“心脏”
2025-09-25 09:44:00
杜建英一持股公司被吊销,名下关联60家企业其中8家已注销或吊销
企查查APP显示,近日,杜建英持股的杭州芸台文化创意有限公司被吊销,原因是公司成立后无正当理由超过6个月未开业,或者开业后自行停业连续6个月以上
2025-09-25 11:20:00
雷军“五十来岁正是闯的年纪”,出生于1969年,和余承东、陈明永同龄
9月25日,雷军发文:这5年,小米一路摸爬滚打、跌宕起伏,依然启动了造车、芯片和高端化……没什么好犹豫的,五十来岁,正是闯的年纪
2025-09-25 11:20:00
贵州国企“智”变攻坚推动数实融合
赤水河畔,国内首台高温复合型仿生压曲机稳定运转,物联网实时优化发酵参数……这场酿酒的“数字革命”,也是贵州习酒公司以全链数智革新推动产业跃迁的生动缩影
2025-09-25 11:57:00
近8成职场人每周都会用AI工具 “人机互信”仍在磨合期
在人工智能技术日臻成熟的2025年,AI已是深度融入职场生态的“数字同事”,在AI辅助下的2025年职场迎来了哪些变化
2025-09-25 13:30:00
9月23日下午,2025北京文化论坛“破界共生:科技激发文化原创力”平行论坛在京举办。本场论坛由中国文联、中国作协指导
2025-09-25 13:38:00
国庆前夕,房山区物美超市“胖改店”、居然之家房山店、瑞莱广场分别于9月26日、27日、28日开业,进一步丰富了房山区消费场景
2025-09-25 13:38:00
OPPO杭州研发总部项目易主,山子高科接手公司95%股权
企查查APP显示,近日,负责OPPO项目的杭州逗酷软件科技有限公司发生工商变更,新增山子高科旗下浙江山子超影科技有限公司为股东
2025-09-25 16:25:00