• 我的订阅
  • 头条热搜
更快、更强、更经济!港大开源大模型RAG系统LightRAG
...,也考虑到了如何在实现中进行快速匹配。实验实验设置评估数据集为了全面评估模型的性能,我们精心选择了来自UltraDomain的四个具有不同特征的数据集。首先,Agriculture数据集专注于农业实践领域,包含了12篇文档,总token数...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入的文本内容与整体图像上下文之间的复杂关系。在一些文字在图...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...明显的不同,特别是在约束马尔科夫决策过程(CMDP)的框架下,许多理论分析是基于优化算法和约束策略展开的。以下是一些关键的理论分析点:强化学习与安全强化学习的区别传统强化学习的目标是找到能够最大化累积奖励...……更多
AI卷翻科研!DeepMind 36页报告:全球实验室被「AI科学家」指数级接管
...白质在执行功能中的细节未能被可靠地注释。经过可靠性评估验证的AI模型也可以作为新的合成科学数据的来源。例如,AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构以及蛋白质数据库中的实验结构上进行...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...牌,从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型,使...……更多
【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级
...能:大模型的出现完全颠覆了以前数据治理智能化的技术框架架构,下图是过去传统的数据治理技术架构: 将企业的业务定义、行业理解,企业业务口径定义,企业内部数据库的结构,甚至数据画像都通过灌入大模型最终实现...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...治理委员会副组长单位以及大模型安全风险防范能力系列评估规范“核心参编单位”,同时作为中国网络空间安全协会人工智能安全治理专业委员会首批成员单位,参与大模型语料库和安全评测。 ……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来了,来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CV...……更多
世界第一!阿里云图计算引擎登顶权威榜单 每秒处理超8万次请求
...问和高吞吐查询等能力;在查询层,通过自研的GOpt优化框架,利用高阶统计信息提高基数估计准确性,可有效减少查询中间结果并提升执行效率,该研究成果已被数据库顶会 SIGMOD 2025收录。资料显示,LDBC是图数据与图计算领域...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...Mind首席科学家杰夫·迪恩(Jeff Dean)写道,“对机器学习框架(JAX、PyTorch、TensorFlow)和编排工具的强大支持使我们能够在v5p上更高效地扩展。通过第二代SparseCores,我们还看到嵌入密集型工作负载的性能有了显着提高。TPU对于...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
... LLM 中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对,即所谓的 LLM-Modulo 系统。o1 尝试以不同的方式为底层 LLM 补充类似 System 2 的能力。据了解,o1 是将底层 LLM(很可能是经过修改的 GPT-4o)结合到 R...……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...预防事故等领域。谷歌表示,PaliGemma 2已进行广泛测试,评估了该模型在人群偏见方面的表现,并声称该模型在“毒性和粗俗程度”方面优于行业基准。 然而,谷歌并未公开其所使用的完整测试基准,也未明确披露具体的测试...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...l还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后面还会对称地拼接投影层和各种解码器...……更多
泰康人寿蝉联“保险业投资金牛奖”
...规定的前提下,建立了一套基于资产负债管理的资产配置框架体系,采用成熟稳健的资产配置策略,稳健规范开展资金运用,确保资金运作安全,并充分发挥在品种领域的投资能力,长期以来取得优异的投资业绩,为向客户提供...……更多
广州公布4项基准地价成果
...设用地,按照商服、住宅(或宅基地)、工业等用途分别评估,并由政府确定的,于某一估价期日法定最高使用年期(或某一设定年期、无年期限制)土地权利的区域平均价格。农用地基准地价是指,在不改变农用地用途的前提...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
...提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的...……更多
LLM取代的第一个编程语言竟是SQL?网友吵翻天
...过了人类 SQL 程序员(准确率为 92%)的平均水平,大多数数据库产品已经提供了一个 chatbox 接口来查询数据」。Bindu Reddy 口中的 Chatbox 是一个开源的桌面端程序,Prompt 的调试与管理工具,支持 OpenAI 模型、Claude、Google Gemini ……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。 最近,伦...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练...……更多
Sora等生成式AI消耗大量能源和水!美议员首提法案应对能源危机
...的标准,并为人工智能开发者和运营商创建一个自愿报告框架。该法案能否通过仍不确定。业内人士也指出,美国首个此类法案,将会强调生成式人工智能技术的环境影响,但要彻底解决这些问题还有很长的路要走。生成式AI驱...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...总结历史上的定义,并在此基础上提出了他们对AGI的定义框架[12]。从理论到实践:定义AGI的六大原则从这些过去定义AGI的尝试中,研究人员发现了一些共同特征,并从中提取出定义AGI所必须满足的六大原则:1.注重能力,而非过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...途,必须提前获取 Mistral AI 商业许可证。性能表现在多项评估指标上,Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestra……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...完成,论文共同一作Wei Fan、Haoran Li。团队提出了一个新框架,基于情境完整性理论来调整大语言模型使其符合隐私法律,提高其在不同情境下检测隐私风险的能力。Formality is Favored: Unraveling the Learning Preferences of Lar……更多
加州大学团队开发异构编程新模型,开辟提升处理器性能新路径
...(Hung-Wei Tseng)领导的研究团队,提出了一种以新的软件框架提高现有计算机处理速度的方法,为我们提供了一种新的性能提升思路。图丨曾宏伟(来源:加州大学河滨分校)为了处理不同类型的数据,现代计算机大都集成了多...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
... 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用的计算数量。请注意,LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集...……更多
...产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦理等方面的表现。该体系将覆盖合法合规、隐私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集,为行业提供...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...型相当的精度表现。LLMC:一站式大模型瘦身工具包△LLMC框架图支持多种算法。LLMC 支持多种压缩算法,包括 16 种不同的量化方法,涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。...……更多
建筑业碳排放占37%,奥雅纳呼吁建立数据生态体系
...内权威检测机构国检测试控股集团上海有限公司签署战略框架协议,合作开发建筑隐含碳测算及认证服务。其将建筑分为六大层级,可在项目设计或完成阶段针对每个层级的隐含碳以及减碳量进行测算评估。对企业而言,拥有隐...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。近期,在OpenAI首批推理模型o1发...……更多
更多关于科技的资讯:
近日,兴业数金上线投产跨境人民币理财项目,建立基于手机银行APP的“跨境理财通”线上功能专区,助力本行成为第二家实现“跨境理财通”业务全线上办理的内地商业银行
2025-12-06 16:08:00
“我是一名肢残三级的残疾人,请问能享受哪些补贴?”输入文字,几秒钟过后,手机页面就出现了答案——杭州市各级政府的相关助残政策和补贴金额被清晰地列举出来
2025-12-06 10:21:00
河北日报讯(张晓超、李娜)11月19日,辛集市教育北路高架桥上空,一架搭载高清摄像头与专业传感器的无人机缓缓升空,按照预设航线开展桥梁日常检测
2025-12-05 14:56:00
烟台南山学院斩获省部级科技奖荣誉
近日,2025年度中国纺织工业联合会科学技术奖励大会在北京人民大会堂隆重召开。烟台南山学院“针织经编一体成型3D智能织造关键技术及应用”项目斩获“技术发明奖二等奖”
2025-12-05 15:00:00
盐城盐都:“芯”智散热赋能 科创驱动前行
江南时报讯 以科创破局散热赛道,以匠心赋能产业升级。乘着聚焦“3+3”产业体系、培育新兴产业的发展浪潮,盐城市盐都区已在第三代半导体多个细分领域形成显著集聚优势
2025-12-05 15:07:00
中新建电力集团发电产业:智慧电厂新蓝图
近日,中新建电力集团天河热电分公司与上海电气集团举行了一场关键的技术交流会。会议聚焦于天河热电的智慧化升级,上海电气团队在会上系统性地展示了其先进的智慧电厂整体架构规划
2025-12-05 15:09:00
日前,建行河北省分行2025年“人工智能+”劳动技能竞赛顺利结束。全省共有111支队伍选送90项作品参加初赛,经过严格的初审选拔
2025-12-05 15:09:00
全国首台套!助力煤矸石全量高值转化
12月1日,由中能建装配式建筑产业发展有限公司投资建设运营的山西大同千万吨级煤矸石综合利用新技术示范项目陶粒中试线成功建成投运
2025-12-05 15:10:00
如何“反内卷”?54.5%职场人将“优化薪酬激励机制”列为首选
什么是“好工作”?工作有哪些特质会让员工有“好”感受?日前,智联招聘通过问卷调研的方式,对平台用户展开调研,回收3525份有效样本
2025-12-05 15:26:00
国航举办“国航+”生态主题发布会
海外网北京12月5日电(记者严冰)12月5日,中国国际航空股份有限公司(以下简称“国航”)在北京举办“云端无界 凤启耀星河——‘国航+’生态主题发布会”
2025-12-05 15:33:00
乐购房山│实惠购—荟品仓城市奥莱北京首店盛大开业!
12月5日,国内仓储式品牌特卖开创者荟品仓,在房山区瑞来广场盛大开业,带来北京首家城市奥莱门店。近1万平方米超大空间、300+全球知名品牌及1-3折极致折扣
2025-12-05 15:55:00
易生支付“智慧分账”赋能安心鲜生 驱动社区零售全国布局
在社区零售数字化转型加速深化的背景下,易生支付与“社区新零售”新兴企业陕西安心鲜生正式达成合作。依托易生支付的深厚技术积淀与成熟系统能力
2025-12-05 16:09:00
ED用药怎么选?金钢鸟领衔西地那非口崩片品牌阵营,购买渠道全解析
第91届全国药交会上,金鸿药业金钢鸟枸橼酸西地那非口崩片的亮相,让“枸橼酸西地那非品牌选择”“哪里有售”等问题成为行业热议焦点
2025-12-05 16:09:00
苏州黄埭镇推动“产学研”深度融合
江南时报讯 日前,苏州冠鸿智能装备有限公司与中南大学计算机学院“跨界”合作,联合启动轮式双臂机器人研发项目,致力于推动创新成果向现实生产力加速转化
2025-12-05 16:13:00
近邻碰碰:以 “邻里经济”打造智慧社区消费新生态 —— 专访小门神传媒科技集团董事长付信中
鲁网12月4日讯“远亲不如近邻”,这句家喻户晓的俗语,如今被小门神传媒科技集团董事长付信中赋予了全新的商业内涵。由其集团研发推出的近邻碰碰 AI 智慧惠民设备
2025-12-05 16:47:00