• 我的订阅
  • 头条热搜
更快、更强、更经济!港大开源大模型RAG系统LightRAG
...,也考虑到了如何在实现中进行快速匹配。实验实验设置评估数据集为了全面评估模型的性能,我们精心选择了来自UltraDomain的四个具有不同特征的数据集。首先,Agriculture数据集专注于农业实践领域,包含了12篇文档,总token数...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...言问题生成自由形式的回答。由于没有唯一的标准答案,评估 VQA 具有很大的挑战性。传统的 VQA 方法主要集中于图像中可见元素的直接查询,而不涉及图像中嵌入的文本内容与整体图像上下文之间的复杂关系。在一些文字在图...……更多
安全强化学习方法、理论与应用综述,慕工大、同济等深度解析
...明显的不同,特别是在约束马尔科夫决策过程(CMDP)的框架下,许多理论分析是基于优化算法和约束策略展开的。以下是一些关键的理论分析点:强化学习与安全强化学习的区别传统强化学习的目标是找到能够最大化累积奖励...……更多
AI卷翻科研!DeepMind 36页报告:全球实验室被「AI科学家」指数级接管
...白质在执行功能中的细节未能被可靠地注释。经过可靠性评估验证的AI模型也可以作为新的合成科学数据的来源。例如,AlphaProteo蛋白质设计模型是在AlphaFold 2中超过1亿个AI生成的蛋白质结构以及蛋白质数据库中的实验结构上进行...……更多
【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级
...能:大模型的出现完全颠覆了以前数据治理智能化的技术框架架构,下图是过去传统的数据治理技术架构: 将企业的业务定义、行业理解,企业业务口径定义,企业内部数据库的结构,甚至数据画像都通过灌入大模型最终实现...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...牌,从而为比较不同模型提供了一个明确且具有竞争性的框架。研究团队首先依据金牌数量对模型进行排序,如果金牌数量相同,则按照整体性能分数来排序。它提供了一种直观简洁的方式来识别不同学术领域中的领先模型,使...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来了,来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CV...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...治理委员会副组长单位以及大模型安全风险防范能力系列评估规范“核心参编单位”,同时作为中国网络空间安全协会人工智能安全治理专业委员会首批成员单位,参与大模型语料库和安全评测。 ……更多
世界第一!阿里云图计算引擎登顶权威榜单 每秒处理超8万次请求
...问和高吞吐查询等能力;在查询层,通过自研的GOpt优化框架,利用高阶统计信息提高基数估计准确性,可有效减少查询中间结果并提升执行效率,该研究成果已被数据库顶会 SIGMOD 2025收录。资料显示,LDBC是图数据与图计算领域...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...Mind首席科学家杰夫·迪恩(Jeff Dean)写道,“对机器学习框架(JAX、PyTorch、TensorFlow)和编排工具的强大支持使我们能够在v5p上更高效地扩展。通过第二代SparseCores,我们还看到嵌入密集型工作负载的性能有了显着提高。TPU对于...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
... LLM 中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对,即所谓的 LLM-Modulo 系统。o1 尝试以不同的方式为底层 LLM 补充类似 System 2 的能力。据了解,o1 是将底层 LLM(很可能是经过修改的 GPT-4o)结合到 R...……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...预防事故等领域。谷歌表示,PaliGemma 2已进行广泛测试,评估了该模型在人群偏见方面的表现,并声称该模型在“毒性和粗俗程度”方面优于行业基准。 然而,谷歌并未公开其所使用的完整测试基准,也未明确披露具体的测试...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...l还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后面还会对称地拼接投影层和各种解码器...……更多
泰康人寿蝉联“保险业投资金牛奖”
...规定的前提下,建立了一套基于资产负债管理的资产配置框架体系,采用成熟稳健的资产配置策略,稳健规范开展资金运用,确保资金运作安全,并充分发挥在品种领域的投资能力,长期以来取得优异的投资业绩,为向客户提供...……更多
广州公布4项基准地价成果
...设用地,按照商服、住宅(或宅基地)、工业等用途分别评估,并由政府确定的,于某一估价期日法定最高使用年期(或某一设定年期、无年期限制)土地权利的区域平均价格。农用地基准地价是指,在不改变农用地用途的前提...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
...提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的...……更多
LLM取代的第一个编程语言竟是SQL?网友吵翻天
...过了人类 SQL 程序员(准确率为 92%)的平均水平,大多数数据库产品已经提供了一个 chatbox 接口来查询数据」。Bindu Reddy 口中的 Chatbox 是一个开源的桌面端程序,Prompt 的调试与管理工具,支持 OpenAI 模型、Claude、Google Gemini ……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。 最近,伦...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练...……更多
Sora等生成式AI消耗大量能源和水!美议员首提法案应对能源危机
...的标准,并为人工智能开发者和运营商创建一个自愿报告框架。该法案能否通过仍不确定。业内人士也指出,美国首个此类法案,将会强调生成式人工智能技术的环境影响,但要彻底解决这些问题还有很长的路要走。生成式AI驱...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...总结历史上的定义,并在此基础上提出了他们对AGI的定义框架[12]。从理论到实践:定义AGI的六大原则从这些过去定义AGI的尝试中,研究人员发现了一些共同特征,并从中提取出定义AGI所必须满足的六大原则:1.注重能力,而非过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...途,必须提前获取 Mistral AI 商业许可证。性能表现在多项评估指标上,Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestra……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...完成,论文共同一作Wei Fan、Haoran Li。团队提出了一个新框架,基于情境完整性理论来调整大语言模型使其符合隐私法律,提高其在不同情境下检测隐私风险的能力。Formality is Favored: Unraveling the Learning Preferences of Lar……更多
加州大学团队开发异构编程新模型,开辟提升处理器性能新路径
...(Hung-Wei Tseng)领导的研究团队,提出了一种以新的软件框架提高现有计算机处理速度的方法,为我们提供了一种新的性能提升思路。图丨曾宏伟(来源:加州大学河滨分校)为了处理不同类型的数据,现代计算机大都集成了多...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
... 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用的计算数量。请注意,LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集...……更多
...产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦理等方面的表现。该体系将覆盖合法合规、隐私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集,为行业提供...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...型相当的精度表现。LLMC:一站式大模型瘦身工具包△LLMC框架图支持多种算法。LLMC 支持多种压缩算法,包括 16 种不同的量化方法,涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。...……更多
建筑业碳排放占37%,奥雅纳呼吁建立数据生态体系
...内权威检测机构国检测试控股集团上海有限公司签署战略框架协议,合作开发建筑隐含碳测算及认证服务。其将建筑分为六大层级,可在项目设计或完成阶段针对每个层级的隐含碳以及减碳量进行测算评估。对企业而言,拥有隐...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。近期,在OpenAI首批推理模型o1发...……更多
更多关于科技的资讯:
数字游民在南京:我推着房间找邻居
随时“云端”办公,自由“安放”工位,数字游民社区兴起数字游民在南京:我推着房间找邻居南京首个乡村数字游民社区坐落于浦口草圣书乡景区
2025-09-26 08:14:00
三迭纪项目入选国家药监局智慧监管典型案例年产3亿片!3D打印药片,片片皆可溯源南报网讯(通讯员唐斐记者张希)近日,国家药品监督管理局信息中心正式公布“2025年药品智慧监管典型案例”
2025-09-26 08:14:00
二〇二五年中国香料香精化妆品精品博览会启幕十七个香妆产业创新转化项目签约南报网讯(记者夏思宇)9月25日上午,2025年中国香料香精化妆品精品博览会在南京扬子江国际会议中心开幕
2025-09-26 08:15:00
厦门网讯(厦门日报通讯员 李汶鸿)24日,在上海市普陀区普熙金融广场PUSH艺术中心举办的“数字人民币国际运营中心业务平台推介会”上
2025-09-26 08:38:00
在智能语音机器人赛道,技术稳定性与迭代能力是核心竞争力,神州泰岳旗下鼎富智能avavox大模型语音机器人依托两大技术优势
2025-09-26 08:52:00
服务升级,烟台联通创新推出急救知识培训增值服务
近日,烟台联通在客户日活动中面向VIP客户创新开展急救知识培训公益增值服务,邀请中国红十字会专业急救讲师现场授课,通过“理论+实操”相结合的方式
2025-09-26 09:24:00
中交一公局集团建筑公司武清城改项目QC成果斩获省部级二等成果奖
近日,由中交一公局集团建筑公司武清城改项目申报的《BIM+智能设备在大型城中村改造项目施工阶段的应用》凭借在特大型群体住宅工程的应用实践
2025-09-26 10:49:00
中新经纬9月26日电 9月25日,小米集团创始人、董事长兼CEO雷军在年度演讲上回顾了小米汽车造车历程。雷军提到,今年6月
2025-09-26 10:54:00
与邻一起 共建美好社区!我爱我家首届社区好邻节启幕
近日,头部房产经纪企业我爱我家正式启动主题为“好邻·好礼·好生活”的2025我爱我家社区好邻节。据介绍,本次活动从9月22日至10月31日
2025-09-26 11:24:00
小米汽车推出独特定制服务:试运营一年,每月最多定制40台
9月25日,小米公司创始人雷军在年度演讲中宣布推出一项独特的服务——小米定制服务。雷军表示,小米YU7是为一群高审美,无法容忍平庸的人设计的
2025-09-26 11:37:00
解放双手!小米推出首款三区洗衣机,衣服、内衣、袜子各占一个筒
9月25日,在年度演讲暨秋季新品发布会上, 小米推出了首款三区洗衣机——米家三区洗衣机Pro 滚筒10kg,售价3999元
2025-09-26 11:38:00
机构:鸿蒙电脑占高端市场份额超70%
华为鸿蒙折叠电脑MateBook Fold非凡大师的上市成为改写高端笔记本市场格局的关键事件。根据GFK 2025年6月统计
2025-09-26 11:38:00
补链强基 延链拓新——济南历城绘就产业发展新图景
鲁网9月26日讯(记者 李晓晨)从算力之巅的超级计算中心到家庭智能的创新终端,从芯片封装的关键环节到水处理技术的自主研发
2025-09-26 12:03:00
从优篮子到 JOBY:唯迹科技的全球化成长之路
在摄影配件行业,“速生速死” 是常态 —— 产品迭代快、价格战频发,多数企业陷入内卷困境。而深圳市唯迹科技有限公司却走出了一条 “反常识” 的发展路径
2025-09-26 12:07:00
让AI规划假期行程,告别烧脑做攻略比价;戴上耳机,和自己的专属AI讲解员一起边逛边聊,拍展品听讲解,拍景点听典故,拍建筑听历史……这种全新的旅行体验
2025-09-26 12:08:00