• 我的订阅
  • 头条热搜
【数智化人物展】白鲸开源CEO郭炜:大模型助力企业大数据治理“数智化”升级
...能:大模型的出现完全颠覆了以前数据治理智能化的技术框架架构,下图是过去传统的数据治理技术架构: 将企业的业务定义、行业理解,企业业务口径定义,企业内部数据库的结构,甚至数据画像都通过灌入大模型最终实现...……更多
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
...选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型(MLLMs)在各个排行榜上展现...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...治理委员会副组长单位以及大模型安全风险防范能力系列评估规范“核心参编单位”,同时作为中国网络空间安全协会人工智能安全治理专业委员会首批成员单位,参与大模型语料库和安全评测。 ……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...来了,来自斯坦福李飞飞吴佳俊团队!HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CV...……更多
谷歌推出其最先进AI模型Gemini,希望击败GPT-4
...Mind首席科学家杰夫·迪恩(Jeff Dean)写道,“对机器学习框架(JAX、PyTorch、TensorFlow)和编排工具的强大支持使我们能够在v5p上更高效地扩展。通过第二代SparseCores,我们还看到嵌入密集型工作负载的性能有了显着提高。TPU对于...……更多
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
... LLM 中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对,即所谓的 LLM-Modulo 系统。o1 尝试以不同的方式为底层 LLM 补充类似 System 2 的能力。据了解,o1 是将底层 LLM(很可能是经过修改的 GPT-4o)结合到 R...……更多
谷歌新模型能识别人类情绪了!但不少人开始担心
...预防事故等领域。谷歌表示,PaliGemma 2已进行广泛测试,评估了该模型在人群偏见方面的表现,并声称该模型在“毒性和粗俗程度”方面优于行业基准。 然而,谷歌并未公开其所使用的完整测试基准,也未明确披露具体的测试...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...l还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后面还会对称地拼接投影层和各种解码器...……更多
泰康人寿蝉联“保险业投资金牛奖”
...规定的前提下,建立了一套基于资产负债管理的资产配置框架体系,采用成熟稳健的资产配置策略,稳健规范开展资金运用,确保资金运作安全,并充分发挥在品种领域的投资能力,长期以来取得优异的投资业绩,为向客户提供...……更多
广州公布4项基准地价成果
...设用地,按照商服、住宅(或宅基地)、工业等用途分别评估,并由政府确定的,于某一估价期日法定最高使用年期(或某一设定年期、无年期限制)土地权利的区域平均价格。农用地基准地价是指,在不改变农用地用途的前提...……更多
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
...提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统,相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的...……更多
LLM取代的第一个编程语言竟是SQL?网友吵翻天
...过了人类 SQL 程序员(准确率为 92%)的平均水平,大多数数据库产品已经提供了一个 chatbox 接口来查询数据」。Bindu Reddy 口中的 Chatbox 是一个开源的桌面端程序,Prompt 的调试与管理工具,支持 OpenAI 模型、Claude、Google Gemini ……更多
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
...质」的,比如MMLU、PubMedQA和MedMCQA,主要以问答的形式来评估模型的核心知识检索和推理能力,然而,这些基准都不适合评估模型前瞻的能力,辅助科研需要整合嘈杂但相互关联的发现,比人类专家更擅长预测新结果。 最近,伦...……更多
马斯克承诺开源版大模型 来了!Grok-1:3140亿参数迄今最大,权重架构全开放
...学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估:在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练...……更多
Sora等生成式AI消耗大量能源和水!美议员首提法案应对能源危机
...的标准,并为人工智能开发者和运营商创建一个自愿报告框架。该法案能否通过仍不确定。业内人士也指出,美国首个此类法案,将会强调生成式人工智能技术的环境影响,但要彻底解决这些问题还有很长的路要走。生成式AI驱...……更多
从“智能涌现”到“超人类”,通往AGI巅峰的终极设想
...总结历史上的定义,并在此基础上提出了他们对AGI的定义框架[12]。从理论到实践:定义AGI的六大原则从这些过去定义AGI的尝试中,研究人员发现了一些共同特征,并从中提取出定义AGI所必须满足的六大原则:1.注重能力,而非过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...途,必须提前获取 Mistral AI 商业许可证。性能表现在多项评估指标上,Mistral Large 2 刷新了性能和服务成本的新标准。特别是在 MMLU 上,预训练版本实现了 84.0% 的准确率。代码与推理Mistral AI 基于此前 Codestral 22B 和 Codestra……更多
多个中国团队斩获EMNLP\'24最佳论文!UCLA华人学者中三篇杰出论文
...完成,论文共同一作Wei Fan、Haoran Li。团队提出了一个新框架,基于情境完整性理论来调整大语言模型使其符合隐私法律,提高其在不同情境下检测隐私风险的能力。Formality is Favored: Unraveling the Learning Preferences of Lar……更多
加州大学团队开发异构编程新模型,开辟提升处理器性能新路径
...(Hung-Wei Tseng)领导的研究团队,提出了一种以新的软件框架提高现有计算机处理速度的方法,为我们提供了一种新的性能提升思路。图丨曾宏伟(来源:加州大学河滨分校)为了处理不同类型的数据,现代计算机大都集成了多...……更多
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
... 对比了标准 LLM 与 LazyLLM。LazyLLM图 4 展示了 LazyLLM 的整体框架。从完整上下文开始,LazyLLM 会逐渐对 token 进行剪枝,从而逐渐减少得到最终模型所使用的计算数量。请注意,LazyLLM 允许模型在不同的生成步骤选取不同的 token 子集...……更多
...产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦理等方面的表现。该体系将覆盖合法合规、隐私保护、文明健康、人工智能自主意识等27个维度的中文评测数据集,为行业提供...……更多
单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
...型相当的精度表现。LLMC:一站式大模型瘦身工具包△LLMC框架图支持多种算法。LLMC 支持多种压缩算法,包括 16 种不同的量化方法,涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。...……更多
建筑业碳排放占37%,奥雅纳呼吁建立数据生态体系
...内权威检测机构国检测试控股集团上海有限公司签署战略框架协议,合作开发建筑隐含碳测算及认证服务。其将建筑分为六大层级,可在项目设计或完成阶段针对每个层级的隐含碳以及减碳量进行测算评估。对企业而言,拥有隐...……更多
OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相
...在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。在公开发布o3模型之前,OpenAI也将开放外部研究人员测试o3模型的申请流程,申请将于1月10日截止。近期,在OpenAI首批推理模型o1发...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...正确性,发现数据集的质量有一定的保证。为了能进一步评估合成数据的质量,作者还为图表、表格和路线图这三个任务构建了额外的训练集,共包含62,476条指令(图1)。基准测试论文共对12个模型进行了测试,详细结果如表A1...……更多
不花一分钱!GPT-4o微调限时免费开放,每日附赠百万训练token
...了分层安全缓解措施,例如不断对微调模型运行自动安全评估并监控使用情况。网友:微调比不上提示词缓存一片热闹之际,有网友认为微调仍然比不上提示词缓存。微调很酷,但它仍然不如提示词缓存…… 之前量子位也介绍...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...学水平不及小学生怎么办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...他们将这个智能体称为Agent K v1.0,这是他们的结构化推理框架 Pangu-Agent 的一个扩展,但它也是专门为应对数据科学挑战设计的。该团队为 Agent K v1.0 引入了新的内部函数类别,以便在自动解决数据科学任务之前自动设置它们。他...……更多
国产chatgpt何时能出?百度站出来了最快3月评分全球第一
...NIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。ERNIE在情感...……更多
神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察
...4谁能笑到最后?谷歌对 Gemini 模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解,到数学推理等任务。数据上看,Gemini Ultra是首个在 MMLU(大规模多任务语言理解数据集)任务表现上优于...……更多
更多关于科技的资讯:
从乡村直播间的农特产品,到城市商场的促销热潮,再到物流行业的高效运转……记者从太原市税务局获悉,随着“双11”将下半年消费市场带入旺季
2025-11-21 08:12:00
天阳科技发布“量子增强计划”,多方聚力共筑“量子金融”新生态
近日,以 “量子计算+AI:重塑金融科技新范式” 为主题的前沿科技研讨会在北京召开,本次研讨会由天阳宏业科技股份有限公司(以下简称 “天阳科技”)主办
2025-11-21 08:29:00
奋进的河北·“十四五”答卷丨身边的“十四五”(四):车间里的“智变”
向智而行,新型工业化加速跑——河钢集团唐钢公司构建全流程一体化生产计划排程系统,实现订单与产能高效匹配;石家庄四药集团应用生产执行系统
2025-11-21 08:36:00
“看见”,是新闻工作的起点。守护新闻工作者的清晰视野,就是守护社会公器的明亮窗口。11月18日,在厦门市新闻工作者协会指导下
2025-11-21 09:40:00
网易 UU 远程 Mac 被控功能上线,提升 macOS高效办公体验
网易 UU 远程全新版本上线,在已有 Mac 控制 PC 功能的基础上,正式开放 Mac 设备被控功能,自此 Mac 实现控制与被控的双向协作
2025-11-21 09:47:00
中新经纬11月21日电 “小米公司发言人”微博21日发布关于Xiaomi Watch S4 Sport潜水功能的说明。小米公司表示
2025-11-21 11:11:00
阿里巴巴承办COP30中国角边会 展示AI驱动气候治理新成果
第30届联合国气候变化大会(COP30)于11月10日至21日在巴西帕拉州首府贝伦市举办,这是2015年《巴黎协定》签署以来最受瞩目的气候大会
2025-11-21 11:36:00
数绘星云与腾讯云达成战略合作,共同推动AI出海电商智能化升级
11月18日,数绘星云(深圳)科技有限责任公司与腾讯云正式签订战略合作协议,双方将在云计算、大数据、AIGC等核心领域开展深度合作
2025-11-21 11:48:00
中新经纬11月21日电 据彭博社报道,当地时间20日,谷歌宣布了一款名为Nano Banana Pro的新型图像生成和编辑模型
2025-11-21 11:53:00
回望“十四五”,西安交通大学方涛教授说,他们团队倍感振奋。“在国家能源结构转型关键期,我们扎根国家‘双碳’战略,依托西安交大强大科研平台
2025-11-21 13:29:00
舒朗秋11月19日,工业和信息化部举行新闻发布会,介绍GB6675《玩具安全》系列强制性国家标准修订情况。据介绍,我国建成了全球最为完善的玩具产业链
2025-11-21 14:19:00
向长河英国剑桥大学出版社近日宣布,与追星相关的词语“准社交”(parasocial)成为2025年《剑桥词典》年度词汇
2025-11-21 14:19:00
2025世界计算大会发布全球计算十大创新成就
20日,2025世界计算大会在湖南长沙开幕。大会发布了2025全球计算十大创新成就及2026十大发展趋势。此次发布的全球计算十大创新成就包括
2025-11-21 15:35:00
系统创业 自由人生|首届雨大王大健康私域 IP 创业峰会在深圆满落幕
2025年11月1日-2日,为期两天一夜的首届雨大王大健康私域IP创业峰会在深圳成功举办。本次峰会以"系统创业,自由人生"为主题
2025-11-21 15:41:00
《保险AI智能体应用白皮书》发布,四层架构+七大场景定义行业智能新范式
随着人工智能技术加速重塑千行百业,以AI智能体为代表的AI技术正成为推动产业智能化转型的核心引擎。在保险行业,伴随数字化进程的深入推进
2025-11-21 15:42:00