• 我的订阅
  • 头条热搜
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...排名第二。上海人工智能实验室在榜单发布同时表示:“中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平。”OpenCompass 2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多
OpenAI入局AI搜索 SearchGPT演示中“翻车”
...司的官方演示却上演了类似谷歌Bard出糗的一幕,犯下了事实性错误。从技术角度看,“AI幻觉”(即AI编造语句通顺但事实逻辑错误的答案)仍是业界的一大难题。SearchGPT的发布彰显出OpenAI向搜索引擎扩张的野心,不过伟大的愿...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(文本、图像、语音、视频等)输入和输出,具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人...……更多
openai发布多语言大规模多任务语言理解
...其他语言。MMMLU数据集核心涵盖范围广MMMLU数据集是同类基准中最广泛的基准之一,涵盖了从高中问题到高级专业和学术知识的多种任务。研究人员和开发人员在利用MMMLU数据集过程中,可以调用不同难度的问题,测试大预言模型...……更多
山海启航,云知声迈向AGI新征程
...是一个多维度上细致评测模型和人类意图对齐水平的评测基准,。最新版本的山海大模型在AlignBench上得分为6.55分,达到了GPT4水平的86%,处于国内领先水平。 医疗增强大模型能力不断增强,遥遥领先行业水平2023年6月,山海大...……更多
王兴“背后的男人”躬身入局,投资人最爱的创业者能否Open AI?
...是新版Bing还是Bard,在回答问题时生成的内容中都还存在事实性错误,商业化路径等方面也还尚未明确,但其带来的震撼是实打实的。而这种震撼也引发了业界的思考:中国版ChatGPT何时能出?事实上,以百度为首的多家互联网公...……更多
大模型用于采购评标,专业“证据链”驱动专家精准决策
...投喂”的训练语料。在B端,企业通常拥有大量、私有的事实性知识,很多知识还是企业核心资产。通用大模型无法对上述知识数据“抓取”分析,就会导致事实性偏差、胡说八道急剧上升。具体到采购评标场景,不同采购人、...……更多
...方案,助力企业精准对接适配的 GEO 服务能力。选型核心基准:第三方评测的四大关键量化维度第三方权威评测机构(2025 年 10 月发布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维...……更多
两大AI模型性能提升 登上国际榜单
...rboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任...……更多
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
...AI应用场景的契合度。这一点,也是全球唯一的AI/ML存储基准测试——MLPerf所关注的本质。MLPerf存储基准测试面向AI/ML用户的痛点,即存储和计算的平衡及两者的有效利用。然而测试中存储架构的多样与存算节点的非标准化,导致...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。OpenAI团队上下对o1模型充满了信心,OpenAI的CEO 山姆·奥特曼在社交媒体上表示:“需要耐心等待的时刻结束了!”、“这...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...智能算力基础设施产品的研发,2021年在业界率先推出了中文AI巨量模型“源1.0”,参数规模达2457亿,落地南京智算中心。此次发布的“源2.0”较前一版本实现了能力的全面提升。 ……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...3D、视频等更多模态,今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面,今年5月,腾讯混元全面开源业界首个中文原生DiT架构文生图大模型,评测结果国内领先。还有今天宣布开源的文/图生3D模型,单张图30...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
如何让大模型输出更精准、更可靠的结果?
...但是也有技术缺陷。有时会产生“幻觉”,甚至会犯一些事实性错误。这是大模型技术逻辑带来的天然缺陷,大模型的技术机理是,通过大量的知识训练,基于概率最大的原则生成答案。那么这就带来了几个问题,公开的数据库...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接:https://arxiv.org/abs/2411.16594 网站链接:https://llm...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
...码了正确答案,却持续生成错误答案。幻觉,如何定义?事实错误、偏见,以及推理失误,这些统称为「幻觉」。以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。然而,这些方法...……更多
cnmo科技手机ai实力榜
...、文本处理、图片编辑三个方向。其中,AI助手测试包括中文普通话语音识别准确度、方言语音识别覆盖率、中文知识储备兼四则运算测试、中文完形填空、中文表述不当纠错、外部信息记忆能力、中文朗读争取性、中文朗读发...……更多
谁是苹果AI的“中国合伙人”?
...畴’,甚至其中的部分功能,在行业中已经早有应用。" 中文理解,哪家大模型占优苹果AI浮出水面,随之而来的则是另外一个问题,那就是在国内究竟选择谁作为合作伙伴最为适宜。之前,外界流传百度为国行版iPhone16、Mac系...……更多
...数据污染等手段,会使大模型输出背离主流价值观或包含事实性错误的内容。一些不法分子还会借助提示词注入、劫持、爬虫等手段,窃取大模型用户重要信息、敏感数据。”齐向东称。齐向东建议,从技术层面全面排查加固人...……更多
AI大模型击碎阴谋论!登上Science封面,用聊天戳破谣言漏洞
...Turbo进行3轮对话,用证据驳斥阴谋论观点研究假设,基于事实性、纠正性信息的论据可能会显得无效,因为它们缺乏足够的深度和个性化。为了验证这一假设,研究人员利用了大语言模型的进步,这是一种AI,能够获取大量信息...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多
垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...台成为各大科技公司比拼AI成色的必争之地。日前,知名中文医疗大模型开放评测平台MedBench新一轮榜单揭晓,在其自测榜单中,三家杭州企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型...……更多
...有的网络测评与直播带货紧密结合,打击商业对手。网络评测如何才能经得起社会的测评?“宝贝好用不?”“会不会出现售后问题?”“用着怎么样?”在买东西之前先看看网上的评价,已经越来越成为消费者的习惯。先前中...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...。OpenAI表示,新模型在物理、化学和生物等学科的挑战性基准测试中,表现超过人类专家。在国际数学奥林匹克(IMO)资格考试中,新模型得分超83%,远高于GPT-4o的13%。在Codeforces编程竞赛中,o1模型的成绩达到了前89%,而GPT-4o仅...……更多
更多关于科技的资讯:
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00
胡超 Charles Hu 获2026年《福布斯》“30 Under 30”能源与绿色科技榜单提名
近日,美国领创商业联盟主席、Reverse Energy Solutions Corp.(以下简称“RES”)联合创始人兼首席市场官(CMO)胡超(Charles Hu)近日正式
2025-11-30 12:08:00
11月28日,省工信厅公布首批山西消费名品名单。我市品牌水塔醋业凭借深厚产业积淀成为“时代优品”,优鲜多歌以新零售业态成为“潮流新锐”
2025-11-30 17:55:00
借我一双“星眼” 太空能被“管”好吗?
大皖新闻讯 神舟二十号载人飞船疑似遭空间微小碎片撞击,耽误航天员回家,让空间碎片进入公众视野。而在近地轨道,近年来太空碎片数量激增
2025-11-30 18:40:00
“溯源卢龙 嗨购甜蜜” 卢龙特色好物直播爆单
河北新闻网讯(张丽美、张子亮)11月25日,曾在“数商兴农·寻味卢龙”产地溯源直播活动中创下佳绩的百万粉丝主播“团长mr”
2025-11-30 18:02:00
《疯狂动物城2》爆火!吉林长影电影院线焕新助推观影热潮
时隔九年,迪士尼经典IP续作《疯狂动物城2》重磅归来,与全新升级的吉林长影电影院线强势联动,为吉林省电影市场注入强劲活力
2025-11-30 20:10:00
能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
初冬的广州南沙温暖如春、花团锦簇,大涌新春居民贺泽庶开着他心爱的电动车,开进了绿树与鲜花簇拥的广州南沙环市西路超充站,当车头对准充电桩时
2025-11-30 12:06:00
促进民营经济高质量发展·超能量的“中小微”(十九)|乡村小厂造出“搬运神器”
11月12日,智捷智能科技香河有限公司工作人员在室外场地对智能搬运叉车进行调试。 河北日报记者 刘英摄11月12日,天津滨海新区一处海滩上
2025-11-29 07:31:00
厦门网讯(厦门日报记者 许舒昕)在注意力被算法切割的当下,一张纸质报纸竟在粉丝圈掀起抢购潮——从常规售价2元到二手平台单份22
2025-11-29 09:13:00
一、大数据视域下高校学生资助精准识别与分配的核心概念界定大数据技术是对数据进行加工、整理与计算的技术。其核心在于通过信息存储
2025-11-29 12:02:00