• 我的订阅
  • 头条热搜
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...排名第二。上海人工智能实验室在榜单发布同时表示:“中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平。”OpenCompass 2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多
OpenAI入局AI搜索 SearchGPT演示中“翻车”
...司的官方演示却上演了类似谷歌Bard出糗的一幕,犯下了事实性错误。从技术角度看,“AI幻觉”(即AI编造语句通顺但事实逻辑错误的答案)仍是业界的一大难题。SearchGPT的发布彰显出OpenAI向搜索引擎扩张的野心,不过伟大的愿...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(文本、图像、语音、视频等)输入和输出,具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人...……更多
openai发布多语言大规模多任务语言理解
...其他语言。MMMLU数据集核心涵盖范围广MMMLU数据集是同类基准中最广泛的基准之一,涵盖了从高中问题到高级专业和学术知识的多种任务。研究人员和开发人员在利用MMMLU数据集过程中,可以调用不同难度的问题,测试大预言模型...……更多
山海启航,云知声迈向AGI新征程
...是一个多维度上细致评测模型和人类意图对齐水平的评测基准,。最新版本的山海大模型在AlignBench上得分为6.55分,达到了GPT4水平的86%,处于国内领先水平。 医疗增强大模型能力不断增强,遥遥领先行业水平2023年6月,山海大...……更多
王兴“背后的男人”躬身入局,投资人最爱的创业者能否Open AI?
...是新版Bing还是Bard,在回答问题时生成的内容中都还存在事实性错误,商业化路径等方面也还尚未明确,但其带来的震撼是实打实的。而这种震撼也引发了业界的思考:中国版ChatGPT何时能出?事实上,以百度为首的多家互联网公...……更多
大模型用于采购评标,专业“证据链”驱动专家精准决策
...投喂”的训练语料。在B端,企业通常拥有大量、私有的事实性知识,很多知识还是企业核心资产。通用大模型无法对上述知识数据“抓取”分析,就会导致事实性偏差、胡说八道急剧上升。具体到采购评标场景,不同采购人、...……更多
...方案,助力企业精准对接适配的 GEO 服务能力。选型核心基准:第三方评测的四大关键量化维度第三方权威评测机构(2025 年 10 月发布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维...……更多
两大AI模型性能提升 登上国际榜单
...rboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任...……更多
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
...AI应用场景的契合度。这一点,也是全球唯一的AI/ML存储基准测试——MLPerf所关注的本质。MLPerf存储基准测试面向AI/ML用户的痛点,即存储和计算的平衡及两者的有效利用。然而测试中存储架构的多样与存算节点的非标准化,导致...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。OpenAI团队上下对o1模型充满了信心,OpenAI的CEO 山姆·奥特曼在社交媒体上表示:“需要耐心等待的时刻结束了!”、“这...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...智能算力基础设施产品的研发,2021年在业界率先推出了中文AI巨量模型“源1.0”,参数规模达2457亿,落地南京智算中心。此次发布的“源2.0”较前一版本实现了能力的全面提升。 ……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...3D、视频等更多模态,今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面,今年5月,腾讯混元全面开源业界首个中文原生DiT架构文生图大模型,评测结果国内领先。还有今天宣布开源的文/图生3D模型,单张图30...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
如何让大模型输出更精准、更可靠的结果?
...但是也有技术缺陷。有时会产生“幻觉”,甚至会犯一些事实性错误。这是大模型技术逻辑带来的天然缺陷,大模型的技术机理是,通过大量的知识训练,基于概率最大的原则生成答案。那么这就带来了几个问题,公开的数据库...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接:https://arxiv.org/abs/2411.16594 网站链接:https://llm...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
...码了正确答案,却持续生成错误答案。幻觉,如何定义?事实错误、偏见,以及推理失误,这些统称为「幻觉」。以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。然而,这些方法...……更多
cnmo科技手机ai实力榜
...、文本处理、图片编辑三个方向。其中,AI助手测试包括中文普通话语音识别准确度、方言语音识别覆盖率、中文知识储备兼四则运算测试、中文完形填空、中文表述不当纠错、外部信息记忆能力、中文朗读争取性、中文朗读发...……更多
谁是苹果AI的“中国合伙人”?
...畴’,甚至其中的部分功能,在行业中已经早有应用。" 中文理解,哪家大模型占优苹果AI浮出水面,随之而来的则是另外一个问题,那就是在国内究竟选择谁作为合作伙伴最为适宜。之前,外界流传百度为国行版iPhone16、Mac系...……更多
...数据污染等手段,会使大模型输出背离主流价值观或包含事实性错误的内容。一些不法分子还会借助提示词注入、劫持、爬虫等手段,窃取大模型用户重要信息、敏感数据。”齐向东称。齐向东建议,从技术层面全面排查加固人...……更多
AI大模型击碎阴谋论!登上Science封面,用聊天戳破谣言漏洞
...Turbo进行3轮对话,用证据驳斥阴谋论观点研究假设,基于事实性、纠正性信息的论据可能会显得无效,因为它们缺乏足够的深度和个性化。为了验证这一假设,研究人员利用了大语言模型的进步,这是一种AI,能够获取大量信息...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多
垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...台成为各大科技公司比拼AI成色的必争之地。日前,知名中文医疗大模型开放评测平台MedBench新一轮榜单揭晓,在其自测榜单中,三家杭州企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型...……更多
...有的网络测评与直播带货紧密结合,打击商业对手。网络评测如何才能经得起社会的测评?“宝贝好用不?”“会不会出现售后问题?”“用着怎么样?”在买东西之前先看看网上的评价,已经越来越成为消费者的习惯。先前中...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...。OpenAI表示,新模型在物理、化学和生物等学科的挑战性基准测试中,表现超过人类专家。在国际数学奥林匹克(IMO)资格考试中,新模型得分超83%,远高于GPT-4o的13%。在Codeforces编程竞赛中,o1模型的成绩达到了前89%,而GPT-4o仅...……更多
更多关于科技的资讯:
在数字经济浪潮奔涌、国企改革持续深化的时代背景下,绵阳安鼎元作为四川安州发展集团旗下专业的国有资产管理平台,勇立潮头,以深刻的变革意识和前瞻的战略视野
2025-11-27 10:07:00
厦门网讯(厦门日报记者 沈彦彦 王元晖)“政策一出台,咨询电话就没停过!”厦门厦旅国际旅行社有限公司湖滨东营业部负责人谢晓燕放下手中的咨询电话
2025-11-27 08:12:00
“脑”力全开!江西抢滩脑机接口新蓝海
当好莱坞经典电影《盗梦空间》描绘的人类通过脑机接口潜入他人意识的场景,从科幻照进现实,一场关乎未来产业格局的竞赛已悄然启幕
2025-11-27 07:13:00
专利技术遭盗用,创新成果被侵犯,专利权人该如何维权?11月24日,市知识产权纠纷调委会通过一起实用新型专利侵权的调解案例释法
2025-11-26 08:11:00
感恩节“心”守护:灵动生活集团全链条心理服务破局,让3000万用户听见温暖的回响
当感恩节的暖意在街头巷尾流转,“守护”与“感恩”成为叩击人心的关键词。在心理健康已从“小众需求”转变为“全民刚需”的今天
2025-11-26 08:35:00
省发展改革委近日批复了山西省教育科技人才一体化服务产业云平台项目可行性研究报告,建设地址位于中北大学校内。作为山西聚焦“产学研用深度融合”的关键信息化基建项目
2025-11-26 08:41:00
为推动智能建造落地应用,搭建行业交流平台,近日,“晋塔”智能装备观摩活动在太原市多个施工项目同步启动。“晋塔”智能施工升降机
2025-11-26 08:42:00
经济热力站|绿色转型为基 金融创新为翼 科技赋能为核——助推首都经济高质量发展再上新台阶
11月19日,“京彩不设限・经济热力站”月度主题走访活动再度启程,记者跟随采访团先后走进北京绿色交易所、中国邮政储蓄银行北京分行及北京银行顺义科技研发中心
2025-11-26 10:06:00
赞皇县:AI赋能“一网通办” 业务办理效率提升70%
河北新闻网讯(次柳静)近日,石家庄市赞皇县数据和政务服务局依托DeepSeek大模型与智能算法,创新打造AI“智能填报”平台
2025-11-26 10:07:00
河北师范大学金融学院举行“产品经理人才共创培养体系”主题培训
河北新闻网讯 近日,河北师范大学金融学院邀请北京来学吧信息技术有限公司相关负责人到校,开展了主题为“产品经理人才共创培养体系”主题培训
2025-11-26 10:09:00
南京生物医药:研发“拔节孕穗”,产业新星闪耀
第91届全国药交会在宁落幕南京生物医药:研发“拔节孕穗”,产业新星闪耀□南京日报/紫金山新闻记者张甜甜连续3天,南京国际博览中心人流如织
2025-11-26 10:26:00
2025年两院院士增选结果揭晓 南京地区7人入选 在宁院士总数达102人
南报网讯(记者何洁张安琪)11月21日,2025年两院院士增选结果正式揭晓,选举产生中国科学院院士73人、中国工程院院士71人
2025-11-26 10:27:00
隐风文化:锚定四大理念,以精品力穿越短剧周期
由北京隐风文化科技有限公司出品的奇幻爱情短剧《岁岁怀安》延续预约150万的热度,上线后迅速跃居红果站内热播榜高位,这也是今年团队继《咬清梨》《怎敌她动人》之后
2025-11-26 11:06:00
视源股份荣获2024年度广东省科技进步一等奖
2025年11月20日,广东省人民政府正式发布《2024年度广东省科学技术奖通报》(粤府〔2025〕50号)。视源股份牵头完成的“高自然度智能交互显示终端关键技术及产业化”项目
2025-11-26 11:06:00
视源股份成为英特尔首批尊享级合作伙伴 合作再升级
近日,英特尔合作伙伴联盟完成战略升级,联盟最高等级“钛金级”正式更迭为“尊享级”。视源股份凭借其在计算机领域的深厚积累
2025-11-26 11:06:00