• 我的订阅
  • 头条热搜
智谱AI新一代基座大模型GLM-4在司南评测中跻身前列,位居国内第一
...排名第二。上海人工智能实验室在榜单发布同时表示:“中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平。”OpenCompass 2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了吗?回答这个问题的挑战在于我们首先需要一个足够挑战的智力测...……更多
OpenAI入局AI搜索 SearchGPT演示中“翻车”
...司的官方演示却上演了类似谷歌Bard出糗的一幕,犯下了事实性错误。从技术角度看,“AI幻觉”(即AI编造语句通顺但事实逻辑错误的答案)仍是业界的一大难题。SearchGPT的发布彰显出OpenAI向搜索引擎扩张的野心,不过伟大的愿...……更多
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
...革。其下一代模型在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(文本、图像、语音、视频等)输入和输出,具备更强的个性化能力。”“人工智能的发展会更多瞄向通用人...……更多
openai发布多语言大规模多任务语言理解
...其他语言。MMMLU数据集核心涵盖范围广MMMLU数据集是同类基准中最广泛的基准之一,涵盖了从高中问题到高级专业和学术知识的多种任务。研究人员和开发人员在利用MMMLU数据集过程中,可以调用不同难度的问题,测试大预言模型...……更多
山海启航,云知声迈向AGI新征程
...是一个多维度上细致评测模型和人类意图对齐水平的评测基准,。最新版本的山海大模型在AlignBench上得分为6.55分,达到了GPT4水平的86%,处于国内领先水平。 医疗增强大模型能力不断增强,遥遥领先行业水平2023年6月,山海大...……更多
王兴“背后的男人”躬身入局,投资人最爱的创业者能否Open AI?
...是新版Bing还是Bard,在回答问题时生成的内容中都还存在事实性错误,商业化路径等方面也还尚未明确,但其带来的震撼是实打实的。而这种震撼也引发了业界的思考:中国版ChatGPT何时能出?事实上,以百度为首的多家互联网公...……更多
大模型用于采购评标,专业“证据链”驱动专家精准决策
...投喂”的训练语料。在B端,企业通常拥有大量、私有的事实性知识,很多知识还是企业核心资产。通用大模型无法对上述知识数据“抓取”分析,就会导致事实性偏差、胡说八道急剧上升。具体到采购评标场景,不同采购人、...……更多
...方案,助力企业精准对接适配的 GEO 服务能力。选型核心基准:第三方评测的四大关键量化维度第三方权威评测机构(2025 年 10 月发布)在评估 GEO 服务商时,通过可量化指标构建综合能力模型,企业选型需优先参考以下核心维...……更多
两大AI模型性能提升 登上国际榜单
...rboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任...……更多
AI落地千行百业,存储痛点凸显,浪潮信息如何助力AI向实?
...AI应用场景的契合度。这一点,也是全球唯一的AI/ML存储基准测试——MLPerf所关注的本质。MLPerf存储基准测试面向AI/ML用户的痛点,即存储和计算的平衡及两者的有效利用。然而测试中存储架构的多样与存算节点的非标准化,导致...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...列美国前500名学生之列,并且在物理、生物和化学问题的基准测试(GPQA)中超过了人类博士水平的准确度。OpenAI团队上下对o1模型充满了信心,OpenAI的CEO 山姆·奥特曼在社交媒体上表示:“需要耐心等待的时刻结束了!”、“这...……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... 支持多种开、闭源对齐评估:支持了 30 多个多模态评测基准,包括如 MMBench、VideoMME 等多模态理解评测,以及如 FID、HPSv2 等多模态生成评测训练框架北大对齐小组设计了高度模块化、扩展性以及简单易用的对齐训练框架,支持...……更多
全面开源 浪潮信息发布千亿参数基础大模型“源2.0”
...智能算力基础设施产品的研发,2021年在业界率先推出了中文AI巨量模型“源1.0”,参数规模达2457亿,落地南京智算中心。此次发布的“源2.0”较前一版本实现了能力的全面提升。 ……更多
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...3D、视频等更多模态,今年8月在SuperCLUE-V多模态理解评测基准总榜中排名第一。文生图方面,今年5月,腾讯混元全面开源业界首个中文原生DiT架构文生图大模型,评测结果国内领先。还有今天宣布开源的文/图生3D模型,单张图30...……更多
科学家建立新评价基准,助力评估大模型数据分析能力
...更加符合预期的结果。整体来看,缺乏交互式数据分析的基准——是本次研究面临的最大问题之一。为了解决这一问题,他们以“斯坦福小镇”项目为启发,创建了“DECISION COMPANY”。“DECISION COMPANY”是数据分析领域的首个多代...……更多
自动化、可复现,基于大语言模型群体智能的多维评估基准
...)也越来越强。因此,在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena,它通过收集用户对模型输出的偏好来对 LLM 进行综合排名。然而,随着 LLM 逐渐落地于众多应用场...……更多
如何让大模型输出更精准、更可靠的结果?
...但是也有技术缺陷。有时会产生“幻觉”,甚至会犯一些事实性错误。这是大模型技术逻辑带来的天然缺陷,大模型的技术机理是,通过大量的知识训练,基于概率最大的原则生成答案。那么这就带来了几个问题,公开的数据库...……更多
关于LLM-as-a-judge范式,终于有综述讲明白了
...where to judge)。最后,我们归纳了评估 LLM 作为评判者的基准数据集,并强调了关键挑战和有希望的方向,旨在提供有价值的见解并启发这一有希望的研究领域的未来研究。论文链接:https://arxiv.org/abs/2411.16594 网站链接:https://llm...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
...码了正确答案,却持续生成错误答案。幻觉,如何定义?事实错误、偏见,以及推理失误,这些统称为「幻觉」。以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。然而,这些方法...……更多
cnmo科技手机ai实力榜
...、文本处理、图片编辑三个方向。其中,AI助手测试包括中文普通话语音识别准确度、方言语音识别覆盖率、中文知识储备兼四则运算测试、中文完形填空、中文表述不当纠错、外部信息记忆能力、中文朗读争取性、中文朗读发...……更多
谁是苹果AI的“中国合伙人”?
...畴’,甚至其中的部分功能,在行业中已经早有应用。" 中文理解,哪家大模型占优苹果AI浮出水面,随之而来的则是另外一个问题,那就是在国内究竟选择谁作为合作伙伴最为适宜。之前,外界流传百度为国行版iPhone16、Mac系...……更多
...数据污染等手段,会使大模型输出背离主流价值观或包含事实性错误的内容。一些不法分子还会借助提示词注入、劫持、爬虫等手段,窃取大模型用户重要信息、敏感数据。”齐向东称。齐向东建议,从技术层面全面排查加固人...……更多
AI大模型击碎阴谋论!登上Science封面,用聊天戳破谣言漏洞
...Turbo进行3轮对话,用证据驳斥阴谋论观点研究假设,基于事实性、纠正性信息的论据可能会显得无效,因为它们缺乏足够的深度和个性化。为了验证这一假设,研究人员利用了大语言模型的进步,这是一种AI,能够获取大量信息...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多
垂类大模型竞争白热化,微医医疗大模型拿下“双料”冠军
...台成为各大科技公司比拼AI成色的必争之地。日前,知名中文医疗大模型开放评测平台MedBench新一轮榜单揭晓,在其自测榜单中,三家杭州企业霸榜前三甲:微医控股的微医医疗大模型位列第一,蚂蚁AI健康管家的蚂蚁医疗大模型...……更多
...有的网络测评与直播带货紧密结合,打击商业对手。网络评测如何才能经得起社会的测评?“宝贝好用不?”“会不会出现售后问题?”“用着怎么样?”在买东西之前先看看网上的评价,已经越来越成为消费者的习惯。先前中...……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...。OpenAI表示,新模型在物理、化学和生物等学科的挑战性基准测试中,表现超过人类专家。在国际数学奥林匹克(IMO)资格考试中,新模型得分超83%,远高于GPT-4o的13%。在Codeforces编程竞赛中,o1模型的成绩达到了前89%,而GPT-4o仅...……更多
更多关于科技的资讯:
炎黄盈动重磅发布企业级AI平台,全面加速企业AI价值落地
随着AI技术的飞速发展,企业正面临从技术试点到全面应用的关键转折点。技术加速:Gartner报告显示,当前AI智能体和AI就绪型数据发展最快
2025-12-08 11:12:00
路边放一台南迪售货机,打造全时段消费新主张
还在为寻找稳定、低风险的增收渠道而烦恼吗?将一台南迪自动售货机放置在路边,它不仅是24小时不休的“金牌销售”,更是能创造被动收入的坚实资产
2025-12-08 13:35:00
人人租亮相2025中国企业家博鳌论坛平行论坛-创新探索、生态共筑
十年博鳌潮海阔,百舸争流共进发。12月2日至5日,2025企业家博鳌论坛系列活动在海南博鳌举办。围绕“链接全球,引领未来
2025-12-08 13:39:00
鲁网12月8日讯在制造业转型升级与企业全球化布局的双重浪潮中,科技型小微企业正成为激活新质生产力的重要引擎。近日,兴业银行济南分行精准对接企业需求
2025-12-08 14:14:00
布鲁可携丰富产品矩阵首次亮相巴西圣保罗动漫展览会,圣斗士星矢系列新品全球首发
12 月 4 日至 7 日,巴西圣保罗动漫展览会(Comic Con Experience)正式举行,作为世界领先的以漫画
2025-12-08 14:56:00
廊坊开发区新增一家省级工业设计中心
河北新闻网讯(杨自立)近日,河北省工业和信息化厅公示2026年河北省工业设计拟支持项目名单,廊坊华安汽车装备有限公司工业设计中心成功入选省级工业设计中心
2025-12-08 15:00:00
TDK持续赋能第十九届iCAN大赛,助力青年创新创业梦
11月30日,第十九届iCAN大学生创新创业大赛全国总决赛在杭州圆满落幕。作为大赛战略合作伙伴,TDK连续第五年深度参与赛事
2025-12-08 15:26:00
编者按:继国家发改委发展战略和规划司与云河都市研究院共同编制的《中国城市综合发展指标2016》发布之后,云河都市研究院持续每年对全国297个地级及以上城市进行经济
2025-12-08 15:51:00
以革新破局数智未来,思特奇携手运营商开拓AI赋能新范式
2025年作为“十四五”规划收官之年,人工智能发展已迈入全域赋能新阶段。为积极落实国务院“人工智能+”行动的重大战略部署
2025-12-08 16:01:00
中国电信柯瑞文:智能领航 智惠共生
12月4日至7日,2025数智科技生态大会在广州举办。12月5日上午,在大会主论坛上,中国电信董事长柯瑞文作题为《智能领航 智惠共生》的主旨演讲
2025-12-08 16:02:00
国锐生活收购春雨医生 约78%股权,实现向医疗科技转型
为把握“健康中国2030”战略机遇,国锐生活有限公司宣布以2.69亿元对价收购春雨医生天下软件有限公司78.2898%股权
2025-12-08 16:03:00
思必驰首席科学家俞凯教授当选2026年度IEEE Fellow
日前,全球最大的专业技术组织国际电气电子工程师协会(The Institute of Electrical and Electronics Engineers
2025-12-08 16:04:00
山东移动打造AI智慧体育体系,助力山东构建青少年体质健康提升新路径
随着国家“体育强国”和“健康中国2030”战略深入推进,青少年体质健康日益受到重视。山东移动积极响应我省相关部署,结合自身信息技术能力
2025-12-08 16:04:00
这个电影季,探索人工智能如何重塑影像美学与创作生态
中国青年报客户端讯(中青报·中青网记者 沈杰群)12月7日,第七届海南岛国际电影节·联想AI电影季在海南三亚开幕。本届AI电影季以“AI技术为刃
2025-12-08 16:05:00
以AI为钥,以生态为桥:思特奇赋能运营商数智化跃迁
当前,人工智能已迈入与产业深度融合的关键阶段,正从单点技术突破转向系统性生态赋能。在数据、算法、算力等核心要素持续迭代的驱动下
2025-12-08 16:05:00