• 我的订阅
  • 头条热搜
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...hinese SimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集,可以全面探测模型在各个领域的知识水平。具体来说,Chinese SimpleQA 主要有六个特点: 中文:专注于中文语言,并特地包含中国文化等特...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...度。例如,大语言模型通常会生成冗长的回复,包含大量事实性陈述。最近,为解决上述评估问题,OpenAI发布了简短问答基准(SimpleQA),其中包含4326个简洁且寻求事实的问题,使得衡量真实性变得简单可靠。然而,简短问答基...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
...,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0 同样排名第一,领先...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
...技8月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态理解...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模型还将开...……更多
...院(以下简称中国信通院)联合360集团,发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测,360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是国内权威的通用大模...……更多
云从科技从容大模型荣登中国大模型第一梯队
...突破。 据权威测评机构SuperCLUE发布的最新《中文大模型基准测评报告》,云从科技自主研发的从容大模型不仅成功晋升至【领导者象限】,更以总分70.35分的优异成绩稳居国内大模型综合测评第六位,正式步入国内大模型第一...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...造力、复杂性和冗长性等多个属性,以及指令跟随能力- 事实性/内容出处:针对LLM应用中日益重要的幻觉问题,几个数据集都用于评估响应输出的事实准确性及其基础,看模型提出的声明是否有源文档作为依据- 数学推理:区分L...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...模型很难严格遵从人类的指令。此外,大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型,来补充事实性不足的问题,以及 GraphRAG,用图的方式去重新组织它的检索。但问题...……更多
支付宝进军大模型医疗应用,技术一号位:我们有4个切入点
...我们现在评测标准本身里面有一些维度,比如像专业性、事实性、完整性、用户体感。用户体感就是用户自己去标注,来判断是不是像医生来交流。量子位:之前张亚勤提到这样一个演变趋势:信息智能——具身智能——生物智...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面...……更多
货拉拉CTO张浩:货运无忧大模型已在多场景应用
...、轻量化,定位为“你身边的物流专家”。目前,其货运事实性问答准确率超过90%,在货拉拉业务知识、货运行业概念知识、货运企业信息、货运行业洞察、货运法律政策等维度能力评测中均表现优秀。而在非货运领域,货拉拉...……更多
谷歌推出搜索增强事实评估器
...诟病的行为——以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI有时会在回答中“满口跑火车”,甚至“造谣”。图源Pixabay防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktec...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
智源评测体系发布 国内外“百模”评估结果出炉
...则主要评估了多模态理解和生成能力。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出...……更多
通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens
...练数据中增加了 27 种语言相关的高质量数据;多个评测基准上的领先表现;代码和数学能力显著提升;增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。模型基础信息Qwen2 系列包含 5 个尺寸的预训练和指令微调模...……更多
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...nAI o1模型(至少目前)还不是多模态大模型,同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面,GPT-4o依然是更胜一筹的选择。当然,OpenAI明确表示未来会给这个模型增加联网、文件和图像...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...力评测中,文心一言4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心一言遥遥领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多
...海外最具公信力的大模型竞技场之一,遗憾的是该竞技场中文化程度相对不足。为此,Compass Arena的推出将有效填补这一领域的空白。相比考题固定的传统测评,中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式,...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B!在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...含34B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可,成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...外,他还谈到人工智能计算机设计的三大平衡性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理...……更多
更多关于科技的资讯:
周鸿祎批PPT无用:华丽掩盖了空洞!黄仁勋、马斯克都不用
快科技12月27日消息,360集团董事长周鸿祎昨日发布视频,谈到了自己为何特别反感只会“管理”的管理层,其表示:“我特别反感只打嘴炮或者不干活的管理层
2024-12-27 10:08:00
理想全新车机界面曝光:全屏展示智驾轨迹 科幻感十足
快科技12月27日消息,近日,一位博主展示了理想汽车最新的智能驾驶轨迹展示界面,揭示了其车机系统实现端到端驾驶状态的能力
2024-12-27 10:08:00
年底换机购机攻略:还得是年轻人专属华为“nova 13香”
不知不觉2024年马上就要结束了,不少人想趁年底换个新手机,但可能会纠结要选哪款,建议有需求的朋友可以考虑一下华为nova 13系列
2024-12-27 10:08:00
蔚来版“Model Y杀手”:乐道L60上市100天累计交付超20000台
快科技12月27日消息,乐道品牌公布首款车型乐道L60最新数据,其已达成上市100天累计交付超20000台的阶段目标。作为全新的品牌
2024-12-27 10:08:00
本文转自:人民网人民网记者 王绍绍从全球首款自动驾驶物流无人机的大规模商用,到基于AI的个性化药物研发平台的成功构建,再到智能物联网技术在智慧城市中的广泛应用……近年来
2024-12-27 10:31:00
华为首款百万级豪华轿车 尊界S800极寒测试:不怒自威
快科技12月27日消息,鸿蒙智行首款售价超百万的豪华轿车尊界S800已经亮相并开启预售,今日,官方发布了该车的最新官图
2024-12-27 10:38:00
AI的尽头是能源!奥特曼的核能公司Oklo签署重大合作协议
快科技12月27日消息,山姆·阿尔特曼(Sam Altman)的核能公司Oklo宣布了一项重大合作进展,Oklo在12月18日与美国数据中心巨头Switch签署了初步的非约束性协议
2024-12-27 10:38:00
戴先任随着近年来生成式人工智能技术的快速发展以及新职业的落地,与之相关的技能、人才培训市场也日渐火爆。不少培训机构纷纷推出人工智能相关课程
2024-12-27 10:38:00
2024年最后一款大作!网易国产武侠游戏《燕云十六声》PC今日正式公测
快科技12月27日消息,今日,2024年最后一款大作——网易旗下国产武侠游戏《燕云十六声》PC正式公测。官表示,过去几次测试中
2024-12-27 10:38:00
OPPO Find N5春季登场:首款骁龙8至尊版大折叠屏
快科技12月27日消息,OPPO周意保发文预热OPPO Find N5折叠屏,他表示,接下来Find系列的节奏会稳定下来
2024-12-27 10:38:00
索尼不明白《猎人克莱文》有什么不好
索尼影业首席执行官托尼不理解近期上映的《猎人克莱文》为何会失败,该片创下托尼职业生涯最糟糕首映票房。《猎人克莱文》本月14号在北美及中国大陆首映
2024-12-27 10:38:00
未来人类预告18寸巨无霸游戏本:192GB内存、奇特双网口
快科技12月27日消息,未来人类(TerransForce)官方宣布,即将推出一款18寸的巨型游戏本,会配备4K屏幕、192GB内存
2024-12-27 10:38:00
电梯加装背后的成本——项目审计费用知多少
当老旧小区迎来新生,电梯加装成为热议话题,你是否好奇这一改造项目的背后,除了电梯本身的费用,还有哪些隐藏的成本?今天,我们就来聊聊电梯加装中不可或缺的一环——项目审计费用
2024-12-27 10:40:00
齐鲁晚报·齐鲁壹点 于民星数字化时代,人工智能浪潮席卷全球,重塑各个行业格局,成为推动时代进步的重要引擎。工信部成立人工智能标准化技术委员会
2024-12-27 10:44:00
济南市家电圈大事件:海尔聪明风空调震撼发布!
鲁网12月27日讯在这个寒风凛冽的冬日里,济南市家电圈迎来了一场前所未有的盛事!2024年12月25日,所有家电商的精英们纷纷齐聚喜来登酒店
2024-12-27 10:44:00