• 我的订阅
  • 头条热搜
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...hinese SimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集,可以全面探测模型在各个领域的知识水平。具体来说,Chinese SimpleQA 主要有六个特点: 中文:专注于中文语言,并特地包含中国文化等特...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...度。例如,大语言模型通常会生成冗长的回复,包含大量事实性陈述。最近,为解决上述评估问题,OpenAI发布了简短问答基准(SimpleQA),其中包含4326个简洁且寻求事实的问题,使得衡量真实性变得简单可靠。然而,简短问答基...……更多
「虎博科技」发布自研多模态大模型TigerBot,开源模型、代码及数据 | 36氪首发
...listic Modeling,结合到大模型中。“假设人类在问模型一个事实性问题,Tigerbot不会只是简单地生成自然语言,而是同步利用更少量的数据就能知道人类意图——在回答上,则会更好的权衡事实性和创造性。”陈烨补充。这样的结...……更多
国内团队新发大模型:ceo上阵写代码
...型可学习性运用ensemble和probabilisticmodeling的方法实现可控事实性和创造性在并行训练上突破deep-speed等主流框架中的内存和通信问题,实现千卡环境下数月无间断针对中文语言更不规则的分布,从tokenizer到训练算法上做了更适合的...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
...,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0 同样排名第一,领先...……更多
GPT-4就是冲着赚钱来的!
...力虽然在很多现实场景中不如人类,但在各种专业和学术基准测试中表现出了与人类相当的水平。不管怎么说,GPT-4确实在商业化上更进一步了。GPT-4和GPT-3.5的部分考试成绩在此之前,ChatGPT以及GPT-3在专业领域的表现一直被人们...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
...技8月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态理解...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模型还将开...……更多
...院(以下简称中国信通院)联合360集团,发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦...……更多
...公布了银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型表现出色,评测分数领先。银河大模型作为作业帮自主研发的大语言模型,深度融合作业帮多年的AI算法沉淀和教育数据积累,...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测,360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...能。GPT-4利用对抗性测试和ChatGPT进行了反复调整,从而在事实性、可引导性和对规则的遵守方面有了明显的改进。Text-Davinci-003是GPT-3和GPT-4之间的一个中间版本,通过指令微调后比GPT-3的性能更好。除此之外,实验中还报告了人...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...T-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4实现多项突破,晋升“考霸”相...……更多
...容生成的安全可控问题,蚂蚁金融大模型采用意图识别与事实性校验相结合的方式,有效提升了生成内容的合规性、安全性和真实性。目前,蚂蚁金融大模型已率先在理财和保险领域进行应用测试。未来,蚂蚁集团与金融机构合...……更多
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...具备一定的数学推理思维能力,不会像ChatGPT之前在回答事实性问题时“胡编乱造”,以及答不出鸡兔同笼问题。李彦宏在采访中表示,这得益于文心一言做了知识增强和检索增强,其中知识增强具备5500亿的知识图谱的事实,叠...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是国内权威的通用大模...……更多
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
... 事实上,该公司表示,2.0 Flash 凭借其卓越的数学能力和"事实性",取代 1.5 Pro 成为 Gemini 的旗舰模型。如前所述,2.0 Flash 可以生成并修改文本和图像。 该模型还能采集照片和视频以及录音,以回答相关问题(例如"他说了什么?...……更多
...公布了“轩辕70B”在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示, 在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居榜首,在两大权威榜单上的所有开源模型中排名第一,也是国内...……更多
云从科技从容大模型荣登中国大模型第一梯队
...突破。 据权威测评机构SuperCLUE发布的最新《中文大模型基准测评报告》,云从科技自主研发的从容大模型不仅成功晋升至【领导者象限】,更以总分70.35分的优异成绩稳居国内大模型综合测评第六位,正式步入国内大模型第一...……更多
王小川公布最新530亿百川大模型,阿里腾讯等超150家企业已使用
...型均已在Hugging Face、Github和Model Scope等平台上线。具体到基准评测上,根据此前百川智能公布的结果显示,在MMLU评测中,baichuan-7B综合评分达42.5分,超过了英文开源大模型LLaMA-7B的34.2分、中文开源模型ChatGLM-6B的36.9分;中文……更多
蚂蚁金融大模型来了!智能金融助理支小宝2.0亮相,有啥特色
...全可控问题,王晓航称,蚂蚁金融大模型采用意图识别与事实性校验相结合的方式,可有效提升生成内容的合规性、安全性和真实性。 王晓航判断,大模型正在为金融产业带来体验变革:更自然的交互,更丰富的供给,更有效...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验...……更多
跟文心一言讨论庄周梦蝶,它让我拥抱美好世界
...体》电视剧的演员是谁”“《三体》的核心内容”等几个事实性问题,借助百度搜索业务的深厚基础,准确无误的回答出了这些信息。更难得的是,文心一言还拥有较强的总结、分析能力,“张鲁一和于和伟的共同点”“张鲁一...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版,还并没有上线。它在多种编程语言上的性能表现如下,可以看到在闭源模型中排名...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
百度文心一言的内测回答,让我惊呆了
...算、中文理解和多模态生成。整体而言,关于一些常规的事实性问题,文心一言的回答既能准确理解人类意图,又能清晰地表达,能够满足不同领域的用户需求,表现还算让人满意。不过也有一些意外收获。发布会结束后,商业...……更多
细思极恐!DeepSeek的胡编乱造正淹没互联网:真实性是当下AI最大的槽点
...人、知名媒体人阑夕认为,DeepSeek的胡编乱造,正在淹没中文互联网。他表示,最近一个星期以来,自己看到的刷屏文章,至少有三例都是DeepSeek-R1生成出来的、充满了事实错误的内容,却因其以假乱真的迷惑性,让很多朋友信...……更多
更多关于科技的资讯:
曹县汉服“遇上”拼多多:95后的创业翻盘记
鲁网10月24日讯曹县,素有“中国汉服产业重镇”之称,曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言,汉服市场度过初期蓝海阶段后
2025-10-24 14:29:00
突破光谱检测瓶颈!中国计量大学本科生团队研制高分辨率光谱仪
通讯员:吴瑞鹏 何秋阳近日,第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中,全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”
2025-10-24 15:02:00
开普勒机器人登陆IROS 2025 以开放平台携手全球开发者共筑新生态
10月19日至25日,全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)在杭州隆重举行
2025-10-24 15:02:00
蓝月亮:用十二年为洁净艺术种下一棵“树”
10月23日,第十七届国际大学生暨青年艺术博览会(简称:大艺博)开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内
2025-10-24 15:14:00
京东工业与南方电网供应链集团签署战略合作 以数智技术驱动供应链全面升级
10月20日,京东工业与南方电网供应链集团在广州正式签署战略合作协议,双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段
2025-10-24 15:23:00
从OS到AI OS:荣耀MagicOS 10定义AI OS新时代
2025年10月23日,荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径
2025-10-24 15:32:00
最后窗口期!2025FHC上海环球食品展免费领票即将截止
2025FHC上海环球食品展已进入开幕倒计时!这场被誉为“全球食饮贸易超级接口”的盛会,已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积
2025-10-24 15:47:00
K90定价后引热议闪电降价,雷军:标准版12GB+512GB 版本首销月直降300元
2025年10月23日的红米K90发布会后,12GB+512GB版本原定价为3199元,但因用户反馈该版本与其他配置差价过大
2025-10-24 15:57:00
iPhone 17系列首批用户反应褪色? 苹果官方客服回应
近日,部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映,其设备遭遇了机身褪色问题
2025-10-24 15:59:00
阿里夸克AI眼镜开启预售 体验者:轻若无物,稳如长在脸上“看一眼”就能支付
阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元
2025-10-24 16:35:00
河北新闻网讯(梁轩轩)“原以为开业办税很繁琐,没想到这么简单!”近日,石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后
2025-10-24 16:59:00
近日,瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动,通过创新融合中医药文化
2025-10-24 17:06:00
“尖货”频出!临安这里科技含量UpUpUp
是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日,2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期
2025-10-24 17:07:00
日前,邮储银行唐山市分行在其辖内网点全面推广集成化的“智能云柜”系统。该设备功能强大,整合了现金、非现金、凭证管理等逾400项个人业务
2025-10-24 17:08:00
行业领先全场景安装!海尔给“老铁门”装好了智能锁
近年来,智能门锁市场需求快速增长。数据显示,2025年上半年中国智能门锁全渠道销量达897万套,同比增长6.8%。市场火热的同时
2025-10-24 17:09:00