• 我的订阅
  • 头条热搜
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...hinese SimpleQA,这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集,可以全面探测模型在各个领域的知识水平。具体来说,Chinese SimpleQA 主要有六个特点: 中文:专注于中文语言,并特地包含中国文化等特...……更多
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
...度。例如,大语言模型通常会生成冗长的回复,包含大量事实性陈述。最近,为解决上述评估问题,OpenAI发布了简短问答基准(SimpleQA),其中包含4326个简洁且寻求事实的问题,使得衡量真实性变得简单可靠。然而,简短问答基...……更多
中国信通院发布大模型安全基准测试报告 360智脑综合排名第一
...:中国新闻网近日,中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告(下称“测评报告”),结果显示,三六零集团自研的认知通用大模型360智脑综合排名第一。大模型安全基准测试AI Safety Bench是中...……更多
商汤商量获SuperCLUE 9月评测总榜和子榜两项第一,AI智能体方向受瞩目
...,AI智能体方向受瞩目 近日,中文通用大模型综合性评测基准SuperCLUE发布9月总排行榜和各个分类任务榜单,商汤商量SenseChat 3.0 位列中文大模型总榜排名第一。在新增的AI Agent(AI智能体)子榜中,SenseChat 3.0 同样排名第一,领先...……更多
GPT-4就是冲着赚钱来的!
...力虽然在很多现实场景中不如人类,但在各种专业和学术基准测试中表现出了与人类相当的水平。不管怎么说,GPT-4确实在商业化上更进一步了。GPT-4和GPT-3.5的部分考试成绩在此之前,ChatGPT以及GPT-3在专业领域的表现一直被人们...……更多
中文大模型最新评测出炉:腾讯混元国内第一!
...技8月5日消息,在最新发布的中文多模态大模型SuperCLUE-V基准评测中,腾讯混元大模型获国内排名第一,稳居卓越领导者象限。此次评测聚焦于大模型理解复杂现实世界的关键能力,即多模态理解,俗称“图生文”。多模态理解...……更多
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。除模型开源外,Skywork-13B系列大模型还将开...……更多
...院(以下简称中国信通院)联合360集团,发起大模型安全基准测试SafetyAI Bench制定工作。大模型安全基准测试秉持“公平公正、产业应用、选型参考”原则,采用科学严谨的测试方法,评估大模型在内容安全、数据安全和科技伦...……更多
360智脑7b参数模型采用3.4万亿tokens训练
...任务、中英双语、针对大语言模型长文本理解能力的评测基准)测试中,360选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few-shot等任务进行评测,360Zhinao-7B-Chat-32K模型取得了平均分第一的成绩。...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...能。GPT-4利用对抗性测试和ChatGPT进行了反复调整,从而在事实性、可引导性和对规则的遵守方面有了明显的改进。Text-Davinci-003是GPT-3和GPT-4之间的一个中间版本,通过指令微调后比GPT-3的性能更好。除此之外,实验中还报告了人...……更多
零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新
...步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报...……更多
GPT-4不仅性能更强也更贵了:单次输出7.5万单词需6美元,是此前的30倍
...T-4仍存和此前模型相似的局限性,仍然不完全可靠,存在事实性“幻觉”并出现推理错误,可能自信地在其预测中犯错。同时,它的使用价格也更贵,其API价格是Chat-GPT API 使用价格的15-30倍。GPT-4实现多项突破,晋升“考霸”相...……更多
文心一言发布百度市值蒸发200亿,外界称缺乏亮点,应用前景难超ChatGPT
...具备一定的数学推理思维能力,不会像ChatGPT之前在回答事实性问题时“胡编乱造”,以及答不出鸡兔同笼问题。李彦宏在采访中表示,这得益于文心一言做了知识增强和检索增强,其中知识增强具备5500亿的知识图谱的事实,叠...……更多
位列第一梯队,腾讯混元再度领跑国内大模型
...内权威的大模型评测机构SuperCLUE最新发布了《中文大模型基准测评2024年度4月报告》。其中,腾讯混元大模型位列国内大模型第一梯队,在基础和场景应用上均处于领先位置,位于卓越领导者象限。SuperCLUE是国内权威的通用大模...……更多
云从科技从容大模型荣登中国大模型第一梯队
...突破。 据权威测评机构SuperCLUE发布的最新《中文大模型基准测评报告》,云从科技自主研发的从容大模型不仅成功晋升至【领导者象限】,更以总分70.35分的优异成绩稳居国内大模型综合测评第六位,正式步入国内大模型第一...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...对大模型的研究范式存在一定的不足,于是决定来到香港中文大学读博。图 | 曾忠燊(来源:曾忠燊)前不久,曾忠燊和所在团队提出一个全新评测范式。基于这一评测范式,他们又针对现有数据集,提出了一种改造方法。实验...……更多
跟文心一言讨论庄周梦蝶,它让我拥抱美好世界
...体》电视剧的演员是谁”“《三体》的核心内容”等几个事实性问题,借助百度搜索业务的深厚基础,准确无误的回答出了这些信息。更难得的是,文心一言还拥有较强的总结、分析能力,“张鲁一和于和伟的共同点”“张鲁一...……更多
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
...大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。不过目前还只是Preview版,还并没有上线。它在多种编程语言上的性能表现如下,可以看到在闭源模型中排名...……更多
迈向多语言医疗大模型:大规模预训练语料,开源模型与全面基准测试
...一款名为 MMed-Llama 3 的全新基座模型,以 8B 的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。 所有数据和代码、模型均已开源。MMedBench 上的准确率,图 d 展⽰了在 MMedC 上进...……更多
百度文心一言的内测回答,让我惊呆了
...算、中文理解和多模态生成。整体而言,关于一些常规的事实性问题,文心一言的回答既能准确理解人类意图,又能清晰地表达,能够满足不同领域的用户需求,表现还算让人满意。不过也有一些意外收获。发布会结束后,商业...……更多
百度文心一言发布会详细纪要
...一言各方面的能力,比如总结分析的能力、推理的能力。事实性的东西对于一个搜索引擎来说不是那么难,但是对于一个生成式预训练大模型来说,出错的概率还是挺高的,这些问题都答对相当不容易,因为百度的文心一言采用...……更多
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...造力、复杂性和冗长性等多个属性,以及指令跟随能力- 事实性/内容出处:针对LLM应用中日益重要的幻觉问题,几个数据集都用于评估响应输出的事实准确性及其基础,看模型提出的声明是否有源文档作为依据- 数学推理:区分L...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...模型很难严格遵从人类的指令。此外,大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型,来补充事实性不足的问题,以及 GraphRAG,用图的方式去重新组织它的检索。但问题...……更多
支付宝进军大模型医疗应用,技术一号位:我们有4个切入点
...我们现在评测标准本身里面有一些维度,比如像专业性、事实性、完整性、用户体感。用户体感就是用户自己去标注,来判断是不是像医生来交流。量子位:之前张亚勤提到这样一个演变趋势:信息智能——具身智能——生物智...……更多
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
...型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面...……更多
ChatGPT席卷全球,内容产业最先被革命?
...定的推理能力,回答有层次感,有一定的分析,有一定的事实性。ChatGPT的出现,使我们看到了人工智能的曙光,尤其是自然语言处理作为人工智能皇冠上的明珠,它会引领下一代人工智能的发展,这个信号越来越强烈了。在追...……更多
货拉拉CTO张浩:货运无忧大模型已在多场景应用
...、轻量化,定位为“你身边的物流专家”。目前,其货运事实性问答准确率超过90%,在货拉拉业务知识、货运行业概念知识、货运企业信息、货运行业洞察、货运法律政策等维度能力评测中均表现优秀。而在非货运领域,货拉拉...……更多
谷歌推出搜索增强事实评估器
...诟病的行为——以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI有时会在回答中“满口跑火车”,甚至“造谣”。图源Pixabay防止AI大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒Marktec...……更多
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的...……更多
更多关于科技的资讯:
尴尬:美国情侣玩捉迷藏 男子被女友关行李箱致死引围观
12月8日消息,近日,美国佛罗里达州47岁女子女子萨拉·布恩(Sarah Boone)因谋杀罪被判终身监禁,她要求重新审判被拒
2024-12-08 07:11:00
雷军回应小米被指贴牌没技术:小米一致高度重视制造
快科技12月8日消息,日前,小米CEO雷军发视频回应小米被误解没有工厂、没有技术,被指贴牌。雷军称小米刚开始的模式是轻模式+代工模式的组合
2024-12-08 07:11:00
不为钱放弃生活!专家:印尼越南打工人不愿加班 中国企业要适应当地文化
12月8日消息,大华银行印尼副总裁谢思元近日接受采访时表示,印尼很多朋友不愿意加班,中国企业需要适应当地文化。“印尼很多朋友不愿意加班
2024-12-08 07:11:00
最高补贴1万元!贵州发消费券 60岁及以上老人半价买华为、小米、苹果手表
快科技12月8日消息,据贵州省民政厅网站,日前,贵州省民政厅正式开启发放居家适老化改造消费券,凡收货地址在贵州省境内的60周岁及以上老年人(1964年12月31日及以前出生)
2024-12-08 07:41:00
2024第三十届天津国际珠宝展吸引市民参观、选购 扫码阅读手机版
在天津梅江会展中心举办的2024第三十届天津国际珠宝展,吸引市民参观、选购。
2024-12-08 08:36:00
李云飞:有同行要给被比亚迪起诉的黑媒体兜底赔偿 我们的索赔谁也兜不住
快科技12月8日消息,比亚迪集团-品牌及公关处总经理李云飞今日发布视频称,比亚迪接受媒体的批评和监督,但对黑公关和黑媒体
2024-12-08 08:41:00
实探国补扩容下的3C市场:门店排队购机潮久违再现 消费电子迎暖冬
“江苏这次3C数码补贴后价格诱人引发抢购和代购。”据知情人士透露,有消费者甚至从凌晨开始排队,紧俏产品动辄排队一小时以上
2024-12-08 08:41:00
美国宇航员瘦到脱相 究竟该怪谁
大伙们还记得滞留太空的两位宇航员不?因为波音的拉胯,原本 8 天的航天任务,直接变成了 8 个月的太空 “ 隔离 ”
2024-12-08 09:11:00
曝哪吒汽车拟改名为“方舟汽车”:直接用创始人名字当车名
快科技12月8日消息,日前,有多位博主转发了一则网传的“关于哪吒汽车内部讨论拟改名为‘方舟汽车’的初步方案”邮件截图,引起网友热议
2024-12-08 09:11:00
爱奇艺涉嫌虚假宣传:“尖叫之夜”活动提示抽中门票 实际无法兑奖
快科技12月8日讯,根据国内媒体报道:据多名网友反映,称自己在爱奇艺举办的“尖叫之夜”活动抽奖环节遭遇问题。据称,他们在活动页面上成功抽中了门票
2024-12-08 09:11:00
一年掏十亿打广告 香飘飘比你想的滋润多了
“ 一年卖出 10 亿杯,杯子连起来可以绕地球两圈。 ” “ 连续五年全国销量领先 ” 、 “ 杯装奶茶开创者,一年卖出 3 亿多杯
2024-12-08 09:11:00
特斯拉回应合肥一门店排队刷卡买车:属实 首付5.6万就能开走新车
快科技12月8日消息,据报道,网友近日发布的视频显示,合肥特斯拉某门店出现了排队刷卡买车的现象。原因是合肥在11月底加码汽车购车补贴
2024-12-08 09:41:00
业界首次!中国联通AI大模型存算分离技术新突破
快科技12月8日消息,中国联通宣布,中国联通研究院日前与浙江联通、联通服装制造军团协同攻关,针对AI敏感数据的本地存储异地训练需求提出了创新的业务模式
2024-12-08 09:41:00
前暴雪负责人指责《漫威争锋》抄袭
暴雪前总裁Mike Ybarra在社交平台发帖称,网易的《漫威争锋》应该叫做《守望先锋:漫威争锋》,再次上演《荒野起源
2024-12-08 09:41:00
□南京日报/紫金山新闻记者 黄琳燕12月9日至12日,“亚马逊全球开店跨境峰会”这一跨境电商行业的年度盛会将首次落地南京
2024-12-08 09:58:00