• 我的订阅
  • 头条热搜
如何让大模型输出更精准、更可靠的结果?
...但是也有技术缺陷。有时会产生“幻觉”,甚至会犯一些事实性错误。这是大模型技术逻辑带来的天然缺陷,大模型的技术机理是,通过大量的知识训练,基于概率最大的原则生成答案。那么这就带来了几个问题,公开的数据库...……更多
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
...码了正确答案,却持续生成错误答案。幻觉,如何定义?事实错误、偏见,以及推理失误,这些统称为「幻觉」。以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。然而,这些方法...……更多
cnmo科技手机ai实力榜
...、文本处理、图片编辑三个方向。其中,AI助手测试包括中文普通话语音识别准确度、方言语音识别覆盖率、中文知识储备兼四则运算测试、中文完形填空、中文表述不当纠错、外部信息记忆能力、中文朗读争取性、中文朗读发...……更多
谁是苹果AI的“中国合伙人”?
...畴’,甚至其中的部分功能,在行业中已经早有应用。" 中文理解,哪家大模型占优苹果AI浮出水面,随之而来的则是另外一个问题,那就是在国内究竟选择谁作为合作伙伴最为适宜。之前,外界流传百度为国行版iPhone16、Mac系...……更多
AI大模型击碎阴谋论!登上Science封面,用聊天戳破谣言漏洞
...Turbo进行3轮对话,用证据驳斥阴谋论观点研究假设,基于事实性、纠正性信息的论据可能会显得无效,因为它们缺乏足够的深度和个性化。为了验证这一假设,研究人员利用了大语言模型的进步,这是一种AI,能够获取大量信息...……更多
AMD的GPU跑AI模型终于Yes了?PK英伟达H100不带怕的
...比评测报告,声称是首个直接对比 AMD 和英伟达 AI 集群的基准评测。该报告的数据来自 MLCommons,这是一个由供应商主导的评测机构。他们构建了一套 MLPerf AI 训练和推理基准。AMD Instinct 「Antares」 MI300X GPU 以及英伟达的「Hopper」H.……更多
阿里云发布通义千问2.5,性能赶超GPT-4 Turbo
...中文大模型。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Llama-3-70B,成为开源领域最强大模型。历经一年多追赶,国产大模型终于进入核心竞技场,可与国外一流大模型一较高下。奋力追赶一年,成就...……更多
全球AI安全评估测试有了新基准
...型安全领域两项国际标准发布全球AI安全评估测试有了新基准随着人工智能系统,特别是大语言模型成为社会各方面不可或缺的一部分,以一个全面的标准来解决它们的安全挑战变得至关重要。◎本报记者 崔 爽第27届联合国科技...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...。OpenAI表示,新模型在物理、化学和生物等学科的挑战性基准测试中,表现超过人类专家。在国际数学奥林匹克(IMO)资格考试中,新模型得分超83%,远高于GPT-4o的13%。在Codeforces编程竞赛中,o1模型的成绩达到了前89%,而GPT-4o仅...……更多
...天机器人“巴德”(Bard)的首次公开演示中犯了令人尴尬的事实性错误。这些人工智能工具应用如此广泛——出错的机会如此之多——引发了人们的兴趣、争论、焦虑和兴奋。“这是人类首次真正地与电脑对话,”美国研究机构和...……更多
大模型通向AGI,腾讯云携手业界专家探索创新应用新风向
...型有依靠自身无法解决的“幻觉”问题,导致了准确性和事实性无法保证。所以对它的使用需要有所限定,在对可靠性和真实性要求不高的情况下非常有用。针对大模型也不擅长做数学计算,王文广说:“我的建议是,可以通过...……更多
精准狙击Llama 3.1?Mistral AI开源Large 2,123B媲美Llama 405B
...量低于 Llama 3.1 的 4050 亿,但两者性能接近。并且在多个基准测试中与 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 个 token,新版模型在此……更多
AI潮起 共筑数智之基
...100多万专属评测数据集,评测结果客观性跻身国内外主流基准第一阵营。依托自研大模型评测智能体,支持评测数据自学习、用例自编排、执行自适应,同比评测周期缩短90%以上,已服务政府部委、重点央企,将为更多合作伙伴...……更多
大幅减缓幻觉 百融云创大模型精度测评结果出炉
...越重要。百融云创参加的这场“考试”名叫检索增强生成基准测评,这是对大模型处理“幻觉问题”的能力测评,也是对大模型生成内容准确性的测评。尽管大模型带来令人兴奋的技术进步,但“幻觉”一直是制约其发展的主要...……更多
llava-1.6与gpt-4vmp面硬刚的性能,一起来看看
...-4V在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执行“...……更多
腾讯元宝“上桌”,AI助手之争再起波澜
...力强项,比如,背靠今日头条和抖音的豆包,更擅长解答事实性、日常性的问题,也试图以轻松、有趣的互动体验作为差异化竞争点。相比之下,腾讯元宝可能会获得专业人士们的青睐,只不过这也有可能限制其在大众用户中的...……更多
2023 CCF国际AIOps挑战赛决赛成功举办
...批社区成员单位共同发布了国内首个运维大语言模型评测基准OpsEval。中科院计算机网络信息中心副研究员裴昶华对OpsEval的社区定位、榜单结果解读以及后续规划进行了分享。目前OpsEval已经拥有近一万七千道多场景评测题目,评...……更多
重磅!TeleAI 完成首个全国产化万卡万参大模型训练
...会(CCL2024)挑战赛两项冠军:TeleAI 在 CCL2024 大会上获得中文空间语义理解评测和古文历史事件类型抽取评测两项第一名。其中,在古文历史事件类型抽取评测任务挑战赛中,更是在所有子任务均取得第一名的情况下获得了综合...……更多
汽车之家《新能源突破计划》锚定新能源车安全测试新基准
本文转自:新华网过去的一个多月中,汽车之家《新能源突破计划》基于深度的用户洞察,拆解消费者对新能源车的需求和痛点,站在用户角度进行评测,以实车对撞、拆解分析、电池包浸水、智能辅助驾驶实际道路测试等实...……更多
AI大模型“国标”首批测试结果公布,人工智能成市场新焦点
...旨在建立大模型标准符合性名录,是基于官方大模型测试基准的权威评测,被业内称为AI大模型“国标”。受此消息影响,12月25日三六零强势涨停。但26日受大盘整体弱势影响,该股开盘短暂震荡。AI大模型高速发展随着ChatGPT应...……更多
张衡地动仪为什么被移出教科书
...早了1700多年。还有人声称张衡的地动仪能预测地震。但事实上,关于张衡候风地动仪的记载,仅仅只有史书上的196个字。其中描述地动仪内部结构的内容更是只有“中有都柱,傍行八道,施关发机”这12个意义隐晦的字。张衡候...……更多
AMD跑大模型终于Yes!MI300X对比NVIDIA H100/200毫不逊色
...The Information发布的评测报告,AMD的Instinct MI300X GPU在AI推理基准测试中的表现与NVIDIA的H100 GPU相当,显示出AMD在高性能AI计算领域的进步。这份评测报告由MLCommons提供数据,在测试中,AMD的MI300X GPU以及NVIDIA的……更多
...大学等联合发布了大模型评测体系3.0,暨“方升”大模型基准测试体系。据介绍,测试指标重点强化行业和场景导向的能力考查,提出了自适应动态测试方法,测试数据超过百万条,并首次推出面向行业、通用、应用、安全的评...……更多
不同量级参数模型性能同样优秀 夸克大模型再登行业评测榜首
...,依托搜索平台,夸克大模型拥有高质量的各类数据,在中文语境下,模型能力处在行业领先水平。在教育、医疗等垂直领域中,夸克在对话、解题上的能力取得了新的突破,是国产自研大模型的优秀代表之一。同时,在安全性...……更多
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
...要好。 最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。技术细节当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。如果需要多模态输出,后...……更多
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
...性消息——结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据,Reflection 70B在基准...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。商量多模态大模型...……更多
首个多模态连续学习综述,港中文、清华、UIC联合发布
...架构。以下两张表总结了 MMCL 方法的详细属性。数据集和基准大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的...……更多
腾讯推出新一代大模型“混元Turbo”,性能大幅提升,定价低50%
...升100%,推理成本降低50%,解码速度提升20%,效果在多个基准测试上对标GPT-4o,第三方测评居国内第一。在腾讯全球数字生态大会上,腾讯公司副总裁、云与智慧产业事业群COO兼腾讯云总裁邱跃鹏宣布,腾讯混元Turbo在腾讯云上线...……更多
在文化保真与体验创新之间找到平衡
...这样的情境下,由于历史元素在电子中的介入程度较低,事实性的文化人物创作空间较小,任何对其进行的改编或创意性加工都可能放大对历史的偏离,从而导致“歪曲历史”的争议,造成文化误解。结构介入是指电子游戏在叙...……更多
更多关于科技的资讯:
海外华媒参访视源股份 解码中国高科技企业全球化之道
海外华媒代表参访视源股份(谢明 摄)10月19日,参加第六届海外华文新媒体论坛的40余位媒体代表,在人民日报海外网组织下走进广州视源电子科技股份有限公司(简称“视源股份”)第五产业园
2025-10-21 22:52:00
全球首条高世代印刷OLED产线TCL华星t8项目正式开工
10月21日,TCL华星第8.6代印刷OLED生产线(以下简称“t8项目”)在广州开发区、黄埔区正式开工。t8项目是全球第一条规模化量产的G8
2025-10-21 22:52:00
倒计时3天!三联家电“11.11提前抢” 三重补贴撬动山东家电消费
鲁网10月21日讯伴随 “双 11” 消费季临近,山东家电市场迎来年度消费热潮。作为本土家电零售领军企业,三联家电于10月24日至26日率先启动 “11
2025-10-21 17:09:00
“只剩最后500单!”“3、2、1,上链接!”近日,某直播平台上,一名美妆主播正卖力推销一款“限量”粉底液,评论区不断涌现“已拍”“再加点货吧”等留言
2025-10-21 16:44:00
近日,滨海新区知识产权保护中心(以下简称滨海保护中心)通过专业预审服务,高效护航天津医科大学眼科医院科研团队自主研发的“干细胞内囊泡制备与应用”系列专利技术
2025-10-21 15:54:00
驼奶粉行业峰会召开:京东超市与头部企业携手共建“安心驼奶粉”验证方案
10月20日,京东2025驼奶粉行业峰会在京召开,大会以“品质溯源、产业共生”为主题,聚焦行业痛点与机遇,通过多方联动促进产业链健康发展
2025-10-21 11:11:00
江西10家企业入选“中国VR50强企业”
本报讯(全媒体记者左阳天)10月19日,“2025中国VR50强企业”名单正式发布,这是“中国VR50强企业”名单连续第七年发布
2025-10-21 05:52:00
校地专场对接会上,我市一批“钢铁新农人”集中显身手“火眼金睛”识熟果 自动采摘不伤花□南京日报/紫金山新闻记者徐宁果园里
2025-10-21 07:44:00
青春华章 | 南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道
南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道共聚“微”光,好“剧”有戏□南京日报/紫金山新闻记者鲁舒婷近260家相关企业
2025-10-21 07:45:00
培育产业向“新”力 2025厦门国际时尚周圆满落幕
2025厦门国际时尚周在中山路举行,精彩活动吸引众多市民游客。“九球天后”潘晓婷亮相2025厦门国际时尚周。厦门国际时尚周助力首发经济
2025-10-20 08:56:00
总台文创“月兔趣集”数字资产盲盒上线乐数通
中秋佳节,为推动中华优秀传统文化在数字时代实现创造性转化与创新性发展,浙江文化产权交易所(以下简称 “浙江文交所”)携手中央广播电视总台“总台文创”
2025-10-20 14:50:00
向“新”求质 | 潍柴雷沃智慧农业领航智能农机加速出海
鲁网10月20日讯10月17日-10月18日,潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛举行。25款明星机型组成的“全矩阵”智能装备军团震撼列阵
2025-10-20 16:39:00
鸢都家电狂欢“三联家电10.25海信来了”引爆金秋消费季
鲁网10月20日讯 金秋消费季迎来重磅炸弹!三联家电宣布将于10月24日至26日启动年度促销活动——“10.25海信来了”
2025-10-20 16:46:00
战略协同 产品赋能 运营提效丨潍柴雷沃智慧农业2025年全球合作伙伴发展大会召开
鲁网10月20日讯10月17日-18日,以“战略协同·产品赋能·运营提效”为主题的潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛召开
2025-10-20 16:47:00
日前,中国联通、中国移动、中国电信相继宣布,已获得工信部批复,在全国范围开展eSIM手机业务商用试验。这标志着,移动手机彻底告别实体SIM卡的时代正在从愿景走向现实
2025-10-20 17:37:00