• 我的订阅
  • 头条热搜
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...nAI o1模型(至少目前)还不是多模态大模型,同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面,GPT-4o依然是更胜一筹的选择。当然,OpenAI明确表示未来会给这个模型增加联网、文件和图像...……更多
清华发布2024年3月版《SuperBench大模型综合能力评测报告》
...力评测中,文心一言4.0表现优异,位居国内第一,其中在中文推理、中文语言等评测上,文心一言遥遥领先,和其他模型拉开明显差距,中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排...……更多
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
...,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。LMMs-Eval-Lite: 广覆盖...……更多
“80后死亡率高”疑似是AI造谣,AI已经开始胡说八道了
...发布《DeepSeek与AI幻觉》报告,将AI幻觉分为两类,一类是事实性幻觉,指生成的内容与可验证的现实世界事实不一致。例如,模型错误地回答“糖尿病患者可以通过吃蜂蜜代替糖”。另一类则是忠实性幻觉,指的是AI生成的内容...……更多
微软演示活动出现事实性错误
...导致其股价当天暴跌逾7%,但微软的演示活动同样出现了事实性错误。上周的科技圈掀起了一个聊天机器人的小高潮,微软和谷歌都试图通过展示早起版本的AI搜索来先发制人。微软更是宣布,该公司的AI搜索仅用48小时就吸引100...……更多
...海外最具公信力的大模型竞技场之一,遗憾的是该竞技场中文化程度相对不足。为此,Compass Arena的推出将有效填补这一领域的空白。相比考题固定的传统测评,中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式,...……更多
iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑
...技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B!在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模...……更多
更安全的AI,更容易被用户抛弃?|产品观察
...言的概率会是此前的一般。“我们通过整理一系列复杂的事实性问题,测试Claude 2.1的诚实度。这些问题探究了模型的已知弱点。”Antropic表示。举例来说,拿一个信息错误的陈述句(“玻利维亚人口第五多的城市是蒙特罗”)和...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...务中,o1 的表现明显优于 GPT-4o。 o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。OpenAI 为大模型的能力开启了新方向:「能不能像人一样思考与推理」已经成为了评判它们能力的重要指标。厂商发布的新模型要是不带点...……更多
百川智能发布Baichuan4-Finance大模型,金融场景能力领先GPT-4o近20%
...学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。据介绍,此次发布的Baichuan4-Finance基于百川智能自主研发的全链路领域增强技术方案,涵盖了从数据集构建、模型预训练到微调和强化学习的完...……更多
零一万物大模型Yi-34B夺得全球开源评测“双料冠军”,已在阿里云魔搭开源
...含34B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可,成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军...……更多
清华郑纬民院士:AI for Science的出现,让高性能计算与AI的融合成为刚需|MEET2023
...外,他还谈到人工智能计算机设计的三大平衡性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理...……更多
百川智能发布baichuan3稳定语言模型
...U、GAOKAO和AGI-Eval中,Baichuan3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了Baichuan3在自然语言处理和代码生成领域的强大实力。不仅如此,其在对...……更多
云从科技:大模型五虎与AI智能体的领航者
...型五虎? 权威测评机构SuperCLUE此前发布了《中文大模型基准测评4月报告》,云从科技自主研发的从容大模型凭借其在多个领域的出色表现,赢得了行业内外的广泛关注,不仅成功晋升至SuperCLUE模型象限的【领导者象限】,更以...……更多
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
...位于澳大利亚,再检索澳大利亚的多数党。查询仍然围绕事实性问题,但答案并没有明确地出现在任何某一个文本段落中,而是需要通过常识推理、结合多个事实来得出结论,所需的信息可能分散在多个段落中。 主要难点1. 适...……更多
...案件审理,有力推动了西北五省(区)税务行政处罚裁量基准统一,防范税收执法风险,做到案结事了。 ……更多
AI安全守护计划启动!信通院牵头,AIIA安全治理委员会发布三类模型安全评测
...能治理展开,安全组主要开展大模型安全、合规等研究及基准测试。今年6月,中国信通院依托该委员会发起“人工智能安全守护计划”,包括建立威胁信息共享机制、开展AIGC真实内容来源可信工作、建立AI保险机制等。 一、成...……更多
...力。”具体来看,语言模型主观评测显示,目前针对一般中文场景的开放式生成任务,各大模型表现已趋于饱和。字节跳动、百度等国产模型表现优异。不过,在逻辑推理、观点表达等维度,国内厂商仍需进一步与国际巨头看齐...……更多
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...:大模型能做到既有创造力,又少幻觉吗?赵东岩:对于事实性幻觉,如回答某事实性问题出错,这个得看问题的复杂程度。有部分原因是模型输出的随机性导致的(也是模型有创造力的源泉),这方面随着模型能力的增强,幻...……更多
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
...,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。2009年,李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet,...……更多
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
...,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至关重要,而大模型会产生幻觉,有时会自信地陈述没有任何现有来源或证据的信息。另外,科学需要极其注重细节,而大模型在面对具有挑战性的推理问题时可能...……更多
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多
新闻传播业的生成式人工智能应用及其风险应对
...望利用智能工具提升生产力,放大人类记者在新闻深度和事实核查等方面的独特优势,发展解释性报道和建设性新闻,进而巩固行业边界。(三)智能化信息分发:从个性化走向定制化人工智能应用于平台型媒体,以场景化、个...……更多
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
...有更好的性能和更快的推理速度; 此外,Memory3 提高了事实性并减轻了幻觉,并能够快速适应专业任务。方法介绍记忆电路理论有助于确定哪些知识可以存储为显式记忆,以及哪种模型架构适合读取和写入显式记忆。研究者将...……更多
AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了
...最快抵达成功的方式。xAI在首页展示了Grok-1和其他模型的基准测试对比连“中国AI教父”李开复也没躲过捷径的诱惑。这位互联网的多年从业者,创新工场的掌舵人,同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模...……更多
硅谷顶级VC的最新洞察:AI公司应该专注用户需求,而非模型构建
...所分化。Michael Mignano:的确。近来每周都有新的模型发布基准测试结果,声称自己比其他所有模型都更出色,然后一周后又有另一家公司做出类似主张。这种现象几乎让人感觉,所有模型都在朝着同一个方向收敛,我们正经历这...……更多
起猛了,GPT-4o被谷歌新模型击败,ChatGPT官号:大家深吸一口气
...比GPT-4o胜出54%,比Claude 3.5 Sonnet胜出59%。 在多语言能力基准测试中,它在中文、日语、德语、俄语均排名第一。但是,在Coding、Hard Prompt Arena中,它还是打不过Claude 3.5 Sonnet、GPT-4o、Llama 405B等对手。这一……更多
美国执念抹黑他国 恰似人工智能“幻觉”
...些伪造的内容看似合理通顺地编织在一起、但其实不符合事实的现象,比如一些模型曾经煞有介事地讲述“林黛玉三打白骨精”的故事。作为人工智能发展中的一个缺陷,机器“幻觉”的潜在危害引发了研究人员和大众的担忧。...……更多
“整活”保险业务,AI大模型哪家强?
...强的应用价值。 《报告》显示,由于国内大模型厂商在中文数据语料上更加丰富,因此国内头部大模型在回答专业领域的基础知识问询时,对国内情况更加了解,回答的表现也比国外大模型更加出色。“在知识问答方面,大模...……更多
谷歌大模型Gemini视频被质疑造假、夸大宣传,官方回应:演示内容有剪辑|钛媒体焦点
...,越来越多的用户对其早期版本的印象并不良好,仍存在事实性错误内容、信息过于陈旧等问题。尽管Gemini确实改进了Bard技术能力,但与ChatGPT-4相比,用户体验提升不大,因此其实际表现受到质疑。宾夕法尼亚大学沃顿商学院...……更多
更多关于科技的资讯:
王倩:以“法律+”思维,护航企业破局新生
巾帼不让须眉:年轻有为的破产破局者,王倩用专业赢得信任当企业陷入债务泥潭,当债权人与债务人的利益激烈碰撞,当投资人寻求危局中的机遇——破产业务从来不是简单的“清算注销”
2025-12-01 09:25:00
重塑健康增长范式,米连科技或将引领互联网发展新路径
在互联网行业经历深刻变革的今天,追求健康、可持续的增长模式已成为企业生存发展的关键。米连科技通过其独特的战略路径,向业界展示了一条超越“烧钱换规模”传统逻辑的新型发展道路
2025-12-01 09:55:00
《和平精英》地铁逃生「冰雪危途」全新赛季火热开启,这把雪赚到底!
列车一响,雪赚开场!《和平精英》地铁逃生全新赛季「冰雪危途」,11月29日,邀你雪赚启航!用创新玩法,拓宽地铁逃生摸金搜打撤的边界
2025-12-01 09:55:00
邮储银行唐山市分行以“政策落地+精准赋能”为主线,积极构建专业化科技金融服务体系,全力支持新质生产力发展。该行创新推出“网点深耕+全链服务”模式
2025-12-01 10:02:00
近日,人保财险唐山燕新路营销服务部组建专项服务小组,走进公司周边场所,开展“面对面、零距离”客户服务行动。活动现场,工作人员以客户需求为导向
2025-12-01 10:06:00
信息技术的迅速发展,尤其是大数据的广泛应用,正在推动医保体系发生深刻变革。传统的医保支付方式已经难以适应现代医疗服务的复杂性与多样化需求
2025-12-01 07:04:00
“一上午加了8位境外采购商”
本报讯(全媒体记者陈春伟、实习生罗家骏)“嘀”的一声,江西华昌竹业集团有限公司外贸经理严慧的微信好友列表里,又多了一位国际采购商
2025-12-01 07:05:00
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00
胡超 Charles Hu 获2026年《福布斯》“30 Under 30”能源与绿色科技榜单提名
近日,美国领创商业联盟主席、Reverse Energy Solutions Corp.(以下简称“RES”)联合创始人兼首席市场官(CMO)胡超(Charles Hu)近日正式
2025-11-30 12:08:00
11月28日,省工信厅公布首批山西消费名品名单。我市品牌水塔醋业凭借深厚产业积淀成为“时代优品”,优鲜多歌以新零售业态成为“潮流新锐”
2025-11-30 17:55:00