巅峰,推理,模型,风云,模型,测试头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...。Intel还采用KV Caching、PagedAttention机制和张量并行，提高推理效率。Intel的硬件也可利用软件框架和工具包进行加速，并获得出色的大模型推理性能，包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging F……更多

2024-07-18 14:57:00三条,通义,阿里,模型,参数,通义

以假乱真，天工音乐大模型带来颠覆式AI体验

...的，感情很到位，基本上代表了生成情感以假乱真的能力巅峰之作”“天工SkyMusic在高音演唱技巧上超出我的想象，非常优秀。”“太强了，1、AI音乐用户群体非常大；2、生成的音乐可以反复使用；3、很容易做社交裂变”“副...……更多

2024-04-03 11:35:00天工,颠覆,模型,体验,音乐,天工

让OpenAI o1逆天的慢思考，360两月前就做出来了？周

...读】o1大火背后，最关键的技术是CoT。模型通过一步一步推理，恰恰是「慢思考」的核心要义。而这一观点，其实这家国内大厂早就率先实现了。OpenAI的理念，居然被国内公司抢先践行了？比起OpenAI，这家公司的idea提出得更早，...……更多

2024-09-21 09:50:00周鸿,前瞻,应用,模型,推理,协作

自动化、可复现，基于大语言模型群体智能的多维评估基准

...上万的大规模语言模型（LLM），这些模型的各项能力（如推理和生成）也越来越强。因此，在多样的应用场景中对其进行性能基准测试已成为了一项重大挑战。目前最受欢迎的基准测试是 Chatbot Arena，它通过收集用户对模型输出...……更多

2024-10-23 12:03:00多维,基准,群体,模型,自动化,评估

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

又慢又贵？OpenAI推理模型“草莓”来了，GPT-5还有多

...9月12日，人工智能（AI）巨头OpenAI发布代号“草莓”的AI推理模型OpenAI o1系列，包括OpenAI o1-preview以及小版本的o1-mini。据OpenAI介绍， o1会花更多时间思考问题，然后再做出反应，就像人一样。通过训练学会了完善自己的思考过程...……更多

2024-09-13 15:28:00多远,推理,草莓,模型,模型,思维

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...爆火，利用纯提示方法让普通LLM摇身一变，成为具备复杂推理能力的OpenAI o1。九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多

2024-11-08 09:43:00太贵,推理,进化,提示,能力,方法

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

...较长的小说了。更重要的是，LLM真的能在这个长度上进行推理吗？近日，有两篇独立研究分别表明：长上下文水分很大！LLM实际上并不能「理解」内容。读小说挑战首先是来自UMass、AI2和普林斯顿的研究人员，推出了一项针对性...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

OpenAI新功能 “深度研究” 登场，人类终极考试的表现超

...过专门优化，适配网页浏览和数据分析场景。它能够运用推理能力，在互联网上搜索、解读和分析海量的文本、图像和PDF文件，并能根据所遇到的信息灵活调整研究方向。值得注意的是，在对这个智能体的能力评测中，OpenAI特...……更多

2025-02-04 04:25:00新功能,终极,深度,人类,考试,研究

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o

快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。据了解，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时...……更多

2025-01-16 14:56:00通义,阿里,推理,模型,尺寸,奖励

神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最

...。谷歌表示，现有的人工智能模型通常只处理一种类型的推理，如图片或文本，而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入，组合文本、图像、音频、视频和编程代码。未来，谷歌还计划将 Gemini添...……更多

2023-12-07 16:15:00神仙,模型,观察,科技,模型,任务

PyTorch官宣：告别CUDA，GPU推理迎来Triton

...PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「CUDA版本必须与...……更多

2024-09-07 09:48:00新时代,推理,内核,矩阵,乘法,英伟

科研也完了，AI暴虐170位人类专家！Nature子刊：大模

...读、科研的解决方案，其通用能力覆盖了专业考试、有限推理、翻译、解决数学问题，甚至还能写代码。已有的研究考察了大模型在科研领域的表现，但基准数据集大多属于「回顾性质」的，比如MMLU、PubMedQA和MedMCQA，主要以问...……更多

2024-12-09 09:50:00暴虐,准确率,模型,高达,完了,科研

GPT-4劲敌，谷歌进入高能+高产模式

...三，其他都没有什么是不可替代的。Gemini 1.5 Pro是谷歌与巅峰对决的又一利器，或许AGI时代正加快到来。本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com正在改变与想要改变世界的人，...……更多

2024-02-21 14:05:00劲敌,高产,模式,模型,上下文,处理

微软发布旗下最小语言模型phi-2

...写电子邮件和故事，以及总结文本。在常识、语言理解和推理的基准测试中，该模型在某些领域能够跟上多达100亿个参数的模型。微软现在更新发布的Phi-2拥有27亿参数，规模虽然比此前版本翻番，但相比较其它主流语言模型，...……更多

2023-11-17 14:00:00微软,旗下,模型,语言,模型,微软

超强AI来袭！OpenAI最新AI模型 “草莓”即将上线，推

...但其实这个模型的能力可不容小觑，它能够通过多步骤的推理解决复杂的问题。根据《信息》网站的报道，“草莓” 模型将视为一种推理模型，这意味着它能够处理一些需要多步骤来完成的请求，比如解答难度较大的代数题，...……更多

2024-09-12 10:02:00推理,草莓,模型,能力,模型,草莓

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:

...M) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能的发展产生帮助？LLM 为什么会犯...……更多

2024-08-06 09:27:00推理,模型,内心,人类,世界,模型

连发两款模型“补课”，百度AI成色如何？

...李彦宏，百度近日低调发布两款大模型——文心4.5和深度推理模型文心X1，免费。两年前的3月，百度发布了对标ChatGPT的文心一言。这是全球大厂中首个生成式AI产品，也让外界看到百度相对迅速的先手布局。不过，百度后来采取...……更多

2025-03-20 11:38:00成色,补课,模型,文心,模型,模态

谷歌大模型推理范式，主要分为两个阶段

...新研究“自我发现”（Self-Discover），重新定义了大模型推理范式。与已成行业标准的思维链（CoT）相比，新方法不仅让模型在面对复杂任务时表现更佳，还把同等效果下的推理成本压缩至1/40。核心策略其实很简单：千人千面。...……更多

2024-02-10 21:09:00范式,推理,模型,阶段,两个,模型

零一万物新模型 Yi-Lightning 发布：LMSYS

...4-05-13）。模型性能升级之余，零一万物宣称 Yi-Lightning 的推理速度也有提升，首包时间较上半年发布的 Yi-Large 减少一半，最高生成速度提速近四成。同时，Yi-Lightning 实现了推理成本的进一步下降。目前 Yi-Lightning 已上线 Yi 大模...……更多

2024-10-17 09:57:00万物,模型,国产,测试,模型,万物

专注于推理的OpenAI“草莓”模型两周内发布？是人工智能下

...“秋季发布”（9月至11月）要更早。上述报道称，专注于推理能力的人工智能“草莓”发布前后还有一些亟待解决的问题，但看似“仓促上马”似乎说明OpenAI感受到了大语言模型驱动产品领域的激烈竞争压力，希望通过近几个月...……更多

2024-09-11 09:55:00人工智能,推理,草莓,人工,模型,突破

奥特曼晒“草莓”引热议神秘新模型现身竞技场网友第一波实测

...级智能的关键一步。它被指具有这些特性，比如在数学和推理能力方面有很大的提升，突破了人类数据的限制，可以自己生产巨量训练数据，有自主学习和自我改进的能力等等。在草莓项目正式被曝光的前几天，OpenAI科学家Noam B...……更多

2024-08-08 15:11:00奥特,奥特曼,一波,实测,竞技场,草莓

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型，平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估