正确率,长上,下文,模型,只是,能力头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开

新智元报道编辑：alan【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向...……更多

2024-07-23 17:12:00正确率,长上,下文,模型,只是,能力

真香！智谱大模型，有了首个免费的API

...个姐妹，那么爱丽丝的兄弟有多少个姐妹呢？」问题时，正确率非常低。我们让 GLM-4-Flash 试了试，回答正确。改变了主角性别和亲属关系之后，GLM-4-Flash 同样可以理解，再次回答对了。测试 3：对于多人真假话判断问题，GLM-4-Fla...……更多

2024-08-28 09:43:00真香,模型,模型,能力,应用,开发

多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

...模型在该网页/片段下尝试回答该样本，根据模型回答的正确率进行打分。基于这样的伪标注方法，研究人员构造了~80w样本用于训练。最后一步，人为验证。构造测试集时，研究者对第3步得到的视觉问答样本进行了人为筛选，确...……更多

2024-11-11 13:34:00模态,接入,框架,模型,效果,互联网

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发

...长度为2048个token的英语数据上进行训练，可能在多语言或长上下文上表现不佳。在未来的版本中，作者计划包括对更多具有更长上下文的多语言数据集的训练。最后，这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和...……更多

2024-08-05 09:37:00准确率,模型,评估,评估,模型,数据

Bengio团队提出多模态新基准，直指Claude 3.5和

...时间、地名、人名的错误，人类在简单难度下的中文平均正确率约为 98.58%，在困难难度下的中文平均正确率约为 91.84%。而去掉这些因为时间、地名、人名的错误，人类在简单难度的中文下几乎接近满分，而中文困难难度下正确...……更多

2024-06-29 09:37:00模态,基准,弱点,团队,模型,任务

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，支持更多模态的基础模型可以接受更灵活...……更多

2024-08-22 09:51:00英伟,准确率,支持,视频,序列,训练

自我纠错如何使OpenAI o1推理能力大大加强?北大MIT

...效果的影响。主要结论如下：多数情况下，自我纠错后的正确率高于原正确率（图4）正确率提升与自我评估的准确率高度相关（图4(c):），甚至呈线性关系（图5（a））。采用不同的评价方式效果依次提升：仅使用对/错评价 &...……更多

2024-11-19 09:48:00推理,北大,团队,解释,能力,理论

无一大模型及格！北大/通研院提出超难基准，评估长文本理解生

...数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估LLMs对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的...……更多

2024-08-08 09:39:00基准,北大,生成,模型,文本,评估

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...种日常活动。评测结果表示，人类专家水平显著优于目前长上下文多模态模型中最厉害的Gemini Pro 1.5（85.0%对37.3%）。在多模态能力上，大模型们还任重而道远。HourVideo如何炼成？之所以提出HourVideo，是因为研究人员发现目前长...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Tr

...上说，除非显著增加架构的规模，否则Transformer将无法在长上下文中进行任意精确的计数。这表明在计数任务中，我们可能需要借助于不具有相同限制的工具，例如代码解释器等。 ……更多

2024-09-09 13:36:00小哥,原地,外国,论文,小哥,研究者

王小川公布最新大模型，号称全球最长上下文，是GPT-4的14

...Baichuan2-192K是目前全球最长的上下文窗口，也是目前支持长上下文窗口最优秀大模型Claude2（支持100K上下文窗口，实测约8万字）的4.4倍，更是GPT-4（支持32K上下文窗口，实测约 2.5万字）的14倍（1400%）。这不仅在上下文窗口长度上...……更多

2023-10-30 15:02:00王小川,王小,上下文,模型,上下,焦点

腾讯推出 Hunyuan-Large 开源大模型

...据增强训练，Hunyuan-Large能够学习到更丰富的表示，处理长上下文输入，并更好地泛化到未见数据KV缓存压缩：采用分组查询注意力（GQA）和跨层注意力（CLA）策略，显著减少了KV缓存的内存占用和计算开销，提高了推理吞吐专家...……更多

2024-11-05 18:56:00腾讯,模型,模型,长上,腾讯,训练

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GP

...GPT-4进行了一场能力评测。▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。谷歌Gemini系列以其标志性...……更多

2024-05-17 14:26:00实测,巅峰,选手,记者,明星,模型

马斯克 xAI 推出 Grok-1.5 大语言模型

...anEval 基准测试中得分为 74.1%。IT之家附测试对比表如下：长上下文理解方面，Grok-1.5 能够在其上下文窗口内处理多达 128k tokens 的长上下文。这使得 Grok 的内存容量增加到之前上下文长度的 16 倍，从而能够理解更长文档中的信息...……更多

2024-03-29 14:00:00马斯,马斯克,模型,语言,基准,上下文

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...动的LLM文本生成」。RAG于2020年推出，它使用动态提示上下文，通过用户问题检索并注入LLM提示，以引导其使用检索到的内容，而不是预训练的知识。Chat LangChain是由RAG支持的、在Lang Chain文档上流行的Q/A聊天机器人。上下文学习...……更多

2024-08-27 12:03:00小白,长文,千字,基础,指南,训练

大幅减缓幻觉百融云创大模型精度测评结果出炉

...高了大模型的准确性和可靠性，还使其能够更好地理解上下文，并将检索到的知识融入到生成过程中，从而生成更加贴合实际需求的文本。但RAG也并非完美无缺。互联网上的信息五花八门，存在着大量的干扰内容，甚至假新闻，...……更多

2024-03-28 16:16:00精度,幻觉,模型,结果,模型,幻觉

开源大模型杀疯了！Mistral新模型三分之一参数卷爆Lla

...个新的前沿”。Mistral Large 2尤其擅长代码和数学推理，上下文窗口128k，支持数十种自然语言以及80+编程语言。特别在MMLU上，其预训练版本更是达到了84.0%的准确率。消息一出，Mistral AI联创兼首席科学家第一时间转发，直接cue Lla...……更多

2024-07-26 09:39:00模型,参数,模型,基准,问题,推理

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...专家模型架构。这一模型系列中最小的Phi-3.5-mini-instruct在长上下文代码理解任务以明显优势击败Llama-3.1-8B-instruct和Mistral-7B-instruct，而其参数规模还不到Llama-3.1-8B-instruct的一半。微软本次发布的3款模型的名字中……更多

2024-08-22 09:49:00上下文,微软,架构,模型,上下,性能

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Ma

...），MixCon（无 MoE）训练过程损失更低（如图 6 所示）。长上下文评估利用问答基准测试评估 MixCon 处理长上下文能力，使用 L - Eval 中最长上下文数据集的五个数据集，以少样本格式（每个实验用三个例子）进行实验。在 Narrativ...……更多

2024-10-16 13:34:00序列,架构,北大,混合,团队,性能

中国财税GPT迎来最准确的大模型：小竹财税AI问世

...AI于2023年底正式问世。这款财税领域的GPT以财税理论回答正确率高达92%的惊人成绩，率先占领了业内第一梯队。同时，小竹财税成功获得1000万元天使轮融资。据了解，小竹财税（安徽小竹信息技术有限公司）成立于2021年11月，...……更多

2024-03-14 13:30:00中国,模型,模型,领域,需求,正确率

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质

...。该观点还指出，人类在解决数学问题时通常有明确的上下文，而 LLM 在处理数学问题时可能没有这样的上下文。因此，如果通过适当的提示工程，向模型明确这是一个数学考试的环境，那么它们在添加多余子句时导致的性能下...……更多

2024-10-14 09:55:00数学题,推理,废话,苹果,数学,小学

古早费曼论文手写公式也能转LaTeX，马斯克Grok功能上线

...的成绩。之后，xAI 迅速推出 Grok 1.5，新一代模型实现了长上下文理解和高级推理能力。8 月，Grok 2 上线，在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。如今，在 xAI 不断完善下，大家终...……更多

2024-10-30 09:54:00马斯,马斯克,费曼,公式,功能,论文

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...，模型不仅要识别和提取文本，还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。CoT有助于回答MMMU-Pro问题吗？在MMMU-Pro基准测试中，研究人员估了思维链（Chain of Thought，简称CoT）提示在提升智能体性...……更多

2024-09-18 13:31:00模态,史诗,基准,难度,问答,文本

上交大推出“可进化游戏引擎”！虚拟世界演化无需预设

...（Naive Evaluation）：评估引擎的正确性，包含两个指标。正确率（Acc）：即生成的代码是否正确地实现了应有的功能。执行率（Exe）：即生成的代码是否能通过编译，不论正确与否。Exe对于用户的体验感非常重要，很多情况下，...……更多

2024-09-05 10:04:00交大,进化,引擎,世界,研究人员,引擎

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地

...满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法，并且有情商、说人话、能面对各种复杂情景。而且上手门槛很低。比如参赛选手云蝠智能，他们的主打业务是电话客服，在文本客服方面的积累不多...……更多

2024-09-23 09:53:00大姨,一群,落地,智能,百炼,模型

重要突破！西湖大学团队和浙二医院共同实现脑机接口中文解码

...数平均仅为29%，部分参与者通过脑电解码得到的句子完全正确率达到了30%。相对高效的解码性能得益于三个独立音节元素解码器的优秀表现和智能语言模型的完美配合。特别的是在分类21个声母方面，声母解码器的准确率超过了4...……更多

2023-11-29 11:46:00西湖,中文,接口,团队,突破,医院

Kimi爆火背后：访问量仅次于文心一言和阿里通义，国内外大模

...一款面向C端的大模型产品。早前，该公司宣布在大模型长上下文窗口技术上取得新的突破，Kimi已支持200万字超长无损上下文，并开启产品内测，该能力在不到半年内提升9倍。市场的火爆，导致Kimi服务器一度瘫痪，无法回复用...……更多

2024-03-23 14:00:00卷上,通义,阿里,文心,下文,模型

OpenAI发布最新技术研究，AI“黑盒”不再是难题！

...数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。另一方面，可能由...……更多

2024-07-18 09:47:00最新技术,难题,研究,技术,模型,小数

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...索步骤对论文块进行排序，然后进行大模型重新排序和上下文摘要（RCS）步骤。在回答 LitQA2 问题时，PaperQA2 平均每道题解析并使用 14.5 ± 0.6（平均值 ± SD，n = 3）篇论文。在 LitQA2 上运行 PaperQA2 可获得 85.2% ± 1.1%（平均值 ……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力