事实性,基准,中文,评测,事实,模型头条新闻资讯订阅

我的订阅
头条热搜

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

...含34B和6B两个版本。据HuggingFace英文开源社区平台和C-Eval中文评测的最新榜单，Yi-34B预训练模型取得了多项SOTA国际最佳性能指标认可，成为全球开源大模型“双料冠军”。零一万物创始人及CEO李开复博士表示:“零一万物坚定进军...……更多

2023-11-06 15:25:00阿里,万物,模型,评测,冠军,全球

清华郑纬民院士：AI for Science的出现，让高性能

...外，他还谈到人工智能计算机设计的三大平衡性原则、AI基准设计四大目标以及如何通过并行方法加速大规模预训练模型。为了完整体现郑纬民院士的分享及思考，在不改变原意的基础上，量子位对他的演讲内容进行了编辑整理...……更多

2023-01-11 05:00:00清华,院士,高性能,人工智能,模型,智能

百川智能发布baichuan3稳定语言模型

...U、GAOKAO和AGI-Eval中，Baichuan3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色，证明了Baichuan3在自然语言处理和代码生成领域的强大实力。不仅如此，其在对...……更多

2024-01-29 19:57:00百川,模型,语言,智能,模型,百川

云从科技：大模型五虎与AI智能体的领航者

...型五虎？权威测评机构SuperCLUE此前发布了《中文大模型基准测评4月报告》，云从科技自主研发的从容大模型凭借其在多个领域的出色表现，赢得了行业内外的广泛关注，不仅成功晋升至SuperCLUE模型象限的【领导者象限】，更以...……更多

2024-08-08 17:45:00五虎,领航,模型,智能,科技,智能

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你

...位于澳大利亚，再检索澳大利亚的多数党。查询仍然围绕事实性问题，但答案并没有明确地出现在任何某一个文本段落中，而是需要通过常识推理、结合多个事实来得出结论，所需的信息可能分散在多个段落中。主要难点1. 适...……更多

2024-11-22 09:54:00银弹,数据,姿势,难度,解决方案,方案

创新推出真实案件模拟听证

...案件审理，有力推动了西北五省（区）税务行政处罚裁量基准统一，防范税收执法风险，做到案结事了。 ……更多

2024-02-28 05:02:00案件,西安,特派,农产,案件,税务

AI安全守护计划启动！信通院牵头，AIIA安全治理委员会发布

...能治理展开，安全组主要开展大模型安全、合规等研究及基准测试。今年6月，中国信通院依托该委员会发起“人工智能安全守护计划”，包括建立威胁信息共享机制、开展AIGC真实内容来源可信工作、建立AI保险机制等。一、成...……更多

2024-07-25 09:26:00安全,信通,模型,评测,委员会,委员

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

...，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009年，李飞飞团队在CVPR上首次对外展示了图像识别数据集ImageNet，...……更多

2024-11-11 13:31:00团队,智能,空间,视频,模态,模型

检索总结能力超博士后，首个大模型科研智能体PaperQA2开

...，但在研究工作中使用仍然有很多限制。对于科研来说，事实性至关重要，而大模型会产生幻觉，有时会自信地陈述没有任何现有来源或证据的信息。另外，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能...……更多

2024-09-13 13:33:00博士后,模型,科研,博士,检索,能力

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：

【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务，全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减，表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降...……更多

2024-11-26 09:51:00多语,大比,基准,指令,任务,语言

新闻传播业的生成式人工智能应用及其风险应对

...望利用智能工具提升生产力，放大人类记者在新闻深度和事实核查等方面的独特优势，发展解释性报道和建设性新闻，进而巩固行业边界。（三）智能化信息分发：从个性化走向定制化人工智能应用于平台型媒体，以场景化、个...……更多

2024-06-13 10:23:00传播业,人工智能,人工,生成,风险,传播

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

...有更好的性能和更快的推理速度；此外，Memory3 提高了事实性并减轻了幻觉，并能够快速适应专业任务。方法介绍记忆电路理论有助于确定哪些知识可以存储为显式记忆，以及哪种模型架构适合读取和写入显式记忆。研究者将...……更多

2024-07-11 09:33:00维南,领衔,院士,新作,模型,存储

AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了

...最快抵达成功的方式。xAI在首页展示了Grok-1和其他模型的基准测试对比连“中国AI教父”李开复也没躲过捷径的诱惑。这位互联网的多年从业者，创新工场的掌舵人，同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模...……更多

2023-12-20 00:10:00王者,抄袭,模型,万物,公司,数据

硅谷顶级VC的最新洞察：AI公司应该专注用户需求，而非模型构

...所分化。Michael Mignano：的确。近来每周都有新的模型发布基准测试结果，声称自己比其他所有模型都更出色，然后一周后又有另一家公司做出类似主张。这种现象几乎让人感觉，所有模型都在朝着同一个方向收敛，我们正经历这...……更多

2024-03-02 13:37:00硅谷,洞察,模型,顶级,需求,用户

起猛了，GPT-4o被谷歌新模型击败，ChatGPT官号：大

...比GPT-4o胜出54%，比Claude 3.5 Sonnet胜出59%。在多语言能力基准测试中，它在中文、日语、德语、俄语均排名第一。但是，在Coding、Hard Prompt Arena中，它还是打不过Claude 3.5 Sonnet、GPT-4o、Llama 405B等对手。这一……更多

2024-08-05 09:36:00一口,模型,一口气,模型,竞技场,竞技